일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- leetcode
- 프로그래머스
- FDS
- autoencoder
- docker
- 백준
- 네이버AItech
- python
- 알고리즘
- 코딩테스트
- PytorchLightning
- pytorch
- datascience
- NaverAItech
- wandb
- vscode
- torchserve
- NLP
- GCP
- Kubernetes
- pep8
- Kaggle
- DeepLearning
- 완전탐색
- GitHub Action
- FastAPI
- rnn
- github
- Matplotlib
- GIT
- Today
- Total
목록개발 (38)
Sangmun
NLP로 뉴스데이터를 처리하는 작업을 하고 있는데 저작권에 대한 좀 더 깊은 이해가 필요한것 같아서 필요한 내용을 정리를 해보았다. 아래에 후술할 CCL을 보면 당연히 뉴스데이터는 구매를 하지 않고는 저작권에 위배 되어 NLP 프로젝트에 보통 적용이 불가능하다.. 위키트리를 제외하고는 저작권법 제1조 (목적) 이 법은 저작자의 권리와 이에 인접하는 권리를 보호하고 저작물의 공정한 이용을 도모함으로써 문화 및 관련 산업의 향상발전에 이바지함을 목적으로 한다. 저작권 사람의 생각이나 감정을 표현한 결과물(저작물)에 대하여 창작자에게 주는 권리로 "창작성"이 있다면 별도의 등록절차없이 자연히 발생 저작물의 종류 사람의 생각이나 감정을 표현한 결과물 1. 소설, 시, 논문, 강연, 연설, 각본 그 밖의 어문저작..
파이썬에서는 정규표현식을 지원하는 re(regular expression) 모듈이 있으며 기본 모듈임으로 따로 설치할 필요는 없다. 정규표현식을 지정해서 아래와 같이 컴파일을 해서 패턴을 지정해 준다. import re pattern = re.compile('ab*') 1. RE 모듈 기본 함수 문자열을 검색할 수 있는 함수는 아래와 같이 4개가 있다. match() : 문자열의 처음부터 정규식과 매치되는지 조사 search() : 문자열 전체를 검색하여 정규식과 매치되는지 조사 findall() : 정규식과 매치되는 모든 substring을 리스트로 리턴 finditer() : 정규식과 매치되는 모든 substring을 반복 가능한 객체로 리턴 * 예시 아래와 같은 알파벳 소문자가 0부터 ~ 무한대까지..
정규표현식에서의 메타 문자란 원래 의미로 사용되지 않고 특별한 의미로 사용되는 문자를 말한다. 정규표현식에서의 메타 문자는 아래와 같은 것들이 있다. . ^ $ * + ? { } [ ] \ | ( ) 문자 클래스 '[ ]' '[ ]'사이의 문자들과의 매치라는 의미를 가지며 [abc]라는 정규표현식이 있다면 'a,b,c' 중 한개의 문자와의 매치를 의미한다. 예시를 들어보면 아래와 같이 적용이 된다. "a"는 정규식과 일치하는 문자인 "a"가 있으므로 매치 "before"는 정규식과 일치하는 문자인 "b"가 있으므로 매치 "dude"는 정규식과 일치하는 문자인 a, b, c 중 어느 하나도 포함하고 있지 않으므로 매치되지 않음 '[ ]'안의 문자 사이에 하이픈을(-)을 사용하면 범위를 의미한다. 즉 [a-..
1. KoNLPy pip install konlpy 한국어 말뭉치를 처리하기 위해 각 문장의 품사를 분석하기 위한 패키지 이며 여러가지 모듈을 제공한다. * Kkma, Komoran, Hannanum, Okt, Mecab 등등... 각각의 모듈들은 사용 하는 품사 태그나, 실행시간과 성능에 차이가 있다고 한다. 모듈별 품사 태그 : https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0 모듈별 성능 비교 : https://konlpy.org/ko/latest/morph/#comparison-between-pos-tagging-classes 2. Khaiii KoNLPy는 통계기반으로 형태소를..
프로젝트 간 elastic search를 이용한 검색 및 간단한 시각화 기능이 필요해서 elastic search와 kibana를 ubuntu에 설치를 해보았다. 1. Elasticsearch 설치 # sudo 설치 apt-get update && apt-get -y install sudo # 패키지 색인을 업데이트 sudo apt update # HTTPS를 통해 리포지토리에 액세스하는 데 필요한 apt-transport-https 패키지를 설치 sudo apt install apt-transport-https # OpenJDK 8 설치 sudo apt install openjdk-8-jdk java -version # openjdk version "1.8.0_191" # OpenPGP 암호화 툴 설치..
이런걸 알고 싶지 않았다 ㅅㅂ 커밋을 한 경우 커밋을 한 경우에는 git reflog 명령어들을 이용해서 이동하고 싶은 지점을 찾고 (보통은 직전 지점일 것으로 예상한다) git reset --hard commit-id 명령어로 원하는 지점으로 돌아가주면 쉽게 해결이 된다. 커밋을 하지 않은 경우 이 경우가 문제인데.... 파일들이 git add로 staged된 상태에서 커밋만 하지 않고 git reset --hard 명령어를 이용해서 다른 지점으로 넘어간 경우이다. 즉 staged 되었던 파일들이 그대로 날아가게 된다. 다행히 복구할 방법이 있기는 했고... 나의 경우에는 해당 방법과 관련한 좀 더 유용한 옵션을 몰라서 좀 애를 먹었지만 어쨌든 살리는 데는 성공은 했다. 아무튼 우선 git fsck -..
flake8과 같은 Link 도구를 이용하여 코드를 검사했다면 이제는 코딩 스타일의 통일이 필요한 부분을 알아서 수정을 해줘야 하는데 그러한 역할을 해주는 패키지가 python의 black이다. black은 현시점 기준 formatter 중에서 가장 start의 개수가 많은 프로젝트이다. https://star-history.com/#psf/black&google/yapf&hhatto/autopep8\ 설치 pip install black 사용방법 black {파일 또는 폴더 이름} 위와 같이 사용을 해주면 파일들이 코딩 컨벤션에 따라 자동으로 수정이 된다. 어떻게 수정이 되는지는 아래의 black playground에서 직접 실험을 해볼 수 있다. https://black.vercel.app Black..
flake8은 pep8 코딩컨벤션을 준수하는 Lint를 위한 패키지이다. 정적으로 코드를 검사를 해주면 수정은 해주지 않는다. 수정을 해주는 패키지는 black으로 다음번에 다룰 예정이다. flake8 설치 pip install flake8 flake 사용법 아래와 같이 파일명을 입력하거나 파일명을 입력하지 않으면 폴더 전체를 검사한다. flake8 # 폴더 전체 검사 flake8 file_name.py # 한개의 파일만 검사 flake8 설정파일 .flake8 file을 생성해주어 아래와 같은 내용을 입력하면 제외할 폴더와 파일은 제외를 하고 또한 무시할 에러메시지도 설정 할 수 있따.. [flake8] exclude = .git, .gitignore, *.pot, *.py[co], __pycache_..