일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 백준
- FastAPI
- 코딩테스트
- rnn
- datascience
- pep8
- Kaggle
- 네이버AItech
- Kubernetes
- GIT
- torchserve
- vscode
- python
- GCP
- PytorchLightning
- github
- GitHub Action
- NaverAItech
- 알고리즘
- leetcode
- 프로그래머스
- wandb
- docker
- Matplotlib
- autoencoder
- pytorch
- NLP
- FDS
- 완전탐색
- DeepLearning
- Today
- Total
목록네이버AItech (3)
Sangmun
https://arxiv.org/pdf/1508.07909.pdf https://huggingface.co/docs/transformers/tokenizer_summary#subword-tokenization Summary of the tokenizers Reinforcement learning models huggingface.co 개요 단어 단위로 vocab을 구성을 하면 임베딩을 사용할 때 임베딩의 매개변수가 많이 커지게 되는 단점이 있다. 이는 RNN층의 매개변수의 수보다 압도적으로 많게 됩니다. 이런 매개변수 비중의 비대칭성을 해결하기 위해 문자 단위 토큰화가 주목을 받았으나 너무 길어진 sequence와 성능 저하의 문제점이 발생하게 됩니다. 따라서 서브워드 단위로 토큰화를 진행하게 되었는데 ..
http://colah.github.io/posts/2015-08-Understanding-LSTMs/
https://web.stanford.edu/class/cs224n/slides/cs224n-2019-lecture08-nmt.pdf 보통 NLG 같은 task에서는 자연어를 생성할 때 매 타입스텝마다 decoder를 거쳐서 나온 단어가 다음 타임스텝의 input으로 들어가게 된다. 그리고 decoder에서는 매 타임스텝마다 가장 확률이 높은 단어를 선택해서 출력을 하게 되는데 이것을 Greedy decoding이라고 한다. 하지만 Greedy decoding의 문제점은 매 타임스텝의 최대 확률 값만을 고려하는 것이 전체 타임스텝으로 보면 적절하지 않은 문장을 출력으로 가지게 될 수 있다는 점이다. 그렇다면 greedy decoding에서 하는 방식인 현재 타입스텝만의 확률을 고려하는 방식이 아닌 전체 ..