Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Kaggle
- autoencoder
- docker
- GCP
- pep8
- GitHub Action
- Matplotlib
- GIT
- FastAPI
- 백준
- torchserve
- Kubernetes
- datascience
- vscode
- PytorchLightning
- leetcode
- 네이버AItech
- NLP
- 코딩테스트
- github
- wandb
- NaverAItech
- pytorch
- rnn
- DeepLearning
- 알고리즘
- 완전탐색
- python
- 프로그래머스
- FDS
Archives
- Today
- Total
목록BPE (1)
Sangmun
[NLP] Byte Pair Encoding
https://arxiv.org/pdf/1508.07909.pdf https://huggingface.co/docs/transformers/tokenizer_summary#subword-tokenization Summary of the tokenizers Reinforcement learning models huggingface.co 개요 단어 단위로 vocab을 구성을 하면 임베딩을 사용할 때 임베딩의 매개변수가 많이 커지게 되는 단점이 있다. 이는 RNN층의 매개변수의 수보다 압도적으로 많게 됩니다. 이런 매개변수 비중의 비대칭성을 해결하기 위해 문자 단위 토큰화가 주목을 받았으나 너무 길어진 sequence와 성능 저하의 문제점이 발생하게 됩니다. 따라서 서브워드 단위로 토큰화를 진행하게 되었는데 ..
네이버 AI 부스트캠프 4기
2022. 10. 20. 22:05