'BPE' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

글쓰기
방명록
RSS
관리

목록BPE (1)

Sangmun

[NLP] Byte Pair Encoding

https://arxiv.org/pdf/1508.07909.pdf https://huggingface.co/docs/transformers/tokenizer_summary#subword-tokenization Summary of the tokenizers Reinforcement learning models huggingface.co 개요 단어 단위로 vocab을 구성을 하면 임베딩을 사용할 때 임베딩의 매개변수가 많이 커지게 되는 단점이 있다. 이는 RNN층의 매개변수의 수보다 압도적으로 많게 됩니다. 이런 매개변수 비중의 비대칭성을 해결하기 위해 문자 단위 토큰화가 주목을 받았으나 너무 길어진 sequence와 성능 저하의 문제점이 발생하게 됩니다. 따라서 서브워드 단위로 토큰화를 진행하게 되었는데 ..

네이버 AI 부스트캠프 4기 2022. 10. 20. 22:05

이전 Prev 1 Next 다음

목록BPE (1)

Sangmun

티스토리툴바