BPE2 [논문 리뷰] BPE Tokenizer [논문] Neural Machine Translation of Rare Words with Subword Units Abstract Neural machine translation (NMT) 모델의 고정 어휘로 작동하는 한계점과 이를 극복하기 위한 새로운 방법(단어를 부분 단어 단위의 시퀀스로 인코딩)을 소개합니다. NMT는 일반적으로 고정된 어휘로 작동하지만, 번역에는 개방 어휘 문제가 존재합니다. 즉, 모델이 학습할 때 정해진 어휘 사전 외에 존재하는 새로운 단어들에 대해 어떻게 처리할지에 대해 고민해야합니다. 과거에는 사전에 존재하지 않은 단어(out-of-vocabulary word) 번역을 위해 "Backing off dictionary"를 활용하였습니다. 백오프(back-off) 사전은 OOV.. 2024. 2. 4. 자연어 처리 진행 순서 1. 자연어 처리의 다양한 Task 자연어 처리(Natural Language Processing, NLP)는 기계가 인간의 언어를 이해하고 처리하는 데에 관한 분야로, 다양한 작업(Task)들이 이루어지고 있습니다. https://medium.com/nlplanet/two-minutes-nlp-33-important-nlp-tasks-explained-31e2caad2b1b Two minutes NLP — 33 important NLP tasks explained Information Retrieval, Knowledge Bases, Chatbots, Text Generation, Text-to-Data, Text Reasoning, etc. medium.com 1-1. Text Classificati.. 2024. 1. 19. 이전 1 다음