토크나이저2 [논문 리뷰] BPE Tokenizer [논문] Neural Machine Translation of Rare Words with Subword Units Abstract Neural machine translation (NMT) 모델의 고정 어휘로 작동하는 한계점과 이를 극복하기 위한 새로운 방법(단어를 부분 단어 단위의 시퀀스로 인코딩)을 소개합니다. NMT는 일반적으로 고정된 어휘로 작동하지만, 번역에는 개방 어휘 문제가 존재합니다. 즉, 모델이 학습할 때 정해진 어휘 사전 외에 존재하는 새로운 단어들에 대해 어떻게 처리할지에 대해 고민해야합니다. 과거에는 사전에 존재하지 않은 단어(out-of-vocabulary word) 번역을 위해 "Backing off dictionary"를 활용하였습니다. 백오프(back-off) 사전은 OOV.. 2024. 2. 4. 워드 임베딩 시각화 # 폰트 다운로드 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 1. 네이버 영화 리뷰 데이터셋 총 200,000개의 리뷰로 구성된 데이터로, 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋 리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음 import urllib.request import pandas as pd # 바로 접속해서 지정해준 파일명으로 저장 urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', filename='ratings_train.. 2024. 1. 31. 이전 1 다음