본문 바로가기

AI32

[논문 리뷰] BPE Tokenizer [논문] Neural Machine Translation of Rare Words with Subword Units Abstract Neural machine translation (NMT) 모델의 고정 어휘로 작동하는 한계점과 이를 극복하기 위한 새로운 방법(단어를 부분 단어 단위의 시퀀스로 인코딩)을 소개합니다. NMT는 일반적으로 고정된 어휘로 작동하지만, 번역에는 개방 어휘 문제가 존재합니다. 즉, 모델이 학습할 때 정해진 어휘 사전 외에 존재하는 새로운 단어들에 대해 어떻게 처리할지에 대해 고민해야합니다. 과거에는 사전에 존재하지 않은 단어(out-of-vocabulary word) 번역을 위해 "Backing off dictionary"를 활용하였습니다. 백오프(back-off) 사전은 OOV.. 2024. 2. 4.
KLUE 1. KLUE(Korea Language Understanding Evaluation) KLUE(Korea Language Understanding Evaluation)는 한국어 자연어 이해 평가를 위한 데이터셋으로, 다양한 종류의 자연어 처리 과제를 포함하고 있습니다. 이 데이터셋은 한국어 언어모델을 공정하게 평가하기 위해 공개되었으며, 총 8가지 종류의 과제를 포함하고 있습니다. 이 중 일부 과제에 대해 간략한 소개를 해보겠습니다. 뉴스 헤드라인 분류: 주어진 뉴스 헤드라인을 분류하는 과제로, 주제나 카테고리를 정확하게 예측하는 능력을 평가합니다. 문장 유사도 비교: 두 문장 간의 유사도를 비교하는 과제로, 문장 간의 의미적 유사성을 평가합니다. 자연어 추론: 주어진 전제와 가설 사이의 관계를 추론하.. 2024. 2. 2.
[논문 리뷰]attention 매커니즘 [논문] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE introduce 최근에 제안된 신경 기계 번역 모델들은 대부분 인코더-디코더 방식을 사용합니다. 이 방식은 소스 문장을 고정 길이 벡터로 인코딩하고, 디코더를 통해 번역을 생성합니다. 그러나 고정 길이 벡터는 문장의 특성을 담을 수 있는 양동이로 생각할 수 있습니다. 문장의 크기가 길어지면 양동이에 모든 정보를 담기 어렵고, 기울기 소실 문제가 발생할 수 있습니다. 이 논문은 모델이 목표 단어와 관련이 큰 부분을 찾아 고정 길이 벡터의 한계를 극복하도록 제안합니다. 이렇게 하면 중요한 단어를 양동이에 우선적으로 담을 수 있어 문장의 의미가 보다 명확해집니다. 신경 기계 .. 2024. 1. 31.
워드 임베딩 시각화 # 폰트 다운로드 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 1. 네이버 영화 리뷰 데이터셋 총 200,000개의 리뷰로 구성된 데이터로, 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋 리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음 import urllib.request import pandas as pd # 바로 접속해서 지정해준 파일명으로 저장 urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', filename='ratings_train.. 2024. 1. 31.
임베딩 1. 자연어의 특성 자연어를 기계가 이해할 수 있는 형태로 변환하기 위해서는 토큰화 작업을 통해 단어 사전을 생성하고, 이를 기계가 이해할 수 있는 언어로 표현해야 합니다. 1-1. 단어의 유사성과 모호성 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 있습니다. 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성, 혹은 유사성과 모호성은 자연어 처리에서 매우 중요합니다. 동형어(동형성): 형태는 같지만 의미가 다른 단어 (예: "배" - 과일, 배 - 선박) 다의어(다의성): 하나의 형태가 여러 의미를 갖는 단어 (예: "머리" - 몸의 일부, 생물의 머리) 동의어(동의성): 서로 다른 형태의 단어들이 동.. 2024. 1. 24.
데이터 전처리 실습 뉴스 기사 크롤링 라이브러리 !pip install newspaper3k # 사용 가능한 언어 확인 import newspaper newspaper.languages() Your available languages are: input code full name es Spanish ru Russian nb Norwegian (Bokmål) uk Ukrainian el Greek sl Slovenian ar Arabic pl Polish sw Swahili fa Persian pt Portuguese de German no Norwegian ja Japanese tr Turkish hi Hindi hu Hungarian mk Macedonian fr French be Belarusian ro Romanian.. 2024. 1. 19.