본문 바로가기

분류 전체보기124

[논문 리뷰]attention 매커니즘 [논문] NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE introduce 최근에 제안된 신경 기계 번역 모델들은 대부분 인코더-디코더 방식을 사용합니다. 이 방식은 소스 문장을 고정 길이 벡터로 인코딩하고, 디코더를 통해 번역을 생성합니다. 그러나 고정 길이 벡터는 문장의 특성을 담을 수 있는 양동이로 생각할 수 있습니다. 문장의 크기가 길어지면 양동이에 모든 정보를 담기 어렵고, 기울기 소실 문제가 발생할 수 있습니다. 이 논문은 모델이 목표 단어와 관련이 큰 부분을 찾아 고정 길이 벡터의 한계를 극복하도록 제안합니다. 이렇게 하면 중요한 단어를 양동이에 우선적으로 담을 수 있어 문장의 의미가 보다 명확해집니다. 신경 기계 .. 2024. 1. 31.
워드 임베딩 시각화 # 폰트 다운로드 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 1. 네이버 영화 리뷰 데이터셋 총 200,000개의 리뷰로 구성된 데이터로, 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋 리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음 import urllib.request import pandas as pd # 바로 접속해서 지정해준 파일명으로 저장 urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', filename='ratings_train.. 2024. 1. 31.
임베딩 1. 자연어의 특성 자연어를 기계가 이해할 수 있는 형태로 변환하기 위해서는 토큰화 작업을 통해 단어 사전을 생성하고, 이를 기계가 이해할 수 있는 언어로 표현해야 합니다. 1-1. 단어의 유사성과 모호성 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 있습니다. 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성, 혹은 유사성과 모호성은 자연어 처리에서 매우 중요합니다. 동형어(동형성): 형태는 같지만 의미가 다른 단어 (예: "배" - 과일, 배 - 선박) 다의어(다의성): 하나의 형태가 여러 의미를 갖는 단어 (예: "머리" - 몸의 일부, 생물의 머리) 동의어(동의성): 서로 다른 형태의 단어들이 동.. 2024. 1. 24.
데이터 전처리 실습 뉴스 기사 크롤링 라이브러리 !pip install newspaper3k # 사용 가능한 언어 확인 import newspaper newspaper.languages() Your available languages are: input code full name es Spanish ru Russian nb Norwegian (Bokmål) uk Ukrainian el Greek sl Slovenian ar Arabic pl Polish sw Swahili fa Persian pt Portuguese de German no Norwegian ja Japanese tr Turkish hi Hindi hu Hungarian mk Macedonian fr French be Belarusian ro Romanian.. 2024. 1. 19.
자연어 처리 진행 순서 1. 자연어 처리의 다양한 Task 자연어 처리(Natural Language Processing, NLP)는 기계가 인간의 언어를 이해하고 처리하는 데에 관한 분야로, 다양한 작업(Task)들이 이루어지고 있습니다. https://medium.com/nlplanet/two-minutes-nlp-33-important-nlp-tasks-explained-31e2caad2b1b Two minutes NLP — 33 important NLP tasks explained Information Retrieval, Knowledge Bases, Chatbots, Text Generation, Text-to-Data, Text Reasoning, etc. medium.com 1-1. Text Classificati.. 2024. 1. 19.
자연어 처리 개요 1. 자연어(Natural Language) 자연어는 인간이 일상적으로 사용하는 언어를 의미합니다. 언어의 형태와 의미를 가지며, 일반적으로 의사소통의 수단으로 사용됩니다. 예를 들면, 한국어, 영어, 중국어 등이 자연어에 해당합니다. 자연어는 문법, 어휘, 문맥 등 다양한 측면에서 다양한 특징을 가지고 있습니다. 1-1. 자연어 처리(Natural Language Processing) 자연어 처리는 기계가 인간의 언어를 이해하고 해석하는 분야를 가리킵니다. NLP는 자연어에서 의미있는 정보를 추출하여 활용함으로써 인간의 언어적 능력을 기계적으로 모델링하고, 기계가 텍스트나 음성을 처리하고 분석하는 기술을 포함합니다. 이를 통해 기계는 자연어의 의미를 이해하고, 번역하며, 질문에 답하고, 감정을 분석하고.. 2024. 1. 16.