Bomb Kirby Running
본문 바로가기

분류 전체보기129

워드 임베딩 시각화 # 폰트 다운로드 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf 1. 네이버 영화 리뷰 데이터셋 총 200,000개의 리뷰로 구성된 데이터로, 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋 리뷰가 긍정인 경우1, 부정인 경우 0으로 표시한 레이블로 구성되어 있음 import urllib.request import pandas as pd # 바로 접속해서 지정해준 파일명으로 저장 urllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', filename='ratings_train.. 2024. 1. 31.
임베딩 1. 자연어의 특성 자연어를 기계가 이해할 수 있는 형태로 변환하기 위해서는 토큰화 작업을 통해 단어 사전을 생성하고, 이를 기계가 이해할 수 있는 언어로 표현해야 합니다. 1-1. 단어의 유사성과 모호성 사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 있습니다. 한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성, 혹은 유사성과 모호성은 자연어 처리에서 매우 중요합니다. 동형어(동형성): 형태는 같지만 의미가 다른 단어 (예: "배" - 과일, 배 - 선박) 다의어(다의성): 하나의 형태가 여러 의미를 갖는 단어 (예: "머리" - 몸의 일부, 생물의 머리) 동의어(동의성): 서로 다른 형태의 단어들이 동.. 2024. 1. 24.
데이터 전처리 실습 뉴스 기사 크롤링 라이브러리 !pip install newspaper3k # 사용 가능한 언어 확인 import newspaper newspaper.languages() Your available languages are: input code full name es Spanish ru Russian nb Norwegian (Bokmål) uk Ukrainian el Greek sl Slovenian ar Arabic pl Polish sw Swahili fa Persian pt Portuguese de German no Norwegian ja Japanese tr Turkish hi Hindi hu Hungarian mk Macedonian fr French be Belarusian ro Romanian.. 2024. 1. 19.
자연어 처리 진행 순서 1. 자연어 처리의 다양한 Task 자연어 처리(Natural Language Processing, NLP)는 기계가 인간의 언어를 이해하고 처리하는 데에 관한 분야로, 다양한 작업(Task)들이 이루어지고 있습니다. https://medium.com/nlplanet/two-minutes-nlp-33-important-nlp-tasks-explained-31e2caad2b1b Two minutes NLP — 33 important NLP tasks explained Information Retrieval, Knowledge Bases, Chatbots, Text Generation, Text-to-Data, Text Reasoning, etc. medium.com 1-1. Text Classificati.. 2024. 1. 19.
자연어 처리 개요 1. 자연어(Natural Language) 자연어는 인간이 일상적으로 사용하는 언어를 의미합니다. 언어의 형태와 의미를 가지며, 일반적으로 의사소통의 수단으로 사용됩니다. 예를 들면, 한국어, 영어, 중국어 등이 자연어에 해당합니다. 자연어는 문법, 어휘, 문맥 등 다양한 측면에서 다양한 특징을 가지고 있습니다. 1-1. 자연어 처리(Natural Language Processing) 자연어 처리는 기계가 인간의 언어를 이해하고 해석하는 분야를 가리킵니다. NLP는 자연어에서 의미있는 정보를 추출하여 활용함으로써 인간의 언어적 능력을 기계적으로 모델링하고, 기계가 텍스트나 음성을 처리하고 분석하는 기술을 포함합니다. 이를 통해 기계는 자연어의 의미를 이해하고, 번역하며, 질문에 답하고, 감정을 분석하고.. 2024. 1. 16.
포켓몬 분류 해보기 Train : https://www.kaggle.com/datasets/thedagger/pokemon-generation-one Pokemon Generation OneGotta train 'em all!www.kaggle.comValidation : https://www.kaggle.com/hlrhegemony/pokemon-image-dataset Complete Pokemon Image Dataset2,500+ clean labeled images, all official art, for Generations 1 through 8.www.kaggle.comimport osos.environ['KAGGLE_USERNAME'] = '아이디'os.environ['KAGGLE_KEY'] = "배포받은 키.. 2024. 1. 14.