본문 바로가기

pandas2

판다스1 1. 판다스 판다스(Pandas)는 파이썬 프로그래밍 언어를 위한 데이터 조작과 분석을 위한 라이브러리입니다. 주로 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 사용됩니다. 표의 데이터 부분을 valuses, 행 이름을 index, 열 이름을 columns라고 부릅니다. 판다스는 크게 두 가지 자료 구조를 제공합니다. ⭐시리즈(Series): (index + values) 1차원 배열과 유사한 구조를 가진 데이터 구조입니다. 각 데이터에는 인덱스(index)가 부여되어 있습니다. ⭐ 데이터프레임(DataFrame): (index + columns + index) 2차원 테이블 형태의 데이터 구조입니다. 여러 개의 시리즈를 모아서 하나의 데이터프레임을 만들 수 있습니다. 설치 : !pip inst.. 2023. 12. 5.
크롤링 1. 크롤링과 스크레이핑 크롤링은 웹 페이지를 자동으로 탐색하고 그 내용을 수집하는 과정입니다. 스크레이핑은 웹 페이지에서 원하는 정보를 추출하는 과정입니다. 크롤링 후에 데이터를 추출하거나, 특정 웹 페이지의 특정 부분에서 필요한 정보를 가져오는 작업을 포함합니다. 두 기술은 웹 데이터 수집의 초기 및 후속 단계로 사용되며, 데이터 과학, 기계 학습 및 비즈니스 인텔리전스와 같은 다양한 분야에서 활용됩니다. 그러나 웹 사이트의 이용 약관을 준수하고 합법적인 용도로만 사용해야 합니다. 2. 기초 import requests from bs4 import BeautifulSoup 크롤링을 위해 우선 파이썬 라이브러리 requests와 BeautifulSoup를 import합니다. BeautifulSoup은 .. 2023. 11. 25.