본문 바로가기

판다스5

boxplot / 따릉이 실시간 데이터 예제 1. 데이터 이상치 알아보기- boxplot 박스 플롯(boxplot)은 데이터의 분포를 시각적으로 나타내는 통계 그래픽스입니다. 주로 데이터의 중앙값, 사분위수, 이상치 등을 파악하는 데 사용됩니다. 박스 플롯은 다음과 같은 구성 요소로 이루어져 있습니다. 상자(Box): 데이터의 사분위수(Q1, Q2, Q3)를 나타냅니다. 상자의 아래 경계는 Q1이고1/4분위수 즉 25%값을 나타냅니다. 상자 내부의 가로선은 중앙값(Q2) (50%)입니다. 상자의 윗 경계는 Q3 (75%)입니다. 수염(Whisker): 상자 위아래로 나타나는 선분으로, 전체 데이터 범위를 나타냅니다. 일반적으로 최대값과 최소값 중 1.5배 사분위 범위를 벗어나는 값은 이상치로 표시되며, 수염은 그 범위 내의 최대값과 최소값을 나타냅.. 2023. 12. 24.
판다스3 1. 데이터 프레임 합치기 concat() : 데이터를 합침 판다스 1.0.0 버전부터는 sort 매개변수의 기본값이 sort=True에서 sort=False로 변경되었습니다. sort=False일 경우 인덱스 순서가 유지되어 기존 데이터프레임의 순서대로 합쳐집니다. 하지만 명시적으로 sort=True를 설정하여 정렬을 요구하는 경우에는 인덱스에 따라 정렬이 이루어집니다. reset_index() : index를 새롭게 적용⭐ reset_index(drop = True) : 기존의 index를 없앰 pd.concat([df1, df2], axis = 1) : 같은 index를 기준으로 열을 결합함. 왼쪽 위 : pd.concat([df.1, df_copy]) / 오른쪽 위 : df.concat.reset.. 2023. 12. 8.
판다스2 1. 결측값(Null, NaN) 결측값은 데이터에서 값이 누락되거나 측정되지 않은 상태를 나타냅니다. 판다스에서는 NaN(Not a Number)로 표기된 것은 모두 결측값으로 취급합니다. 결측값은 데이터 분석 및 통계 모델링에서 문제를 일으킬 수 있으며, 이를 처리하는 방법은 중요합니다. 일반적인 접근법은 결측값을 다른 값으로 대체하거나 해당 행 또는 열을 삭제하는 것입니다. 또는 결측값을 예측하는 모델을 사용하여 대체할 수도 있습니다. 처리 방법은 데이터의 특성과 분석 목적에 따라 다를 수 있습니다. isna() / isnull() : 각 요소가 결측값인지 여부를 불리언으로 반환합니다. df.isna() df.isnull() namegroupcompanygenderbirthdayheightbloodb.. 2023. 12. 8.
판다스1 1. 판다스 판다스(Pandas)는 파이썬 프로그래밍 언어를 위한 데이터 조작과 분석을 위한 라이브러리입니다. 주로 표 형식의 데이터나 다양한 형태의 데이터를 다루는 데 사용됩니다. 표의 데이터 부분을 valuses, 행 이름을 index, 열 이름을 columns라고 부릅니다. 판다스는 크게 두 가지 자료 구조를 제공합니다. ⭐시리즈(Series): (index + values) 1차원 배열과 유사한 구조를 가진 데이터 구조입니다. 각 데이터에는 인덱스(index)가 부여되어 있습니다. ⭐ 데이터프레임(DataFrame): (index + columns + index) 2차원 테이블 형태의 데이터 구조입니다. 여러 개의 시리즈를 모아서 하나의 데이터프레임을 만들 수 있습니다. 설치 : !pip inst.. 2023. 12. 5.
크롤링 1. 크롤링과 스크레이핑 크롤링은 웹 페이지를 자동으로 탐색하고 그 내용을 수집하는 과정입니다. 스크레이핑은 웹 페이지에서 원하는 정보를 추출하는 과정입니다. 크롤링 후에 데이터를 추출하거나, 특정 웹 페이지의 특정 부분에서 필요한 정보를 가져오는 작업을 포함합니다. 두 기술은 웹 데이터 수집의 초기 및 후속 단계로 사용되며, 데이터 과학, 기계 학습 및 비즈니스 인텔리전스와 같은 다양한 분야에서 활용됩니다. 그러나 웹 사이트의 이용 약관을 준수하고 합법적인 용도로만 사용해야 합니다. 2. 기초 import requests from bs4 import BeautifulSoup 크롤링을 위해 우선 파이썬 라이브러리 requests와 BeautifulSoup를 import합니다. BeautifulSoup은 .. 2023. 11. 25.