본문 바로가기

분류 전체보기124

상권별 업종 밀집 통계 예제 import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns shop = pd.read_csv('/content/drive/MyDrive/KDT/데이터분석/데이터/shop_201806_01.csv') pd.set_option('display.max_columns', 40) shop.info() RangeIndex: 499328 entries, 0 to 499327 Data columns (total 39 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 상가업소번호 499328 non-null int6.. 2023. 12. 23.
가상 쇼핑몰 데이터 예제 import pandas as pd retail = pd.read_csv('/content/drive/MyDrive/KDT/데이터분석/데이터/OnlineRetail.csv') # 출력 row 갯수 설정 pd.options.display.max_rows = 6 => 컬럼이 6개만 표출됨 .info() : 정보 보기 retail.info() RangeIndex: 541909 entries, 0 to 541908 Data columns (total 8 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 InvoiceNo 541909 non-null object 1 StockCode 541909 non-null o.. 2023. 12. 16.
머신러닝과 딥러닝 1. 머신러닝과 딥러닝 머신러닝과 딥러닝은 인공지능 분야의 중요한 부분입니다. 인공지능이란 '인공(Artificial) + 지능(interlligence)'의 합성어로 크게 개발자의 의한 인공지능과 데이터에 의한 인공지능으로 나누어 볼 수 있습니다. 1. 머신러닝 (Machine Learning) - 개념: 머신러닝은 컴퓨터 시스템이 데이터에서 패턴을 학습하고 결정을 내릴 수 있도록 하는 인공지능의 한 분야입니다. - 동작 원리: 알고리즘이 주어진 데이터로부터 학습하고, 이를 기반으로 새로운 데이터에 대해 예측이나 결정을 내립니다. - 예시: 이메일 스팸 필터, 음성 인식, 추천 시스템 등이 머신러닝의 예입니다. 2. 딥러닝 (Deep Learning) - 개념: 딥러닝은 머신러닝의 한 종류로, 인공 신.. 2023. 12. 14.
Matplotlib 1. Matplotlib Matplotlib(맷플롯립)은 파이썬에서 2D 그래픽을 생성하는 데 사용되는 시각화 라이브러리로, 과학 및 엔지니어링 분야에서 널리 사용됩니다. 주로 선 그래프, 산점도, 막대 그래프 등을 그릴 수 있으며, 데이터 시각화에 활용됩니다. 한글에 대한 지원이 완벽하지 않지만 pandas와 연동이 용이합니다. 설치 : !pip install matplotlib import matplotlib.pyplot as plt import matplotlib.pyplot as plt는 Matplotlib 라이브러리를 사용할 때 일반적으로 사용되는 명령문입니다. 이 명령문은 Matplotlib의 pyplot 모듈을 plt라는 별칭으로 가져오는 역할을 합니다. Matplotlib은 여러 모듈로 구.. 2023. 12. 10.
판다스3 1. 데이터 프레임 합치기 concat() : 데이터를 합침 판다스 1.0.0 버전부터는 sort 매개변수의 기본값이 sort=True에서 sort=False로 변경되었습니다. sort=False일 경우 인덱스 순서가 유지되어 기존 데이터프레임의 순서대로 합쳐집니다. 하지만 명시적으로 sort=True를 설정하여 정렬을 요구하는 경우에는 인덱스에 따라 정렬이 이루어집니다. reset_index() : index를 새롭게 적용⭐ reset_index(drop = True) : 기존의 index를 없앰 pd.concat([df1, df2], axis = 1) : 같은 index를 기준으로 열을 결합함. 왼쪽 위 : pd.concat([df.1, df_copy]) / 오른쪽 위 : df.concat.reset.. 2023. 12. 8.
판다스2 1. 결측값(Null, NaN) 결측값은 데이터에서 값이 누락되거나 측정되지 않은 상태를 나타냅니다. 판다스에서는 NaN(Not a Number)로 표기된 것은 모두 결측값으로 취급합니다. 결측값은 데이터 분석 및 통계 모델링에서 문제를 일으킬 수 있으며, 이를 처리하는 방법은 중요합니다. 일반적인 접근법은 결측값을 다른 값으로 대체하거나 해당 행 또는 열을 삭제하는 것입니다. 또는 결측값을 예측하는 모델을 사용하여 대체할 수도 있습니다. 처리 방법은 데이터의 특성과 분석 목적에 따라 다를 수 있습니다. isna() / isnull() : 각 요소가 결측값인지 여부를 불리언으로 반환합니다. df.isna() df.isnull() namegroupcompanygenderbirthdayheightbloodb.. 2023. 12. 8.