본문 바로가기

분류 전체보기124

로지스틱 회귀 1. hr 데이터셋 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt hr_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/hr.csv') hr_df.info() RangeIndex: 54808 entries, 0 to 54807 Data columns (total 13 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 employee_id 54808 non-null int64 1 department 54808 non-null o.. 2023. 12. 27.
의사 결정 나무(자전거 대여 예제) 1. 데이터 전처리 import numpy as np import pandas as pd import matplotlib.pyplot as plt import seaborn as sns bike_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/bike.csv') bike_df.info() RangeIndex: 33379 entries, 0 to 33378 Data columns (total 16 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 datetime 33379 non-null object 1 count 33379 non-null in.. 2023. 12. 26.
선형 회귀(랜트비 예측) 1. 데이터 전처리 import numpy as np import pandas as pd import seaborn as sns rent_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/rent.csv') rent_df.info() RangeIndex: 4746 entries, 0 to 4745 Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Posted On 4746 non-null object 1 BHK 4743 non-null float64 2 Rent 4746 non-null int64 3 Si.. 2023. 12. 26.
타이타닉 데이터셋 1. 타이타닉 데이터셋 타이타닉 데이터셋은 역사적인 타이타닉호의 승객 정보에 관한 데이터입니다. 이 데이터셋은 기계 학습 및 데이터 분석을 연습하기 위한 대표적인 예제로 많이 사용됩니다. 주로 생존 여부와 관련된 문제로 사용되며, 승객의 여러 특성에 대한 정보를 포함하고 있습니다. Survived (생존 여부): 0이면 사망, 1이면 생존. Pclass (티켓 등급): 1, 2, 3 등급이 있음. Name (이름): 승객의 이름. Sex (성별): 남성 또는 여성. Age (나이): 승객의 나이. SibSp (형제자매 또는 배우자 수): 함께 탑승한 형제자매 또는 배우자의 수. Parch (부모 또는 자녀 수): 함께 탑승한 부모 또는 자녀의 수. Ticket (티켓 번호): 승객의 티켓 번호. Fare.. 2023. 12. 26.
사이킷런/아이리스 데이터셋 예제 1. 사이킷런(Scikit-learn) 사이킷런(Scikit-learn)은 파이썬에서 사용할 수 있는 머신러닝 라이브러리 중 하나로, 간단하고 효과적인 도구들, 다양한 샘플 데이터를 제공하여 머신러닝 모델을 만들고 평가, 검증하는 데 사용됩니다. BSD 라이선스이기 때문에 무료로 사용 및 배포가 가능합니다. https://scikit-learn.org/stable/ scikit-learn: machine learning in Python — scikit-learn 1.3.2 documentation Model selection Comparing, validating and choosing parameters and models. Applications: Improved accuracy via parame.. 2023. 12. 24.
boxplot / 따릉이 실시간 데이터 예제 1. 데이터 이상치 알아보기- boxplot 박스 플롯(boxplot)은 데이터의 분포를 시각적으로 나타내는 통계 그래픽스입니다. 주로 데이터의 중앙값, 사분위수, 이상치 등을 파악하는 데 사용됩니다. 박스 플롯은 다음과 같은 구성 요소로 이루어져 있습니다. 상자(Box): 데이터의 사분위수(Q1, Q2, Q3)를 나타냅니다. 상자의 아래 경계는 Q1이고1/4분위수 즉 25%값을 나타냅니다. 상자 내부의 가로선은 중앙값(Q2) (50%)입니다. 상자의 윗 경계는 Q3 (75%)입니다. 수염(Whisker): 상자 위아래로 나타나는 선분으로, 전체 데이터 범위를 나타냅니다. 일반적으로 최대값과 최소값 중 1.5배 사분위 범위를 벗어나는 값은 이상치로 표시되며, 수염은 그 범위 내의 최대값과 최소값을 나타냅.. 2023. 12. 24.