본문 바로가기

분류 전체보기124

다양한 모델 적용 1. AirQualityUCI 데이터셋 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt air_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/AirQualityUCI.csv') air_df.info() RangeIndex: 9471 entries, 0 to 9470 Data columns (total 17 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Date 9357 non-null object 1 Time 9357 no.. 2024. 1. 5.
lightGBM 1. credit 데이터셋 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt credit_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/credit.csv') pd.set_option('display.max_columns', 50) credit_df.head() # 필요 없는 컬럼 삭제 credit_df.drop(['ID', 'Customer_ID','Name', 'SSN'], axis=1, inplace=True) credit_df.info() RangeIndex: 12500 entries, 0 to 124.. 2024. 1. 1.
랜덤 포레스트 1. 랜덤 포레스트 랜덤 포레스트는 머신러닝에서 널리 사용되는 앙상블 기법 중 하나로, 주로 배깅(Bagging) 방법을 기반으로 합니다. https://junyealim.tistory.com/90 앙상블 모델 앙상블은 여러 개별 모델을 결합하여 하나의 강력한 모델을 형성하는 기술입니다. 이는 각 모델의 약점을 서로 보완하고 강점을 결합하여 높은 정확도와 안정성을 달성하는 데 도움이 됩니다. 1 junyealim.tistory.com 랜덤 포레스트는 각 결정 나무를 구성할 때, 학습 데이터에서 랜덤하게 샘플을 추출하여 사용하고, 각 노드에서 최적의 분할을 찾을 때 특정 변수들을 랜덤하게 선택합니다. 이러한 랜덤성은 모델의 다양성을 증가시켜 오버피팅을 방지하고, 전반적인 일반화 성능을 향상시킵니다. 개별 .. 2023. 12. 29.
앙상블 모델 앙상블은 여러 개별 모델을 결합하여 하나의 강력한 모델을 형성하는 기술입니다. 이는 각 모델의 약점을 서로 보완하고 강점을 결합하여 높은 정확도와 안정성을 달성하는 데 도움이 됩니다. 1. 보팅( Voting) 1-1. VotingClassifier VotingClassifier는 여러 개의 서로 다른 머신러닝 분류기(Classifier)를 결합하여 하나의 강력한 앙상블 모델을 만드는 데 사용되는 Scikit-learn 라이브러리의 클래스입니다. 이는 앙상블 학습의 일종으로, 다양한 분류기의 예측을 조합하여 높은 정확도를 달성하려는 목적으로 사용됩니다. Hard Voting: Hard Voting은 다수결 원칙을 기반으로 합니다. 즉, 각 분류기가 투표를 하고, 다수의 분류기가 선택한 클래스를 최종 예측.. 2023. 12. 29.
랜덤 포레스트(데이터 전처리) 1. hotel 데이터셋 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt hotel_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/hotel.csv') hotel_df.info() RangeIndex: 119390 entries, 0 to 119389 Data columns (total 32 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 hotel 119390 non-null object 1 is_canceled 11939.. 2023. 12. 28.
서포트 벡터 머신 1. 손글씨 데이터셋 from sklearn.datasets import load_digits digits = load_digits() digits.keys() // dict_keys(['data', 'target', 'frame', 'feature_names', 'target_names', 'images', 'DESCR']) data = digits['data'] data.shape // (1797, 64) target = digits['target'] target.shape // (1797,) target // array([0, 1, 2, ..., 8, 9, 8]) data의 64개의 8*8 픽셀위치의 정보가 합해져서 숫자 손글씨가 완성됩니다. import matplotlib.pyplot as plt.. 2023. 12. 28.