본문 바로가기

앙상블3

ML 스터디_1일 ▶️ 머신러닝에서의 학습? 1. 지도 학습(supervised learning) - 문제와 정답을 함께 학습하여 예측 또는 분류하는 방식입니다. - 데이터의 정답에 영향을 미치는 특성들을 입력 변수/독립 변수(x)라고 하고, 레이블(정답)을 출력 변수/종속 변수(y)라고 합니다. - 연속형 출력 변수의 경우에는 회귀 기술을 사용하고, 범주형 출력 변수의 경우에는 분류 기술을 사용합니다. 2. 비지도 학습(Unsupervised Learning) - 출력 변수(y)가 없고, 입력 변수(x) 간의 관계를 모델링합니다. - 클러스터링과 같은 군집 분석이나 association과 같이 데이터의 패턴이나 구조를 파악하는데 이용, PCA와 같이 차원을 줄이는 분석기법입니다. 3. 강화 학습(Reinforcement.. 2024. 3. 22.
lightGBM 1. credit 데이터셋 import numpy as np import pandas as pd import seaborn as sns import matplotlib.pyplot as plt credit_df = pd.read_csv('/content/drive/MyDrive/KDT/머신러닝과 딥러닝/data/credit.csv') pd.set_option('display.max_columns', 50) credit_df.head() # 필요 없는 컬럼 삭제 credit_df.drop(['ID', 'Customer_ID','Name', 'SSN'], axis=1, inplace=True) credit_df.info() RangeIndex: 12500 entries, 0 to 124.. 2024. 1. 1.
랜덤 포레스트 1. 랜덤 포레스트 랜덤 포레스트는 머신러닝에서 널리 사용되는 앙상블 기법 중 하나로, 주로 배깅(Bagging) 방법을 기반으로 합니다. https://junyealim.tistory.com/90 앙상블 모델 앙상블은 여러 개별 모델을 결합하여 하나의 강력한 모델을 형성하는 기술입니다. 이는 각 모델의 약점을 서로 보완하고 강점을 결합하여 높은 정확도와 안정성을 달성하는 데 도움이 됩니다. 1 junyealim.tistory.com 랜덤 포레스트는 각 결정 나무를 구성할 때, 학습 데이터에서 랜덤하게 샘플을 추출하여 사용하고, 각 노드에서 최적의 분할을 찾을 때 특정 변수들을 랜덤하게 선택합니다. 이러한 랜덤성은 모델의 다양성을 증가시켜 오버피팅을 방지하고, 전반적인 일반화 성능을 향상시킵니다. 개별 .. 2023. 12. 29.