내일배움캠프/TIL

TIL 25.1.24

jjangdoll 2025. 1. 24. 21:04

프로젝트 시작 : [분류] 은행 고객 이탈여부 분류

분류 

대표적인 분류 알고리즘

 - 로지스틱 회귀 : 선형 모델 (이지만 다항 분류에도 쓰임)

 - k-NN : 거리에 기반하여 가장 가까운 k개의 이웃 클래스를 보고 다수결로 분류

 - SVM : 마진을 최대로 하는 결정 경계를 찾아 분류

 - Decision Tree / Random Forest (제일 많이 사용)

    - 결정 트리 : 데이터 특성을 기준으로 분할하여 분류

    - 랜덤 포레스트 : 여러 결정 트리를 앙상블하여 과적합을 방지, 성능을 높임

 - Gradient Boosting (XGBoost, LightGBM 등) : 결정 트리를 약한 학습기로 사용, 에러를 점진적으로 줄임

 - Naive Bayes : 독립 변수 간 독립성을 가정한 확률 기반 알고리즘 (금융에 관심있으면 찾아보기)


분석 과정

1. EDA 충분히

 - 전반적인 분포, 이상치, 결측치 파악

 - 파생변수 아이디어 발굴 : 날짜면 요일, 공휴일, 요일 간격 등 추출 가능 , 범주형이면 두 범주를 합친 변수나 빈도 인코딩 시도

 

2. 적절한 전처리 / 피처 엔지니어링

 - 결측치 처리 : 많으면 삭제하는 방향보다 다른 보완책 고려

 - 카테고리 인코딩 : 범주 수 많으면 원핫 인코딩 말고 다른 방법 시도

 - 스케일링

 - 피처 선택 / 차원 축소 : 피처가 너무 많을 경우 상관관계가 낮거나 정보량 적은 피처 제거

 

3. 여러 모델 시도 및 앙상블

 

4. 파라미터 튜닝

 - 후보 범위를 설정하고 교차 검증 점수를 보고 최적값 찾기

 - 과적합 방지

 

5. 교차 검증 / 올바른 평가 지표


음에는 다들 [군집] 신용카드, 플레이리스트 / [회귀] 보험료에 관심을 갖는듯 하다가 (물론 나도)

갑자기 마지막에 1,2 순위 정해서 올렸는데 압도적?으로 [분류] 은행 당첨 ㅋㅋㅋㅋㅋ

군집이 재미있어보였지만 우리가 아직 머신러닝 입문 단계고 기본적인 것도 잘 해결하지 못하는 상태라 

복습 차원에서 분류를 하는게 좋겠다는 모두의 판단으로 정해졌다.

 

설연휴라 꽤나 쉬는 날이 많지만 이 기회에 공부를 빡시게 해보겠다 !

'내일배움캠프 > TIL' 카테고리의 다른 글

TIL 25.1.28  (0) 2025.01.28
TIL 25.1.27  (0) 2025.01.27
TIL 25.1.23  (0) 2025.01.23
TIL 25.1.22  (0) 2025.01.22
TIL 25.1.21  (0) 2025.01.21