프로젝트 시작 : [분류] 은행 고객 이탈여부 분류
분류
대표적인 분류 알고리즘
- 로지스틱 회귀 : 선형 모델 (이지만 다항 분류에도 쓰임)
- k-NN : 거리에 기반하여 가장 가까운 k개의 이웃 클래스를 보고 다수결로 분류
- SVM : 마진을 최대로 하는 결정 경계를 찾아 분류
- Decision Tree / Random Forest (제일 많이 사용)
- 결정 트리 : 데이터 특성을 기준으로 분할하여 분류
- 랜덤 포레스트 : 여러 결정 트리를 앙상블하여 과적합을 방지, 성능을 높임
- Gradient Boosting (XGBoost, LightGBM 등) : 결정 트리를 약한 학습기로 사용, 에러를 점진적으로 줄임
- Naive Bayes : 독립 변수 간 독립성을 가정한 확률 기반 알고리즘 (금융에 관심있으면 찾아보기)
분석 과정
1. EDA 충분히
- 전반적인 분포, 이상치, 결측치 파악
- 파생변수 아이디어 발굴 : 날짜면 요일, 공휴일, 요일 간격 등 추출 가능 , 범주형이면 두 범주를 합친 변수나 빈도 인코딩 시도
2. 적절한 전처리 / 피처 엔지니어링
- 결측치 처리 : 많으면 삭제하는 방향보다 다른 보완책 고려
- 카테고리 인코딩 : 범주 수 많으면 원핫 인코딩 말고 다른 방법 시도
- 스케일링
- 피처 선택 / 차원 축소 : 피처가 너무 많을 경우 상관관계가 낮거나 정보량 적은 피처 제거
3. 여러 모델 시도 및 앙상블
4. 파라미터 튜닝
- 후보 범위를 설정하고 교차 검증 점수를 보고 최적값 찾기
- 과적합 방지
5. 교차 검증 / 올바른 평가 지표
처음에는 다들 [군집] 신용카드, 플레이리스트 / [회귀] 보험료에 관심을 갖는듯 하다가 (물론 나도)
갑자기 마지막에 1,2 순위 정해서 올렸는데 압도적?으로 [분류] 은행 당첨 ㅋㅋㅋㅋㅋ
군집이 재미있어보였지만 우리가 아직 머신러닝 입문 단계고 기본적인 것도 잘 해결하지 못하는 상태라
복습 차원에서 분류를 하는게 좋겠다는 모두의 판단으로 정해졌다.
설연휴라 꽤나 쉬는 날이 많지만 이 기회에 공부를 빡시게 해보겠다 !
'내일배움캠프 > TIL' 카테고리의 다른 글
| TIL 25.1.28 (0) | 2025.01.28 |
|---|---|
| TIL 25.1.27 (0) | 2025.01.27 |
| TIL 25.1.23 (0) | 2025.01.23 |
| TIL 25.1.22 (0) | 2025.01.22 |
| TIL 25.1.21 (0) | 2025.01.21 |