유의성검정
A/B 검정
: 두 그룹 중 어느 그룹이 더 효과있는지 비교
- 모집단에서도 통계적으로 유의미한 결과가 나오는지 확인해야함
- t-test를 통해 결과가 유의미한지 평가
: 보통 pvalue가 0.05보다 낮으면 의미있는 결과라고 평가
가설검정
: 문제 정의 → 가설 설정 → 귀무(현재 상태) or 대립(입증하고자 하는 주장) 가설 설정
- 데이터 분석 할 때 두가지 전략을 통해 분석할 수 있음
- 확증적 자료분석 : 가설을 먼저 설정 → 가설 검증
- 탐색적 자료분석 (EDA) : 데이터 탐색 → 가설 후보 설정
단계
- 귀무가설과 대립가설 설정
- 유의수준 설정
- 검정통계량 계산
- p-값, 유의수준 비교
- 결론 도출
t검정
: 두 집단 간 평균 차이가 통계적으로 유의미한지 검정
- 독립표본 t검정 : 독립된 그룹 평균 비교
- 대응표본 t검정 : 동일한 그룹의 전/후 평균 비교
다중검정
: 여러 가설을 동시에
- 오류 발생할 수 있기 때문에 검정마다 유의수준 조정
- 일반적으로 본페로니 보정법이 쓰임 (유의수준 / pvalue 길이)
카이제곱검정
: 범주형 데이터 분석에 사용
- 적합도 검정 : pvalue 높으면 관찰 데이터와 귀무 가설 적합
- 독립성 검정 : pvalue 높으면 두 변수 간 관계 연관성 없음 → 독립성 있음
제 1종 오류 / 제 2종 오류
제 1종 오류
: 귀무가설이 참인데 기각
- 영향없는데 있다고 한 오류 (양음성)
- 유의수준 조절을 통해 오류 제어 가능
제 2종 오류
: 귀무가설이 거짓인데 기각x
- 영향있는데 없다고 한 오류 (위음성)
- 제 2종 오류 일어날 확률은 통제 불가
- 표본 크기를 늘리면(데이터 ↑) 확률이 줄어들긴 함
- 유의수준을 너무 낮게 잡으면 제 2종 오류 일어날 확률이 커지기 때문에 적정선 유지해야함
회귀
단순선형회귀
: 하나의 독립 변수(X), 하나의 종속 변수(Y) 간 관계를 직선으로
- 데이터가 직선적 경향을 따를 때
- 간단하고 해석 용이
다중선형회귀
: 두 개 이상의 독립 변수(X1, X2, ..., Xn), 하나의 종속 변수(Y) 간 관계
- 여러 변수의 영향을 동시에 분석 가능
- 변수들 간 다중공선성 문제 발생할 수 있음
- 다중공선성 : 독립 변수 간 상관관계가 높은 경우 (회귀에서는 좋지 않음) → 독립 변수끼리 간섭하고 개별적 효과를 분리하기 어려움
- 진단 방법
- 상관계수 계산해 상관계수가 높은 변수가 있는지 확인
- 분산 팽창 계수 계산 (VIF) → VIF값이 10이 높은지 확인
- 해결방법
- 높은 상관계수 가진 변수 중 하나 제거
- 주성분 분석 (PCA)과 같은 변수를 효과적으로 줄이는 차원 분석 방법 적용
범주형 변수
: 주로 문자형 데이터로 이루어져 있음
- 순서가 있는 범주형 변수 : 각 문자를 임의의 숫자로 변환해도 문제 없음
- 순서가 없는 범주형 변수 (ex. 성별, 지역)
- 2개인 경우 임의의 숫자로 변환해도 괜찮
- 3개 이상인 경우 원-핫 인코딩 (해당하는 데이터는 1, 나머지는 0) 변환해야함 → pandas의 get_dummies
- drop_first=True : 범주형 변수 중 한개 제거 → 다중공선성 문제도 어느 정도 해결 가능
다항회귀, 스플라인 회귀
다항회귀 : 독립 변수, 종속 변수 간 관계가 선형이 아닐 때
- 곡석적 성향을 따를 때 사용
- 과적합 위험이 있음 → 일반화 어려울 수 있으니 주의
스플라인 회귀 : 독립 변수 구간 별로 다른 회귀식을 적용해 복잡한 관계일 때
- 데이터가 국부적으로 다른 패턴 보일 때 사용
- 적절한 매듭점 선택 중요
상관관계
피어슨 상관계수
: 정규분포 따르고 선형 관계일 때 사용
- 비선형 관계에서는 사용할 수 없음
비모수 상관계수
: 정규분포 따르지 않거나 순서형 데이터일 때 사용
- 데이터 분포에 대한 가정을 하지 못할 때
- 순서형 데이터에서도 사용하고 싶을 때
스피어만 상관계수
- 두 변수의 순위 간 일관성을 측정 (켄달의 타우 상관계수보다 편차와 에러에 민감)
켄달의 타우 상관계수
- 순위 간 일치 쌍 , 불일치 쌍 비율을 바탕으로 측정
상호정보 상관계수
: 상호정보를 이용한 변수끼리 상관계수 측정
- 범주형 데이터에도 적용 가능
- 비선형적이고 복잡한 관계를 탐지할 때 사용
'Python > 통계학' 카테고리의 다른 글
| 통계학 기초 | 가설검정의 주의점 (0) | 2025.01.10 |
|---|---|
| 통계학 기초 | 모집단과 표본집단 (0) | 2025.01.08 |
| 통계학 기초 | 기술 통계, 추론 통계 (1) | 2025.01.08 |