Python/통계학

통계학 기초 | 유의성검정, 회귀, 상관관계

jjangdoll 2025. 1. 8. 16:16

유의성검정

A/B 검정

 : 두 그룹 중 어느 그룹이 더 효과있는지 비교

- 모집단에서도 통계적으로 유의미한 결과가 나오는지 확인해야함

- t-test를 통해 결과가 유의미한지 평가

 : 보통 pvalue가 0.05보다 낮으면 의미있는 결과라고 평가

가설검정

 : 문제 정의 → 가설 설정 → 귀무(현재 상태) or 대립(입증하고자 하는 주장) 가설 설정

- 데이터 분석 할 때 두가지 전략을 통해 분석할 수 있음

  • 확증적 자료분석 : 가설을 먼저 설정 → 가설 검증
  • 탐색적 자료분석 (EDA) : 데이터 탐색 → 가설 후보 설정

단계

  1. 귀무가설과 대립가설 설정
  2. 유의수준 설정
  3. 검정통계량 계산
  4. p-값, 유의수준 비교
  5. 결론 도출

t검정

 : 두 집단 간 평균 차이가 통계적으로 유의미한지 검정

- 독립표본 t검정 : 독립된 그룹 평균 비교

- 대응표본 t검정 : 동일한 그룹의 전/후 평균 비교

다중검정

 : 여러 가설을 동시에

- 오류 발생할 수 있기 때문에 검정마다 유의수준 조정

- 일반적으로 본페로니 보정법이 쓰임 (유의수준 / pvalue 길이)

카이제곱검정

 : 범주형 데이터 분석에 사용

- 적합도 검정 : pvalue 높으면 관찰 데이터와 귀무 가설 적합

- 독립성 검정 : pvalue 높으면 두 변수 간 관계 연관성 없음 → 독립성 있음

제 1종 오류 / 제 2종 오류

제 1종 오류

 : 귀무가설이 참인데 기각

- 영향없는데 있다고 한 오류 (양음성)

- 유의수준 조절을 통해 오류 제어 가능

제 2종 오류

  : 귀무가설이 거짓인데 기각x

- 영향있는데 없다고 한 오류 (위음성)

- 제 2종 오류 일어날 확률은 통제 불가

  • 표본 크기를 늘리면(데이터 ↑) 확률이 줄어들긴 함
  • 유의수준을 너무 낮게 잡으면 제 2종 오류 일어날 확률이 커지기 때문에 적정선 유지해야함

회귀

단순선형회귀

 : 하나의 독립 변수(X), 하나의 종속 변수(Y) 간 관계를 직선으로

- 데이터가 직선적 경향을 따를 때

- 간단하고 해석 용이

다중선형회귀

 : 두 개 이상의 독립 변수(X1, X2, ..., Xn), 하나의 종속 변수(Y) 간 관계

- 여러 변수의 영향을 동시에 분석 가능

- 변수들 간 다중공선성 문제 발생할 수 있음

  • 다중공선성 : 독립 변수 간 상관관계가 높은 경우 (회귀에서는 좋지 않음) → 독립 변수끼리 간섭하고 개별적 효과를 분리하기 어려움
  • 진단 방법 
    • 상관계수 계산해 상관계수가 높은 변수가 있는지 확인
    • 분산 팽창 계수 계산 (VIF) → VIF값이 10이 높은지 확인
  • 해결방법
    • 높은 상관계수 가진 변수 중 하나 제거
    • 주성분 분석 (PCA)과 같은 변수를 효과적으로 줄이는 차원 분석 방법 적용

범주형 변수

 : 주로 문자형 데이터로 이루어져 있음

- 순서가 있는 범주형 변수 : 각 문자를 임의의 숫자로 변환해도 문제 없음

- 순서가 없는 범주형 변수 (ex. 성별, 지역)

  • 2개인 경우 임의의 숫자로 변환해도 괜찮
  • 3개 이상인 경우 원-핫 인코딩 (해당하는 데이터는 1, 나머지는 0) 변환해야함 → pandas의 get_dummies
  • drop_first=True : 범주형 변수  중 한개 제거 → 다중공선성 문제도 어느 정도 해결 가능

다항회귀, 스플라인 회귀

 다항회귀 : 독립 변수, 종속 변수 간 관계가 선형이 아닐 때

- 곡석적 성향을 따를 때 사용

- 과적합 위험이 있음 → 일반화 어려울 수 있으니 주의

스플라인 회귀 : 독립 변수 구간 별로 다른 회귀식을 적용해 복잡한 관계일 때

- 데이터가 국부적으로 다른 패턴 보일 때 사용

- 적절한 매듭점 선택 중요


상관관계

피어슨 상관계수

 : 정규분포 따르고 선형 관계일 때 사용

- 비선형 관계에서는 사용할 수 없음

비모수 상관계수

 : 정규분포 따르지 않거나 순서형 데이터일 때 사용

- 데이터 분포에 대한 가정을 하지 못할 때

- 순서형 데이터에서도 사용하고 싶을 때

스피어만 상관계수

- 두 변수의 순위 간 일관성을 측정 (켄달의 타우 상관계수보다 편차와 에러에 민감)

켄달의 타우 상관계수

- 순위 간 일치 쌍 , 불일치 쌍 비율을 바탕으로 측정

상호정보 상관계수

 : 상호정보를 이용한 변수끼리 상관계수 측정

- 범주형 데이터에도 적용 가능

- 비선형적이고 복잡한 관계를 탐지할 때 사용