Python/통계학

통계학 기초 | 가설검정의 주의점

jjangdoll 2025. 1. 10. 20:07

재현 가능성

 : 항상 일관된 결과가 나오는지 확인해야함

- 최근 p값을 사용하지 말아야 한다, 유의수준을 낮춰야 한다 등 논의중

- 결과가 재현되지 않으면 가설의 신뢰도 떨어짐

재현성 위기 원인

- 실험 조건을 100% 똑같이 세팅하는 것이 어려움

  • 가설검정 자체도 100% 검정력을 가진 것이 아니라 오차가 생김

- 가설검정 사용법이 잘못됨

  • p값을 0.05로 유도할 수 있음 (p해킹)
  • 제 1종 오류를 저지를 수 있음 (의미없는데 의미있다고)
  • 유의수준 통제 중요 (너무 낮추면 베타값이 커짐 → 데이터 수를 늘리는 방향)
  • 우연히 0.05보다 낮아 잘못된 가설이 맞는 것처럼 나올 수 있음 ( → 가설 설정도 중요)

p-해킹

 : 데이터 분석을 반복해 p값을 의도적으로 낮추는 행위

- 결과의 신뢰성이 떨어짐

- 결과를 보면서 데이터 개수를 늘리면 안 됨

- p값이 유리하게 선별적으로 보고 x

선택적 보고

 : 유의미한 결과만 선택적으로 보고하는 것

- 결과를 보고 가설을 다시 설정했는데 처음부터 설정한 가설이라고 얘기 x

자료수집 중단 시점 결정

 : 원하는 결과가 나올 때까지 계속 수집 → 결과 신뢰성 떨어뜨림

- 이상적으로는 사전에 정해진 계획에 따라야 함

데이터 탐색과 검증 분리

 : 데이터 탐색을 통해 가설을 설정하고, 검증하기 위해 독립된 데이터셋을 분리해서 사용하는 것

- 데이터 과적합 방지, 결과의 신뢰성 높임