통계학 기초 | 가설검정의 주의점

Python/통계학

통계학 기초 | 가설검정의 주의점

jjangdoll 2025. 1. 10. 20:07

재현 가능성

: 항상 일관된 결과가 나오는지 확인해야함

- 최근 p값을 사용하지 말아야 한다, 유의수준을 낮춰야 한다 등 논의중

- 결과가 재현되지 않으면 가설의 신뢰도 떨어짐

재현성 위기 원인

- 실험 조건을 100% 똑같이 세팅하는 것이 어려움

가설검정 자체도 100% 검정력을 가진 것이 아니라 오차가 생김

- 가설검정 사용법이 잘못됨

p값을 0.05로 유도할 수 있음 (p해킹)
제 1종 오류를 저지를 수 있음 (의미없는데 의미있다고)
유의수준 통제 중요 (너무 낮추면 베타값이 커짐 → 데이터 수를 늘리는 방향)
우연히 0.05보다 낮아 잘못된 가설이 맞는 것처럼 나올 수 있음 ( → 가설 설정도 중요)

p-해킹

: 데이터 분석을 반복해 p값을 의도적으로 낮추는 행위

- 결과의 신뢰성이 떨어짐

- 결과를 보면서 데이터 개수를 늘리면 안 됨

- p값이 유리하게 선별적으로 보고 x

선택적 보고

: 유의미한 결과만 선택적으로 보고하는 것

- 결과를 보고 가설을 다시 설정했는데 처음부터 설정한 가설이라고 얘기 x

자료수집 중단 시점 결정

: 원하는 결과가 나올 때까지 계속 수집 → 결과 신뢰성 떨어뜨림

- 이상적으로는 사전에 정해진 계획에 따라야 함

데이터 탐색과 검증 분리

: 데이터 탐색을 통해 가설을 설정하고, 검증하기 위해 독립된 데이터셋을 분리해서 사용하는 것

- 데이터 과적합 방지, 결과의 신뢰성 높임

'Python > 통계학' 카테고리의 다른 글

통계학 기초 \| 유의성검정, 회귀, 상관관계 (0)	2025.01.08
통계학 기초 \| 모집단과 표본집단 (0)	2025.01.08
통계학 기초 \| 기술 통계, 추론 통계 (1)	2025.01.08

현재글통계학 기초 | 가설검정의 주의점

데이터 짱이 되고 싶은 돌

🪨

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

데이터 짱이 되고 싶은 돌

통계학 기초 | 가설검정의 주의점

재현 가능성

: 항상 일관된 결과가 나오는지 확인해야함

재현성 위기 원인

p-해킹

: 데이터 분석을 반복해 p값을 의도적으로 낮추는 행위

선택적 보고

: 유의미한 결과만 선택적으로 보고하는 것

자료수집 중단 시점 결정

: 원하는 결과가 나올 때까지 계속 수집 → 결과 신뢰성 떨어뜨림

데이터 탐색과 검증 분리

: 데이터 탐색을 통해 가설을 설정하고, 검증하기 위해 독립된 데이터셋을 분리해서 사용하는 것

'Python > 통계학' 카테고리의 다른 글

'Python/통계학'의 다른글

티스토리툴바

통계학 기초 | 가설검정의 주의점

재현 가능성

: 항상 일관된 결과가 나오는지 확인해야함

재현성 위기 원인

p-해킹

: 데이터 분석을 반복해 p값을 의도적으로 낮추는 행위

선택적 보고

: 유의미한 결과만 선택적으로 보고하는 것

자료수집 중단 시점 결정

: 원하는 결과가 나올 때까지 계속 수집 → 결과 신뢰성 떨어뜨림

데이터 탐색과 검증 분리

: 데이터 탐색을 통해 가설을 설정하고, 검증하기 위해 독립된 데이터셋을 분리해서 사용하는 것

'Python > 통계학' 카테고리의 다른 글

'Python/통계학'의 다른글

관련글

티스토리툴바