Python/통계학

통계학 기초 | 모집단과 표본집단

jjangdoll 2025. 1. 8. 10:54

- 모집단 : 관심있는 집단의 전체
- 표본집단 : 모집단에서 뽑아낸 임의의 집단 (이때 데이터가 편향되지 않도록 추출해야함, 방법 여러가지 존재)

분포 종류

분포

 : 이산확률분포와 연속확률분포 존재

베르누이 분포

 : 확률변수가 취할 수 있는 경우가 2가지

이항 분포

 : 베르누이 분포의 N번 확장 버전

균등 분포

 : 모든 X에 대해서 확률이 동일

정규 분포

 : 평균을 기준으로 좌우 대칭, 종모양
 - 평균과 표준편차를 알면 전체 데이터 몇 % 포함되는지 알 수 있음

왜도와 첨도

- 왜도 : 확률 비대칭 정도 (긴꼬리 분포라고도 함)
- 첨도 : 종모양의 뾰족한 정도
  - 정규분포보다 첨도가 낮으면 뭉특, 이상치 적음
  - 정규분포보다 첨도가 높으면 꼬리 길고, 이상치 많음

표준정규분포

 : 평균(μ) = 0, 표준편차(σ) = 1인 정규분포

rvs (난수 생성)

 : Numpy Random 모듈에 대응
 - scipy.stats.norm.rvs(loc = 평균, scale = 표준편차, size = 생성할 데이터 갯수, random_state = 시드 설정)

pdf (특정 위치 확률 구하기)

 - scipy.stats.norm.pdf(x = 구할 x축 값, loc = 평균, scale = 표준편차)

cdf (누적확률 분포 구하기)

 : pdf 의 적분값 -> 면적
- scipy.stats.norm.cdf(x = 구할 x축 값, loc = 평균, scale = 표준편차)

ppf (백분율 알 때 거꾸로 x 값 구하기)

: cdf의 역함수
- scipy.stats.norm.ppf(q = 백분율, loc = 평균, scale = 표준편차)