독립항등분포 (Independent and Identically Distributed)
통계학에서 자주 i.i.d.로 표기되는 독립항등분포는 이항분포처럼 특정 분포를 나타내는 것이 아니라 하나의 가정이다. 이름에서 드러나듯이 각 확률변수들이 상호 독립적이고, 동일한 확률분포를 따른다는 가정을 말한다.
상호 독립적(independent)이란 말은 각 확률변수가 다른 확률변수에 영향을 주지 않는다는 뜻이다. 예를 들어 게임에서 팀을 선택하는데, 처음 사람이 팀을 선택할 때 그 사람의 실력과 어느 팀을 선택하는지가 공개되어 있다면, 그 후 사람들의 선택에 첫 사람의 선택이 영향을 끼치기 때문에 독립적이지 않은 것이다.
동일한 확률분포(indentically distributed)를 따른다는 말은 같은 모집단에서 데이터를 추출해야 한다는 말과 같다. 예를 들어 주사위에서 6 이 얼마나 나오는지 확인하려 하는데, 어느 때는 육각 주사위로 확인하고, 어느 때는 십이각 주사위로 확인한다면, 당연히 동일한 확률분포를 따르지 않기 때문에 해당 실험은 의미있는 결과를 갖지 못한다.
많은 통계적 방법론이 이 i.i.d. 가정 위에 있기 때문에 어떤 실험을 계획하거나, 실험 결과를 확인할 때 통계적 방법론을 적용하기 위해서는 i.i.d. 가정이 충족되었는지 확인하는 것이 필요하다.
i.i.d.가 깨지는 경우는 이분산성(heteroskedasticity), 내생성(endogeneity), 다중공선성(multicollinearity)를 가지는 경우가 대표적이다. 이분산성은 데이터의 분산이 일정하지 않은 경우를 말하며, 내생성은 설명변수와 오차항 간 상관관계가 있는 경우를 말한다. 다중공선성은 설명변수간 강한 상관관계가 있는 경우를 말하는데, 설명변수간 강한 상관관계가 있다면 각 변수들의 개별적인 영향을 분리하기 어려워지고, 추정치의 분산이 크게 증가한다.
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 대표본, 소표본에서의 신뢰구간 설정 및 모분산의 신뢰구간 (0) | 2025.02.05 |
---|---|
[Inferential Statistics] 신뢰구간(CI, confidence interval) (0) | 2025.02.04 |
[Inferential Statistics] 추정오차(error of estimation) (0) | 2025.02.04 |
[Inferential Statistics] 점추정량의 불편성(unbiasedness) (0) | 2025.02.04 |
[Inferential Statistics] 추정(estimate) 및 추정량(estimator) (0) | 2025.02.03 |