충분통계량 (Sufficient Statistics)
좋은 통계량을 선택할 때 기본적으로 직관에 의존했지만, 예를 들어 $ \mu $ 와 $ \sigma $ 에 대한 추정량으로 $ \bar{X} $ 와 $ S $ 를 사용했지만, 이것만으로는 좋은 통계량을 선택하기 쉽지 않다.
통계량을 표본을 통해 만든다면, 실제 표본값이 어떤지는 의미가 없고, 그 통계량이 모수에 대한 정보를 잘 보존하느냐가 중요하고 잘 보존한 통계량이 좋은 통계량일 것이다. 예를 들어서 $ \bar{X} = 5 $ 라면 실제 데이터가 $ \{1, 9, 5 \} $ 인지 혹은 $ \{4, 5, 6\} $ 인지는 중요하지 않고, 그래서 $ \bar{X} $ 가 $ \mu $ 에 대한 정보를 잘 보존하느냐가 중요할 것이다. 즉 자료를 잘 압축하여 모수를 추정하는 것이 중요하다. 따라서 통계량만을 통해서도 모수를 추정하는 데에 충분하다고 해서 이를 충분성이라 한다.
$ X_1, X_2, \cdots, X_n $ 을 미지의 모수 $ \theta $ 를 갖는 확률분포로부터의 확률표본이라 할 때, 주어진 통계량 $ U = g(X_1, X_2, \cdots, X_n) $ 에 조건부된 $ X_1, X_2, \cdots, X_n $ 의 분포가 $ \theta $ 에 의존하지 않는다면 통계량 $ U $ 는 $ \theta $ 에 대한 충분통계량이라 한다.
이제 확률밀도함수나 누적분포함수 등에 대해 표기할 때 모수 $ \theta $ 값에 의존한다는 것을 명시하겠다. 예를 들어 $ p(x) $ 를 $ p(x \mid \theta) $ 혹은 $ p ( x ; \theta) $ 로 표기하겠다.
데이터 축소 원리 (Data Reduction Principle)
실험자는 표본인 $ X_1, X_2, \cdots, X_n $ 에 포함된 정보를 사용하여 미지 모수 $ \theta $ 에 대해 추론한다. 만약 $ n $ 이 크다면 관측된 표본 $ x_1, x_2, \cdots, x_n $ 은 해석하기 어려워진다. 따라서 임의의 통계량은 데이터 축소 또는 데이터 요약의 한 형태로 정의하는 것이 일반적이다. 예를 들어 표본평균, 표본분산, 최댓값, 최솟값 등으로 주요 특성을 확인할 수 있다. 이러한 통계량은 전체 표본을 알려주기 보다 $ U(\mathbf{X}) = u $ 라는 것만을 알려준다. 즉 두 표본 $ \mathbf{x} $ 와 $ \mathbf{y} $ 에 대해 만일 $ U(\mathbf{x}) = U(\mathbf{y}) $ 라면 일단은 $ \mathbf{x} $ 와 $ \mathbf{y} $ 는 동일하게 취급된다.
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 피셔-네이만 인수분해 정리(Fisher–Neyman factorization theorem) (0) | 2025.02.12 |
---|---|
[Inferential Statistics] 가능도(likelihood) (0) | 2025.02.12 |
[Inferential Statistics] 점추정량의 일치성(consistency) (0) | 2025.02.12 |
[Inferential Statistics] 점추정량의 효율성(efficiency) (0) | 2025.02.11 |
[Inferential Statistics] 대표본, 소표본에서의 신뢰구간 설정 및 모분산의 신뢰구간 (0) | 2025.02.05 |