분포족 (Family of Distributions)
분포모임이라고도 한다. 공통 표본공간 $ S $ 상의 확률밀도함수들 또는 확률질량함수들의 색인된 모음 $ \mathcal{P} = \{ f ( x \mid \theta) \text{ } : \text{ } \theta \in \Theta \} $ 를 분포족이라 한다. 이때 $ \Theta $ 는 모수 공간이다.
완비통계량 (Complete Statistic)
통계량 $ U $ 의 확률밀도함수 또는 확률질량함수가 분포족 $ \{ f ( x \mid \theta) \text{ } : \text{ } \theta \in \Theta \} $ 에 속한다고 하자. $ \theta $ 에 무관한 어떤 함수 $ g $ 와 모든 $ \theta $ 에 대해 $ E_\theta [g(U)] = 0 $ 이면 $ P_\theta (g(U) = 0) = 1 $ 임을 의미할 때 위 분포족이 완비성을 가진다고 한다. 통계량 $ U $ 의 분포족이 완비성을 만족할 때 $ U $ 를 완비통계량이라 한다.
완비성은 완비통계량의 함수로 구축되는 불편추정량이 유일하게 존재한다는 것을 보이는 도구로 사용된다. 즉 서로 다른 모수값을 가지는 두 분포는 서로 구분됨을 보장해준다.
단 완비성은 분포족에 대한 성질이며 특정 분포에 대한 것이 아리나는 것을 주의해야 한다. 예를 들어 $ U \sim N(0, 1) $ 일 때 $ g(u) = u $ 로 정의하면 $ E[g(u)] = E(U) = 0 $ 이다. 그러나 특정분포이므로 $ P(g(U) = 0) = P(U=0) = 0 \Rightarrow 1 $ 은 아니다. 다르게 $U \sim N(\theta, 1) $ 이고 $ - \infty < \theta < \infty $ 이면 모든 $ \theta $ 에 대해 확률 $ 1 $ 로 $ 0 $ 이 되는 함수를 제외하면 모든 $ \theta $ 에 대해 $ E_\theta [g(U)] = 0 $ 을 만족하는 $ U $ 의 함수는 없다. 그러므로 $ - \infty < \theta < \infty $ 에 대하여 $ N(\theta, 1) $ 분포족은 완비성을 가진다.
완비충분통계량 (Complete Sufficient Statistic)
$ X_1, X_2, \cdots, X_n $ 을 $ f (x \mid \theta ) $, $ \theta \in \Theta $ 로부터의 확률표본이라 하자. 통계량 $U = U(X_1, X_2, \cdots, X_n $ 이 $ \theta $ 의 충분통계량이며 동시에 완비통계량일 때 $ U $ 를 $ \theta $ 에 대한 완비충분통계량이라 한다.
즉 충분성과 완비성이 만족된 통계량을 말한다.
예를 들어서 $ X_1, X_2, \cdots, X_n $ 을 $ text{Poisson} (\lambda) $ 로부터의 확률표본이라 하자. 이제 $ U = \sum_{i=1}^n X_i $ 가 $ \lambda $ 에 대한 완비충분통계량임을 보이겠다.
$ U $ 의 확률질량함수는 다음과 같다.
$ f(u \mid \lambda) = \begin{cases} \dfrac{(n\lambda)^u e^{-n\lambda}}{u!}, & \qquad u = 0, 1, 2, \cdots \\ 0, & \qquad \text{otherwise} \end{cases} $
$ U $ 의 분포족 $ \{ f ( u \mid \lambda) \mid \lambda > 0 \} $ 을 생각해보자. $ \lambda $ 와 무관한 $ U $ 의 함수 $ g(U) $ 가 모든 $ \lambda > 0 $ 에 대해 $ E[g(U)] = 0 $ 이라고 하면 $ u = 0, 1, 2, \cdots $ 의 모든 점에서 $ g(U) = 0 $ 이라는 것을 보여야 한다. 즉 다음을 보여야 한다.
$ 0 = g(0) = g(1) = g(2) = \cdots $
모든 $ \lambda > 0 $ 에 대하여 다음이 성립한다.
$ 0 = E_\lambda [g(U)] = \sum_{u=0}^\infty g(u) \dfrac{(n\lambda)^u e^{-n \lambda}}{u!} $
$ = e^{-n\lambda} \left[ g(0) + g(1) \dfrac{n\lambda}{1!} + g(2) \dfrac{n \lambda}{2!} + \cdots \right] $
모든 $ \lambda > 0 $ 에 대하여 $ e^{-n\lambda} \neq 0 $ 이므로 다음과 같아야 한다.
$ 0 = g(0) + \left[n^1 g(1) \right] \lambda + \left[ \dfrac{n^2 g(2)}{2} \right] \lambda^2 + \cdots $
그러나 이 무한급수가 모든 $ \lambda > 0 $ 에 대하여 $ 0 $ 으로 수렴하려면 모든 계수가 $ 0 $ 이어야 한다. 즉 다음과 같아야 한다.
$ 0 = g(0), \qquad n^1 g(1) = 0, \qquad \dfrac{n^2 g(2)}{2} = 0 , \qquad \cdots $
즉 $ 0 = g(0) = g(1) = g(2) = \cdots $ 이어야 한다.
그러므로 $ U $ 는 완비통계량이다.
$ U = \sum{_i=1}^n X_i $ 는 충분통계량이므로 $ U $ 는 완비통계량이면서 충분통계량이다.
즉 $ U $ 는 $ \lambda $ 에 대한 완비충분통계량이다.
지수족 (Exponential Family)
분포족 $ \{ f ( x \mid \theta) \text{ } : \text{ } \theta \in \Theta \} $ 가 지수족에 속한다는 것은 다음 두 조건을 만족하는 경우이다.
- $ f ( x \mid \theta) = \exp \left[ \sum_{i=1}^k c_i (\theta) T_i (x) + d(\theta) + U(x) \right] , \qquad x \in S $
- $ S $ 가 $ \theta $ 에 의존하지 않는다.
여기서 $ S$ 는 $ f ( x \mid \theta) $ 의 $ \operatorname{support} $ 이고 $ \theta $ 는 스칼라 또는 벡터일 수 있다.
이러한 지수족을 고려하여 완비충분통계량을 찾을 수 있다.
분포족 $ \{ f ( x \mid \theta) \text{ } : \text{ } \theta \in \Theta \} $ 가 지수족에 속하면 다음 $ U $ 는 $ \theta $ 에 대한 완비충분통계량이 된다.
$ U = [T_1 (X), T_2(X), \cdots, T_k(X) ] $
만약 $ X_1, X_2, \cdots, X_n $ 이 지수족에 속하는 $ f(x \mid \theta) $ 로부터 구한 확률표본일 때 다음 $ U $ 는 $ \theta $ 에 대한 완비충분통계량이 된다.
$ U = \left[ \sum_{i=1}^n T_1 (X_i) , \sum_{i=1}^n T_2(X_i), \cdots, \sum_{i=1}^n T_k(X_i) \right] $
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 바수 정리(Basu theorem) (0) | 2025.02.14 |
---|---|
[Inferential Statistics] 레만-셰페 정리(Lehmann–Scheffé theorem) (0) | 2025.02.14 |
[Inferential Statistics] 최소분산 불편추정량(MVUE, minimum variance unbiased estimator) (0) | 2025.02.14 |
[Inferential Statistics] 라오-블랙웰 정리(Rao-Blackwell theorem) (0) | 2025.02.12 |
[Inferential Statistics] 피셔-네이만 인수분해 정리(Fisher–Neyman factorization theorem) (0) | 2025.02.12 |