피셔-네이만 인수분해 정리 (Fisher–Neyman Factorization Theorem)
$ U(X_1, X_2, \cdots, X_n) $ 를 확률표본 $ X_1, X_2, \cdots, X_n $ 에 기반한 통계량이라고 하자. $ U $ 가 모수 $ \theta $ 의 추정을 위한 충분통계량이기 위한 필요충분조건은 $ L(\theta) = L(x_1, x_2, \cdots, x_n \mid \theta) $ 가 다음과 같이 음이 아닌 두 함수의 곱으로 분해되는 경우이다.
$$ L(x_1, x_2, \cdots, x_n \mid \theta) = g(u \mid \theta) h(x_1, x_2, \cdots, x_n) $$
여기서 $ g( u \mid \theta) $ 는 $ u = U(x_1, x_2, \cdots, x_n) $ 와 $ \theta $ 에만 종속이고, $ h(x_1, x_2, \cdots, x_n) $ 는 $ \theta $ 의 함수가 아니다.
동등하게 다음과 같이 표현하기도 한다.
$$ f(x_1 \mid \theta) f(x_2 \mid \theta) \cdots f(x_n \mid \theta) = g(U (x_1, x_2, \cdots, x_n) \mid \theta) h(x_1, x_2, \cdots, x_n) $$
이러한 인수분해 정리는 충분통계량임을 보이거나 찾는 편리한 도구로 이용된다.
표기 간략성을 위해 확률변수와 그 값을 다음과 같이 벡터 기호로 쓰겠다.
$$ \mathbf{X} = (X_1, X_2, \cdots, X_n), \qquad \mathbf{x} = (x_1, x_2, \cdots, x_n) $$
이제 $ U(\mathbf{X}) $ 가 충분통계량이라 가정하고, 다음과 같이 $ g, h $ 를 선택하자.
$ g ( u \mid \theta) = P_\theta (U ( \mathbf{X} = \mathbf{x}) $
$ h(\mathbf{x}) = P (\mathbf{X} = \mathbf{x} \mid U(\mathbf{X}) = U(\mathbf{x})) $
그렇다면 $ U(\mathbf{X}) $ 가 $ \theta $ 에 대한 충분통계량이므로 $ h(\mathbf{x} ) $ 를 정의하는 조건부확률은 $ \theta $ 에 의존하지 않는다.
$ L( \mathbf{x} \mid \theta) = P_\theta (\mathbf{X} = \mathbf{x}) $
$ = P_\theta (\mathbf{X} = \mathbf{x} , U(\mathbf{X}) = U(\mathbf{x}))$
$ = P_\theta (U(\mathbf{X}) = U(\mathbf{x}) P(\mathbf{X} = \mathbf{x} \mid U(\mathbf{X}) = U(\mathbf{x})) $
$ = g(U(\mathbf{x}) \mid \theta) h(\mathbf{x}) $
$ = g(u \mid \theta) h(\mathbf{x}) $
또한 $ U (\mathbf{X}) \sim g(u \mid \theta) $ 임을 알 수 있다.
인수분해가 성립한다고 하면 고정값 $ u_0 $ 에 대하여 다음과 같다.
$ P_\theta (U(\mathbf{x} = u_0 ) = \underset{\{\mathbf{x} \text{ }: \text{ } U(\mathbf{x}) = u_0\}}{\sum} P_\theta (\mathbf{X} = \mathbf{x}) $
$ = \underset{\{\mathbf{x} \text{ }: \text{ } U(\mathbf{x}) = u_0\}}{\sum} h(\mathbf{x}) g(U(\mathbf{x}) \mid \theta) $
만일 $ P_\theta (U(\mathbf{x}) = u_0) > 0 $ 이면 다음과 같다.
$ P_\theta ( \mathbf{X} = \mathbf{x} \mid U(\mathbf{x}) = u_0 ) = \dfrac{P_\theta ( \mathbf{X} = \mathbf{x} , U(\mathbf{x})}{P_\theta ( U(\mathbf{x})} $
$ = \begin{cases} \dfrac{g(u_0 \mid \theta) h(\mathbf{x})}{g(u_0 \mid \theta) \sum_{\{\mathbf{x} \text{ } : \text{ } U(\mathbf{x}) = u_0\}} h(\mathbf{x})}, & \qquad U(\mathbf{x}) = u_0 \\ 0, & \qquad U(\mathbf{x}) \neq u_0 \end{cases} $
$ = \begin{cases} \dfrac{h(\mathbf{x})}{\sum_{\{\mathbf{x} \text{ } : \text{ } U(\mathbf{x}) = u_0\}} h(\mathbf{x})}, & \qquad U(\mathbf{x}) = u_0 \\ 0, & \qquad U(\mathbf{x}) \neq u_0 \end{cases} $
마지막 식은 $ \theta $ 에 의존하지 않는다. 따라서 $ U(\mathbf{X}) $ 는 $ \theta $ 에 대한 충분통계량이다.
충분통계량을 그 정의(링크)를 이용하여 보이기 위해서는 $ U $ 의 분포가 요구되며 이는 매우 번거롭다. 또한 이 정의는 충분통계량을 찾는 도구로 사용되지 않는다.
인수분해 정리는 어떤 모집단 모수에 대해 가능한 충분통계량이 많다는 것을 보이는 데 사용될 수 있다. 충분통계량의 정의 또는 인수분해 정리에 따라 확률표본은 그 자체가 충분통계량이며, $ X_1, X_2, \cdots, X_n $ 을 모수가 $ \theta $ 인 확률밀도함수로부터의 확률표본이라 하면 $ X_1, X_2, \cdots, X_n $ 의 함수인 순서통계량 집합 $ X_{(1)} \leq X_{(2)} \leq \cdots \leq X_{(n)} $ 은 $ \theta $ 에 대해 충분하다.
다변량으로 확장
이러한 인수분해 정리를 다변량까지 확장하면 다음과 같이 말할 수 있다.
모수 $ \boldsymbol{\theta} = ( \theta_1, \theta_2, \cdots, \theta_n) $ 에 대해 통계량 $ \mathbf{U} = (U_1, U_2, \cdots, U_n) = [u_1 (\mathbf{X}), u_2 (\mathbf{X}) , \cdots, u_n (\mathbf{X}) ] $ 이 모수 $ \theta $ 에 대한 결합충분통계량(joint sufficient statistic)이기 위한 필요충분조건은 $L(\mathbf{x} \mid \boldsymbol{\theta}) $ 가 다음과 같이 음이 아닌 두 함수의 곱으로 분해되는 경우이다.
$$ L(\mathbf{x} \mid \boldsymbol{\theta}) = g(\mathbf{u} \mid \boldsymbol{\theta}) h(\mathbf{x}) $$
'Statistics > Inferential Statistics' 카테고리의 다른 글
[Inferential Statistics] 최소분산 불편추정량(MVUE, minimum variance unbiased estimator) (0) | 2025.02.14 |
---|---|
[Inferential Statistics] 라오-블랙웰 정리(Rao-Blackwell theorem) (0) | 2025.02.12 |
[Inferential Statistics] 가능도(likelihood) (0) | 2025.02.12 |
[Inferential Statistics] 점추정량의 충분성(sufficiency) (0) | 2025.02.12 |
[Inferential Statistics] 점추정량의 일치성(consistency) (0) | 2025.02.12 |