호텔링 T-제곱 검정 (Hotelling T-Squared Test)
다변량 정규 모집단에서 얻은 확률표본이 있을 때 이를 활용하여 모집단의 평균벡터를 추론할 수 있다. 단변량에서는 $ t $-분포와 그에 따른 $ t $-통계량을 이용하여 $ t $-검정을 하였는데 이를 다변량으로 확장하는 것이다.
단변량 샘플(univariate sample) $ x_1, x_2, \cdots, x_n $ 이 서로 독립이며 $ N(\mu_0, \sigma^2) $ 을 따를 때 모분산의 불편추정량은 다음과 같았다.
$$ \hat{\sigma}^2 = s^2 = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2 $$
이를 활용하여 $t$-통계량은 다음과 같이 나타낼 수 있다.
$$ t = \frac{\bar{x} - \mu_0}{s / \sqrt{n}} $$
그리고 $ t $-통계량의 제곱은 다음과 같다.
$$ t^2 = \left( \frac{\bar{x} - \mu_0}{s / \sqrt{n}} \right)^2 = n(\bar{x} - \mu_0) (s^2)^{-1} (\bar{x} - \mu_0) $$
다변량으로 확장하자. 다변량 샘플(multivariate sample) $ \mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_n $ 이 서로 독립이며 $ N_p (\boldsymbol{\mu}_0, \boldsymbol{\Sigma}) $ 를 따를 때 모평균벡터 추론을 위한 호텔링의 $T^2$ 통계량(Hotelling's $T^2$ statistic)은 다음과 같다.
$$ T^2 = (\bar{\mathbf{x}} - \boldsymbol{\mu}_0 )^T \left( \frac{\mathbf{S}}{n} \right)^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0 ) $$
여기서 $ \bar{\mathbf{x}} = 1 / n \sum_{j=1}^n \mathbf{x}_j $ 로 $ p \times 1 $ 인 표본평균벡터이고, $ \mathbf{S} = 1 / (n-1) \sum_{j=1}^n (\mathbf{x}_j - \bar{\mathbf{x}})(\mathbf{x}_j - \bar{\mathbf{x}})^T $ 인 $ p \times p $ 표본공분산행렬이다.
이를 아래와 같이 변형해보자.
$$ \frac{n-p}{p(n-1)} T^2 = \frac{n}{p} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0 )^T \frac{n-1}{n-p} \mathbf{S}^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0 ) $$
그렇다면 쉽게 알아보기 위해 아래와 같이 써보자. 물론 행렬 연산이기 때문에 분모로 내릴 수 없다. 지금은 어떤 모양인지를 보기 위해 확인해보는 것이다.
$$ \frac{n-p}{p(n-1)} T^2 = \frac{n (\bar{\mathbf{x}} - \boldsymbol{\mu}_0 )^T(\bar{\mathbf{x}} - \boldsymbol{\mu}_0 ) / p}{(n-1) \mathbf{S} / (n - p)} $$
그렇다면 분자는 $ \chi^2(p) $ 를 따르고, 분모는 $ \chi^2 (n-p) $ 를 따르게 되며, 전체 통계량은 F-분포를 따르게 된다. 즉 다음이 호텔링 $T^2 $ 통계량은 변형하여 F-분포를 따르도록 할 수 있다.
$$ \frac{n-p}{p(n-1)} T^2 \sim F (p, n-p) $$
그렇다면 이를 검정에 활용할 수 있다.
절차
절차는 다음과 같다. 먼저 귀무가설을 다음과 같이 설정한다.
$$ H_0 : \boldsymbol{\mu} = \boldsymbol{\mu}_0 $$
대립가설은 다음과 같다.
$$ H_1 : \boldsymbol{\mu} \neq \boldsymbol{\mu}_0 $$
검정통계량은 위에서 다룬 것과 같이 다음과 같다.
$$ T^2 = (\bar{\mathbf{x}} - \boldsymbol{\mu}_0 )^T \left( \frac{\mathbf{S}}{n} \right)^{-1} (\bar{\mathbf{x}} - \boldsymbol{\mu}_0 ) $$
이를 변형하면 다음과 같다.
$$ \frac{n-p}{p(n-1)} T^2 \sim F (p, n-p) $$
만약 $ T^2 \geq \frac{p(n-1)}{n-p} F_{p, n-p, \alpha} $ 라면 $ H_0 $ 를 기각한다.