프리슈-워-로벨 정리 (Frisch–Waugh–Lovell Theorem)

 

변수가 하나일 때를 가정한 단순회귀분석에서는 회귀계수 $ \beta_1 $ 의 최소제곱추정량이 설명변수 $ x $ 와 반응변수 $ y $ 의 표본상관계수 $ r $ 과 비례하였다.

그러나 다중회귀분석에서는 단순 표본상관계수와의 비례 관계가 성립하지 않는다. 이때 다중회귀분석에서의 회귀계수에 대해 알아보기 위해 다음과 같이 관측값 행렬 $ \mathbf{X} $ 를 분해해보자.

$$ \mathbf{X} = \mathbf{X}_1 + \mathbf{X}_2 $$

$$ \mathbf{X}_1 = \begin{bmatrix} 1 & x_{11} & \cdots & x_{1q} \\ 1 & x_{21} & \cdots & x_{2q} \\ \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & \cdots & x_{nq} \end{bmatrix} , \quad \mathbf{X}_{2} = \begin{bmatrix} x_{1 q+1} & \cdots & x_{1p} \\ x_{2q+1} & \cdots & x_{2p} \\  \vdots & \ddots & \vdots \\ x_{nq+1} & \cdots & x_{np} \end{bmatrix} $$

이를 활용하여 다음과 같은 다중회귀모형을 가정하고 시작하자.

$$ \mathbf{y} = \mathbf{X}_1 \boldsymbol{\beta}_1 + \mathbf{X}_2 \boldsymbol{\beta}_2 + \boldsymbol{\epsilon} $$

이제 다음과 같은 모형을 만들자.

$$ \mathbf{y} = \mathbf{X}_1 \boldsymbol{\alpha}_1 + \boldsymbol{\epsilon} $$

이를 적합시키면 다음과 같다.

$$ \hat{\mathbf{y}}_1 = \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X}_1 ) ^{-1} \mathbf{X}_1^T \mathbf{y} $$

잔차 $ \mathbf{e} = \mathbf{y} - \hat{\mathbf{y}} $ 를 계산한다. $ \mathbf{P} = \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X}_1 ) ^{-1} \mathbf{X}_1^T $ 이라 하자.

$$ \mathbf{e} = (\mathbf{I}_n - \mathbf{P}) \mathbf{y} $$

이제 $ \mathbf{X}_2 $ 를 반응변수로, $ \mathbf{X}_1 $ 을 설명변수로 하는 회귀모형을 적합시킨다. 즉 $ \mathbf{X}_2 = \left(\mathbf{x}_2^{(q+1)}, \mathbf{x}_2^{(q+2)}, \cdots, \mathbf{x}_2^{(p)} \right) $ 라 할 때 각 열벡터인 $ \mathbf{x}_2^{(j)} $ 에 대해서 적합시킨다.

$$ \mathbf{x}_2^{(j)} = \mathbf{X}_1 \boldsymbol{\delta}^{(j)} + \mathbf{r}^{(j)} $$

여기서 $ \mathbf{r}^{(j)} $ 는 잔차이고, 이를 행렬로 표현한 전체 잔차 $ \mathbf{R} $ 은 다음과 같다.

$$ \mathbf{R} = (\mathbf{r}^{(q+1)}, \mathbf{r}^{(q+2)}, \cdots, \mathbf{r}^{(p)}) = (\mathbf{I}_n - \mathbf{P}) \mathbf{X}_2 $$

Open Proof

$ \mathbf{r}^{(j)} = \mathbf{x}_2{(j)} - \mathbf{X}_1 \boldsymbol{\delta}^{(j)} $

이때 $ \boldsymbol{\delta}^{(j)} $ 는 최소제곱법으로 추정하여 다음과 같다.

$ \boldsymbol{\delta}^{(j)} = (\mathbf{X}_1^T \mathbf{X})^{-1} \mathbf{X}_1^T \mathbf{x}_2^{(j)} $

이를 이용하면 다음이 성립한다.

$ \mathbf{r}^{(j)} = \mathbf{x}_2^{(j)} - \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X})^{-1} \mathbf{X}_1^T \mathbf{x}_2^{(j)} $

$ = (\mathbf{I}_n - \mathbf{P}) \mathbf{x}_2{(j)} $

이제 $ \mathbf{e} $ 를 $ \mathbf{R} $ 에 회귀하여 보자. 즉 다음과 같이 만들자.

$$ \mathbf{e} = \mathbf{R} \boldsymbol{\alpha}_2 + \boldsymbol{\epsilon} $$

이때 $ \boldsymbol{\alpha}_2 $ 를 추정하면 다음과 같다.

$$ \hat{\boldsymbol{\alpha}}_2 = (\mathbf{X}_2^T (\mathbf{I}_n - \mathbf{P}) \mathbf{X}_2)^{-1} \mathbf{X}_2^T (\mathbf{I}_n - \mathbf{P}) \mathbf{y} $$

이제 다시 앞서 전체 회귀모형에서 $ \boldsymbol{\beta}_2 $ 를 추정해보면 위에서 구한 $ \hat{\boldsymbol{\alpha}}_2 $ 와 결국 같아지는 것을 알 수 있다.

Open Proof

다중선형회귀모형을 다음과 같이 정리한다.

$ \mathbf{y} = \mathbf{X}_1 \boldsymbol{\beta}_1 + \mathbf{X}_2 \boldsymbol{\beta}_2 + \mathbf{u} $

전체 설계행렬은 다음과 같다.

$ \mathbf{X} = [\mathbf{X}_1 \quad \mathbf{X}_2] $

이때 최소제곱추정량은 다음과 같이 주어진다.

$ \begin{bmatrix} \hat{\boldsymbol{\beta}}_1 \\ \hat{\boldsymbol{\beta}}_2 \end{bmatrix} = \left( \begin{bmatrix} \mathbf{X}_1^T \mathbf{X}_1 & \mathbf{X}_1^T \mathbf{X}_2 \\ \mathbf{X}_2^T \mathbf{X}_1 & \mathbf{X}_2^T \mathbf{X}_2 \end{bmatrix} \right)^{-1} \begin{bmatrix} \mathbf{X}_1^T \mathbf{y} \\ \mathbf{X}_2^T \mathbf{y} \end{bmatrix} $

우리는 이 중 $ \hat{\boldsymbol{\beta}}_2 $ 에 주목하여 이를 직접 계산해보자. 블록 행렬의 역행렬 공식을 사용하면 다음과 같이 정리된다.

$ \hat{\boldsymbol{\beta}}_2 = \left( \mathbf{X}_2^T \mathbf{X}_2 - \mathbf{X}_2^T \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X}_1)^{-1} \mathbf{X}_1^T \mathbf{X}_2 \right)^{-1} \left( \mathbf{X}_2^T \mathbf{y} - \mathbf{X}_2^T \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X}_1)^{-1} \mathbf{X}_1^T \mathbf{y} \right) $

이제 다음과 같은 투영 행렬(projection matrix)을 정의하자.

$ \mathbf{P}_1 = \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X}_1)^{-1} \mathbf{X}_1^T, \quad \mathbf{M}_1 = \mathbf{I}_n - \mathbf{P}_1 $

이를 이용하면 위 결과를 다음과 같이 다시 쓸 수 있다.

$ \mathbf{X}_2^T \mathbf{M}_1 \mathbf{X}_2 = \mathbf{X}_2^T \mathbf{X}_2 - \mathbf{X}_2^T \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X}_1)^{-1} \mathbf{X}_1^T \mathbf{X}_2 $

$ \mathbf{X}_2^T \mathbf{M}_1 \mathbf{y} = \mathbf{X}_2^T \mathbf{y} - \mathbf{X}_2^T \mathbf{X}_1 (\mathbf{X}_1^T \mathbf{X}_1)^{-1} \mathbf{X}_1^T \mathbf{y} $

따라서 전체 회귀모형에서 계산한 $ \hat{\boldsymbol{\beta}}_2 $ 는 다음과 같이 표현된다.

$ \hat{\boldsymbol{\beta}}_2 = (\mathbf{X}_2^T \mathbf{M}_1 \mathbf{X}_2)^{-1} \mathbf{X}_2^T \mathbf{M}_1 \mathbf{y} $

이를 통해 다중회귀모형에서 $ \mathbf{X}_2 $ 의 회귀계수는, $ \mathbf{X}_1 $ 의 영향을 제거한 $ \mathbf{y} $ 와 $ \mathbf{X}_2 $ 사이의 순수한 선형관계를 반영하고 있음을 알 수 있다.

 

애스터로이드