다중회귀분석 (Multiple Regression Analysis)
기존 단순선형회귀분석에서는 설명변수가 $ x $ 하나였다. 그러나 현실에서 많은 경우 단 하나의 영향으로 결정되는 것은 없다. 이러한 것을 반영하여 설명변수를 $ x_1, x_2, \cdots, x_p $ 등 여러개 설정하여 회귀분석하는 것을 다중회귀분석이라 한다.
다중회귀분석은 그 편의상, 그리고 추후 계산까지 고려하여 주로 벡터와 행렬을 이용해 표현한다. 측정값 $ y $ 와 $ x $ 들에 대해, 그리고 회귀계수 $ \beta $ 들에 대해 다음과 같이 벡터나 행렬로 나타내자.
$$ \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \qquad \mathbf{X} = \begin{bmatrix} 1 & x_{11} & x_{12} & \cdots & x_{1p} \\ 1 & x_{21} & x_{22} & \cdots & x_{2p} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{n1} & x_{n2} & \cdots & x_{np} \end{bmatrix}, \qquad \boldsymbol{\beta} = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_p \end{bmatrix}, \qquad \boldsymbol{\epsilon} = \begin{bmatrix} \epsilon_1 \\ \epsilon_2 \\ \vdots \\ \epsilon_n \end{bmatrix} $$
단 이때 회귀분석의 기본 가정을 따라야 하기 때문에 $ \boldsymbol{\epsilon} \sim N(\mathbf{0}_n , \sigma^2 \mathbf{I}_n ) $ 이어야 한다. 즉 다변량정규분포를 따른다고 가정한다. 종합하여 행렬과 벡터를 활용하여 회귀모형을 나타내면 다음과 같다.
$$ \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} $$
참고로 행렬 $\mathbf{X} $ 의 가장 앞에 $ 1 $ 이 들어간 이유는 절편 $ \beta_0 $ 를 고려하기 위해서다.
이제 최소제곱법을 사용하기 위해 다음과 같이 오차제곱합을 계산하자.
$$ \sum_{i=1}^n \epsilon_i^2 = \boldsymbol{\epsilon}^T \boldsymbol{\epsilon} = (\mathbf{y} - \mathbf{X} \boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X} \boldsymbol{\beta})$$
이제 이를 $ \boldsymbol{\beta} $ 에 대해 미분하여 $ \mathbf{0}_n $ 으로 놓고 이를 만족하는 $ \boldsymbol{\beta} $ 를 $ \hat{\boldsymbol{\beta}} $ 으로 놓으면 정규방정식은 다음과 같다.
$$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $$
$ \dfrac{\partial}{\partial \boldsymbol{\beta}} (\mathbf{y} - \mathbf{X} \boldsymbol{\beta})^T (\mathbf{y} - \mathbf{X} \boldsymbol{\beta}) = -2 \mathbf{X}^T \mathbf{y} + 2 \mathbf{X}^T \mathbf{X} \boldsymbol{\beta} $
$ \mathbf{X}^T \mathbf{X} \hat{\boldsymbol{\beta}} = \mathbf{X}^T \mathbf{y} $
$ \hat{\boldsymbol{\beta}} $ 만 남기기 위해 $ \mathbf{X}^T \mathbf{X} $ 가 역행렬(inverse matrix)이 있다고 가정하고 풀어주면 다음과 같다.
$$ \hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} $$
여기서 특별한 조건이 붙지 않는 한 행렬 $ \mathbf{X} $ 의 계수(rank)는 다음과 같다.
$$ r(\mathbf{X}) = p + 1 $$
또한 $ n > p $ 여야 한다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 다중회귀분석에서의 제곱합의 기댓값 및 F-검정의 의미 (0) | 2025.04.03 |
---|---|
[Regression Analysis] 다중회귀분석 분산분석(ANOVA) (0) | 2025.04.02 |
[Regression Analysis] 이차형식(quadratic forms)의 분포 (0) | 2025.04.02 |
[Regression Analysis] 반복측정(repeated measure) 분산분석 (0) | 2025.03.26 |
[Regression Analysis] 두 회귀선 비교(comparison of regression lines) (0) | 2025.03.26 |