회귀계수 검정
일반적인 검정과 거의 동일하다고 생각하면 된다. 앞서 신뢰구간(참고링크)를 구해놨기 때문에 측정된 관측값의 확률에 대해 확인할 수 있고, 따라서 가설검정을 진행할 수 있다.
먼저 $ \epsilon_i \sim N(0, \sigma^2) $ 등 단순선형회귀의 기본가정이 성립한다고 전제한다.
목표모수 $ \theta $ | 점추정량 $ \hat{\theta} $ | 표준오차 $ \sigma_{\hat{\theta}} $ |
$ \beta_0 $ | $$ \hat{\beta}_1 = \bar{y} - \hat{\beta}_1 \bar{x} $$ | $$ \sigma^2 \left( \frac{1}{n} + \frac{\bar{x}^2}{\sum (x_i - \bar{x})^2} \right) $$ |
$ \beta_1 $ | $$ \hat{\beta}_0 = \dfrac{S_{XY}}{S_X^2} $$ | $$ \frac{\sigma^2}{\sum ( x_i - \bar{x})^2} $$ |
$ E(Y \mid X=x) $ | $$ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x $$ | $$ \sigma^2 \left( \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $$ |
$ y_j $ | $$ \hat{y}_j = \hat{y} + \epsilon_j $$ | $$ \sigma^2 \left( 1 + \frac{1}{n} + \frac{(x-\bar{x})^2}{\sum (x_i - \bar{x})^2} \right) $$ |
이 경우 $ \sigma^2 $ 이 알려진 경우 양측신뢰구간은 다음과 같다.
$$ \left( \hat{\theta} - z_{\alpha/2} \sigma_\hat{\theta} \leq \theta \leq \hat{\theta} + z_{\alpha/2} \sigma_\hat{\theta} \right) $$
여기서 $ z_{\alpha/2} $ 는 표준정규분포의 임계값으로 $ P(Z > z_{\alpha / 2} ) = \alpha / 2 $ 인 값을 말한다.
만약 $ \sigma^2 $ 이 알려지지 않은 경우 $ \sigma^2 $ 의 추정량인 $ MSE $ 를 적용하여 다음과 같이 계산한다.
$$ \left( \hat{\theta} - t_{\alpha/2} \sigma_\hat{\theta} \leq \theta \leq \hat{\theta} + t_{\alpha/2} \sigma_\hat{\theta} \right) $$
자유도는 일반적인 단순회귀분석인 경우 $ n - 2 $ 가 된다.
검정통계량 $ z_0 $ 혹은 $ t_0 $ 는 $ \dfrac{\hat{\theta} - \theta}{\sigma^2_{\hat{\theta}}} $ 가 될 것이다.
이제 원하는 유의수준 $ \alpha $ 에 따른 기각역 $ RR $ 을 설정하고, 검정통계량을 계산하여 검정하면 된다.
상관계수 검정
일반적인 경우는 독립변수 $ x $ 를 고정된 값으로 취급하지만, 만약 $ x $ 가 확률변수인 경우 $ x $ 와 $ y $ 의 선형석 측도인 모상관계수 $ \rho_{XY} $ 에 대한 검정은 다음과 같다.
모상관계수 $ \rho_{XY} $ 와 표본상관계수 $ r_{XY} $ 는 다음과 같다.
$$ \rho _{XY} = \frac{\sigma_{XY}}{\sigma_X \cdot \sigma_Y} $$
$$ r_{XY} = \frac{S_{XY}}{S_X \cdot S_Y} $$
표본상관계수 $ r_{XY} $ 는 $ \rho_{XY} $ 를 모수로 하는 어떤 확률분포를 가진다.
그림으로 알 수 있듯이 $\rho_{XY} $ 가 $ 0 $ 이 아니면 비대칭이다. 참고로 $ n $ 이 커지면 분포가 대칭적이게 된다.
이때 다음의 통계량 $ Z^\prime $ 은 표본의 크기가 클 경우, 대략 $ n \geq 25 $ 일 경우 근사적으로 아래와 같이 정규분포를 따른다고 한다.
$$ Z^\prime = \frac{1}{2} \ln \left( \frac{1+r_{XY}}{1-r_{XY}} \right) \sim N \left( \frac{1}{2} \ln \left( \frac{1+\rho_{XY}}{1 - \rho_{XY}} \right), \, \frac{1}{n-3} \right) $$
따라서 이를 활용하여 표준화된 통계량 $ Z $ 를 다음과 같이 만들 수 있다.
$$ Z = \frac{Z^\prime - E(Z^\prime)}{\hat{\sigma}_{Z^\prime}} $$
이제 가설검정을 진행하면 다음과 같다. 만약 $ rho_{XY} $ 가 어떤 특정값 $ \rho_0 $ 인지 검정한다면 다음과 같다.
$$ H_0 : \rho = \rho_0 \qquad H_1 : \rho \neq \rho_0 $$
이제 앞서 표준화된 통계량 $ Z $ 를 이용하여 관측값 $ z $ 를 구하고 다음이 성립하면 귀무가설을 기각한다.
$$ \lvert z \rvert > z_{\alpha / 2} $$
즉 앞서 $ r_{XY} $ 의 분포를 확인하고, 이를 이용하여 정규분포로 근사되는 통계량을 만들고 검정하는 것이다.
'Statistics > Regression Analysis' 카테고리의 다른 글
[Regression Analysis] 단순선형회귀모형 변환(transformations) (0) | 2025.03.26 |
---|---|
[Regression Analysis] 단순선형회귀모형의 타당성 (0) | 2025.03.24 |
[Regression Analysis] 단순선형회귀(simple linear regression) 신뢰구간(CI, confidence interval) 및 예측구간(PI, prediction interval) (0) | 2025.03.17 |
[Regression Analysis] 가중회귀(weighted regression) (0) | 2025.03.16 |
[Regression Analysis] 원점을 지나는 회귀 (0) | 2025.03.16 |