Processing math: 13%

회귀분석

[Regression Analysis] 프리슈-워-로벨 정리 (Frisch–Waugh–Lovell theorem)
·
Statistics/Regression Analysis
프리슈-워-로벨 정리 (Frisch–Waugh–Lovell Theorem) 변수가 하나일 때를 가정한 단순회귀분석에서는 회귀계수 β1 의 최소제곱추정량이 설명변수 x 와 반응변수 y 의 표본상관계수 r 과 비례하였다.그러나 다중회귀분석에서는 단순 표본상관계수와의 비례 관계가 성립하지 않는다. 이때 다중회귀분석에서의 회귀계수에 대해 알아보기 위해 다음과 같이 관측값 행렬 X 를 분해해보자.X=X1+X2$$ \mathbf{X}_1 = \begin{bmatrix} 1 & x_{11} & \cdots & x_{1q} \\ 1 & x_{21} & \cdots & x_{2q} \\ \v..
[Regression Analysis] 다중회귀에서의 제곱합의 분포(distribution of sum of squares)
·
Statistics/Regression Analysis
제곱합의 분포 분산분석(ANOVA)을 할 때 자연스럽게 F0=MSR/MSE 를 이용해 검정하였다. 즉 F0 가 F분포를 따른다고 보고 검정하였다. 이때 F0 가 왜 F분포를 따르는지 좀 더 엄밀하게 확인해보겠다.아래와 같은 다중회귀모형을 가정하자. \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} , \qquad (\boldsymbol{\epsilon} \sim N(\mathbf{0}_n , \sigma^2 \mathbf{I}_n)) 총 제곱합 SST 는 다음과 같다.$$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ..
[Regression Analysis] 다중회귀분석에서의 제곱합의 기댓값 및 F-검정의 의미
·
Statistics/Regression Analysis
제곱합의 기댓값 다중회귀모델이 다음과 같다고 하자. \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} 이를 적합시켜 다음을 얻는다. \hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} 그리고 SSR , SSE 는 다음과 같다. SSR = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 $$ SSE = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \m..
[Regression Analysis] 다중회귀분석 분산분석(ANOVA)
·
Statistics/Regression Analysis
분산분석 다중회귀분석의 분산분석도 역시 단순회귀분석의 분산분석과 유사하게 진행된다. 결국 총변동인 SST 와 설명가능한 SSR , 설명 불가능한 SSE 를 활용하여 분석한다.다중회귀모델이 다음과 같다고 하자. \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} \hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} 그렇다면 SST 는 다음과 같다. SST = \sum (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ( \bar{y})^2 참고로 n (\bar{y})^2 은 다음과 같이 행렬 표현도 가능..
[Regression Analysis] 다중회귀분석(multiple regression analysis)
·
Statistics/Regression Analysis
다중회귀분석 (Multiple Regression Analysis) 기존 단순선형회귀분석에서는 설명변수가 x 하나였다. 그러나 현실에서 많은 경우 단 하나의 영향으로 결정되는 것은 없다. 이러한 것을 반영하여 설명변수를 x_1, x_2, \cdots, x_p 등 여러개 설정하여 회귀분석하는 것을 다중회귀분석이라 한다.다중회귀분석은 그 편의상, 그리고 추후 계산까지 고려하여 주로 벡터와 행렬을 이용해 표현한다. 측정값 y x 들에 대해, 그리고 회귀계수 \beta 들에 대해 다음과 같이 벡터나 행렬로 나타내자.$$ \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \qquad \mathbf..
[Regression Analysis] 이차형식(quadratic forms)의 분포
·
Statistics/Regression Analysis
다변량정규분포 (Multivariate Normal Distribution) 확률벡터 \mathbf{y}^T = (y_1, y_2, \cdots, y_n) 의 기댓값이 \boldsymbol{\mu}_T = (\mu_1, \mu_2, \cdots, \mu_n) 이고 분산-공분산 행렬이 \mathbf{V} 이라 할 때 \mathbf{y} 가 다변량정규분포를 따른다면 이를 다음과 같이 표기한다. \mathbf{y} \sim N(\boldsymbol{\mu}, \mathbf{V}) 이때 \mathbf{V} 는 양의 정부호 행렬(positive definite matrix)이라 가정한다.만약 $ \mathbf{y} \sim (\mathbf{0}_n, \mathbf{I}_n..
[Regression Analysis] 반복측정(repeated measure) 분산분석
·
Statistics/Regression Analysis
반복측정 분산분석 각 x_i 의 수준에서 n _i 개의 반복적인 데이터가 있는 경우 적합결여검정(참고링크)과 유사하게 다음과 같이 모형을 만들고 검정해야 한다. y_{ij} = \beta_0 + \beta_1 x_i + \epsilon_{ij}, \qquad ( \epsilon \sim N(0, \sigma^2) )여기서 i = 1, 2, \cdot, k 는 각 x 값에 대한 것이고, j = 1, 2, \cdot, n_i x_i 에서의 y 관측값에 대한 것이다.이제 분산분석에 필요한 SSE , SSR , SST 를 구하기 위해 \bar{x} \bar{y} 에 대해 다음과 같이 정의하자.$$ \bar{y} = \f..
[Regression Analysis] 두 회귀선 비교(comparison of regression lines)
·
Statistics/Regression Analysis
두 회귀직선 검정 어떤 회귀직선 두 가지가 같은 회귀직선인가 궁금할 수 있다. 예를 들어서 서울에서 가구수에 따른 쓰레기 배출량을 선형회귀로 적합하고, 부산에서도 똑같이 가구수에 따른 쓰레기 배출량을 선형회귀로 적합했다고 해보자. 근데 만약 서울과 부산의 회귀직선이 같다면, 두 모집단을 합쳐 하나의 모집단으로 만들 수 있다.두 모집단에 대한 회귀모형을 다음과 같이 나타내자. y_{ij} = \beta_{0i} + \beta_{1i} x_{ij} + \epsilon_{ij} , \qquad ( \epsilon_{ij} \sim N(0, \sigma^2)) 여기서 i =1, 2 는 모집단을 의미하고 j 는 각 모집단에서의 데이터를 의미한다. 각 모집단에서 n_1, , n_2 ..
[Regression Analysis] 단순선형회귀모형 변환(transformations)
·
Statistics/Regression Analysis
로그 변환 (Logarithmic Transformation) 단순선형회귀모형은 그 이름대로 데이터에 대해 선형모형(linear model)만을 적합하기에 데이터가 비선형 관계(nonlinear equation)를 가지는 경우 적절하지 않은 경우가 있다. 그런데 비선형 관계의 특별한 경우 약간의 변형만으로 선형모형을 그대로 사용할 수 있는데, 그 중 하나가 로그 변환이다.먼저 x y 간 다음과 같은 관계가 있다고 해보자. y = \alpha_0 \alpha_1^x \epsilon 여기서 \alpha_0 \alpha_1 은 회귀모수(regression parameters)이며, \epsilon 은 오차를 의미하는 확률변수로 평균이 1 이고 분산이 $..
[Regression Analysis] 단순선형회귀모형의 타당성
·
Statistics/Regression Analysis
타당성 검증 단순선형회귀모형은 세 가지 기본 전제가 필요했다. 먼저 독립변수 x 와 종속변수 y 간 선형 함수관계가 성립해야 했고, 오차항 \epsilon 은 서로 독립이며 N(0, \sigma^2) 을 따라야 했다.그런데 이러한 기본 가정 자체에 대한 검증은 하지 않았기에, 즉 선형모델로 설명하기 적합한지에 대한 검증을 해야할 것이다. 이를 위해 적합결여검정(lack-of-fit test) 등을 활용한다. 적합결여검정 (Lack-of-Fit Test) 두 변수 x y 사이의 함수관계가 다음과 같은 단순선형회귀모형으로 표현되는 것이 적합한지 알아보기 위해 적합결여검정을 진행한다.$$ y = \beta_0 + \beta_1 x + \epsilon, \qquad..
애스터로이드