Statistics

[Regression Analysis] 프리슈-워-로벨 정리 (Frisch–Waugh–Lovell theorem)
·
Statistics/Regression Analysis
프리슈-워-로벨 정리 (Frisch–Waugh–Lovell Theorem) 변수가 하나일 때를 가정한 단순회귀분석에서는 회귀계수 β1 의 최소제곱추정량이 설명변수 x 와 반응변수 y 의 표본상관계수 r 과 비례하였다.그러나 다중회귀분석에서는 단순 표본상관계수와의 비례 관계가 성립하지 않는다. 이때 다중회귀분석에서의 회귀계수에 대해 알아보기 위해 다음과 같이 관측값 행렬 X 를 분해해보자.X=X1+X2$$ \mathbf{X}_1 = \begin{bmatrix} 1 & x_{11} & \cdots & x_{1q} \\ 1 & x_{21} & \cdots & x_{2q} \\ \v..
[Regression Analysis] 다중회귀에서의 제곱합의 분포(distribution of sum of squares)
·
Statistics/Regression Analysis
제곱합의 분포 분산분석(ANOVA)을 할 때 자연스럽게 F0=MSR/MSE 를 이용해 검정하였다. 즉 F0 가 F분포를 따른다고 보고 검정하였다. 이때 F0 가 왜 F분포를 따르는지 좀 더 엄밀하게 확인해보겠다.아래와 같은 다중회귀모형을 가정하자.y=Xβ+ϵ,(ϵN(0n,σ2In))총 제곱합 SST 는 다음과 같다.$$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ..
[Regression Analysis] 다중회귀분석에서의 제곱합의 기댓값 및 F-검정의 의미
·
Statistics/Regression Analysis
제곱합의 기댓값 다중회귀모델이 다음과 같다고 하자.y=Xβ+ϵ이를 적합시켜 다음을 얻는다.y^=Xβ^그리고 SSR, SSE 는 다음과 같다.SSR=yTX(XTX)1XTyn(y¯)2$$ SSE = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \m..
[Regression Analysis] 다중회귀분석 분산분석(ANOVA)
·
Statistics/Regression Analysis
분산분석 다중회귀분석의 분산분석도 역시 단순회귀분석의 분산분석과 유사하게 진행된다. 결국 총변동인 SST 와 설명가능한 SSR, 설명 불가능한 SSE 를 활용하여 분석한다.다중회귀모델이 다음과 같다고 하자.y=Xβ+ϵy^=Xβ^그렇다면 SST 는 다음과 같다.SST=(yiy¯)2=yTyn(y¯)2참고로 n(y¯)2 은 다음과 같이 행렬 표현도 가능..
[Regression Analysis] 다중회귀분석(multiple regression analysis)
·
Statistics/Regression Analysis
다중회귀분석 (Multiple Regression Analysis) 기존 단순선형회귀분석에서는 설명변수가 x 하나였다. 그러나 현실에서 많은 경우 단 하나의 영향으로 결정되는 것은 없다. 이러한 것을 반영하여 설명변수를 x1,x2,,xp 등 여러개 설정하여 회귀분석하는 것을 다중회귀분석이라 한다.다중회귀분석은 그 편의상, 그리고 추후 계산까지 고려하여 주로 벡터와 행렬을 이용해 표현한다. 측정값 yx 들에 대해, 그리고 회귀계수 β 들에 대해 다음과 같이 벡터나 행렬로 나타내자.$$ \mathbf{y} = [y1y2yn], \qquad \mathbf..
[Regression Analysis] 이차형식(quadratic forms)의 분포
·
Statistics/Regression Analysis
다변량정규분포 (Multivariate Normal Distribution) 확률벡터 yT=(y1,y2,,yn) 의 기댓값이 μT=(μ1,μ2,,μn) 이고 분산-공분산 행렬이 V 이라 할 때 y 가 다변량정규분포를 따른다면 이를 다음과 같이 표기한다.yN(μ,V)이때 V 는 양의 정부호 행렬(positive definite matrix)이라 가정한다.만약 $ \mathbf{y} \sim (\mathbf{0}_n, \mathbf{I}_n..
[Time Series Analysis] 선형회귀모델(linear regression models)
·
Statistics/Time Series Analysis
선형회귀모델 (Linear Regression Models) 회귀분석은 반응변수(response variable)와 하나 이상의 설명변수(regressor variable) 사이의 관계를 모델링하고 조사하는 통계 기법이다. 일반적으로 회귀분석의 목표는 특정 설명변수가 주어졌을 때 반응변수를 예측하는 모델을 만드는 것이다.단순선형회귀모델(simple linear regression model)은 아래와 같이 표현된다.y=β0+β1x+ϵy 는 반응변수, x 는 설명변수, β0β1 은 미지의 매개변수(unknown parameters)로 회귀계수(regression coefficients)라 한다. $ \..
[Regression Analysis] 반복측정(repeated measure) 분산분석
·
Statistics/Regression Analysis
반복측정 분산분석 각 xi 의 수준에서 ni 개의 반복적인 데이터가 있는 경우 적합결여검정(참고링크)과 유사하게 다음과 같이 모형을 만들고 검정해야 한다.yij=β0+β1xi+ϵij,(ϵN(0,σ2))여기서 i=1,2,,k 는 각 x 값에 대한 것이고, j=1,2,,nixi 에서의 y 관측값에 대한 것이다.이제 분산분석에 필요한 SSE, SSR, SST 를 구하기 위해 x¯y¯ 에 대해 다음과 같이 정의하자.$$ \bar{y} = \f..
[Regression Analysis] 두 회귀선 비교(comparison of regression lines)
·
Statistics/Regression Analysis
두 회귀직선 검정 어떤 회귀직선 두 가지가 같은 회귀직선인가 궁금할 수 있다. 예를 들어서 서울에서 가구수에 따른 쓰레기 배출량을 선형회귀로 적합하고, 부산에서도 똑같이 가구수에 따른 쓰레기 배출량을 선형회귀로 적합했다고 해보자. 근데 만약 서울과 부산의 회귀직선이 같다면, 두 모집단을 합쳐 하나의 모집단으로 만들 수 있다.두 모집단에 대한 회귀모형을 다음과 같이 나타내자.yij=β0i+β1ixij+ϵij,(ϵijN(0,σ2))여기서 i=1,2 는 모집단을 의미하고 j 는 각 모집단에서의 데이터를 의미한다. 각 모집단에서 n1,, n2 ..
[Regression Analysis] 단순선형회귀모형 변환(transformations)
·
Statistics/Regression Analysis
로그 변환 (Logarithmic Transformation) 단순선형회귀모형은 그 이름대로 데이터에 대해 선형모형(linear model)만을 적합하기에 데이터가 비선형 관계(nonlinear equation)를 가지는 경우 적절하지 않은 경우가 있다. 그런데 비선형 관계의 특별한 경우 약간의 변형만으로 선형모형을 그대로 사용할 수 있는데, 그 중 하나가 로그 변환이다.먼저 xy 간 다음과 같은 관계가 있다고 해보자.y=α0α1xϵ여기서 α0α1 은 회귀모수(regression parameters)이며, ϵ 은 오차를 의미하는 확률변수로 평균이 1 이고 분산이 $..
애스터로이드