Statistics

[Regression Analysis] 다중회귀분석(multiple regression analysis)
·
Statistics/Regression Analysis
다중회귀분석 (Multiple Regression Analysis) 기존 단순선형회귀분석에서는 설명변수가 xx 하나였다. 그러나 현실에서 많은 경우 단 하나의 영향으로 결정되는 것은 없다. 이러한 것을 반영하여 설명변수를 x1,x2,,xpx1,x2,,xp 등 여러개 설정하여 회귀분석하는 것을 다중회귀분석이라 한다.다중회귀분석은 그 편의상, 그리고 추후 계산까지 고려하여 주로 벡터와 행렬을 이용해 표현한다. 측정값 yyxx 들에 대해, 그리고 회귀계수 ββ 들에 대해 다음과 같이 벡터나 행렬로 나타내자.$$ \mathbf{y} = [y1y2yn]⎢ ⎢ ⎢ ⎢ ⎢y1y2yn⎥ ⎥ ⎥ ⎥ ⎥, \qquad \mathbf..
[Regression Analysis] 이차형식(quadratic forms)의 분포
·
Statistics/Regression Analysis
다변량정규분포 (Multivariate Normal Distribution) 확률벡터 yT=(y1,y2,,yn)yT=(y1,y2,,yn) 의 기댓값이 μT=(μ1,μ2,,μn)μT=(μ1,μ2,,μn) 이고 분산-공분산 행렬이 VV 이라 할 때 yy 가 다변량정규분포를 따른다면 이를 다음과 같이 표기한다.yN(μ,V)yN(μ,V)이때 VV 는 양의 정부호 행렬(positive definite matrix)이라 가정한다.만약 $ \mathbf{y} \sim (\mathbf{0}_n, \mathbf{I}_n..
[Time Series Analysis] 선형회귀모델(linear regression models)
·
Statistics/Time Series Analysis
선형회귀모델 (Linear Regression Models) 회귀분석은 반응변수(response variable)와 하나 이상의 설명변수(regressor variable) 사이의 관계를 모델링하고 조사하는 통계 기법이다. 일반적으로 회귀분석의 목표는 특정 설명변수가 주어졌을 때 반응변수를 예측하는 모델을 만드는 것이다.단순선형회귀모델(simple linear regression model)은 아래와 같이 표현된다.y=β0+β1x+ϵy=β0+β1x+ϵyy 는 반응변수, xx 는 설명변수, β0β0β1β1 은 미지의 매개변수(unknown parameters)로 회귀계수(regression coefficients)라 한다. $ \..
[Regression Analysis] 반복측정(repeated measure) 분산분석
·
Statistics/Regression Analysis
반복측정 분산분석 각 xixi 의 수준에서 nini 개의 반복적인 데이터가 있는 경우 적합결여검정(참고링크)과 유사하게 다음과 같이 모형을 만들고 검정해야 한다.yij=β0+β1xi+ϵij,(ϵN(0,σ2))yij=β0+β1xi+ϵij,(ϵN(0,σ2))여기서 i=1,2,,ki=1,2,,k 는 각 xx 값에 대한 것이고, j=1,2,,nij=1,2,,nixixi 에서의 yy 관측값에 대한 것이다.이제 분산분석에 필요한 SSESSE, SSRSSR, SSTSST 를 구하기 위해 ˉx¯xˉy¯y 에 대해 다음과 같이 정의하자.$$ \bar{y} = \f..
[Regression Analysis] 두 회귀선 비교(comparison of regression lines)
·
Statistics/Regression Analysis
두 회귀직선 검정 어떤 회귀직선 두 가지가 같은 회귀직선인가 궁금할 수 있다. 예를 들어서 서울에서 가구수에 따른 쓰레기 배출량을 선형회귀로 적합하고, 부산에서도 똑같이 가구수에 따른 쓰레기 배출량을 선형회귀로 적합했다고 해보자. 근데 만약 서울과 부산의 회귀직선이 같다면, 두 모집단을 합쳐 하나의 모집단으로 만들 수 있다.두 모집단에 대한 회귀모형을 다음과 같이 나타내자.yij=β0i+β1ixij+ϵij,(ϵijN(0,σ2))yij=β0i+β1ixij+ϵij,(ϵijN(0,σ2))여기서 i=1,2i=1,2 는 모집단을 의미하고 jj 는 각 모집단에서의 데이터를 의미한다. 각 모집단에서 n1,n1,, n2n2 ..
[Regression Analysis] 단순선형회귀모형 변환(transformations)
·
Statistics/Regression Analysis
로그 변환 (Logarithmic Transformation) 단순선형회귀모형은 그 이름대로 데이터에 대해 선형모형(linear model)만을 적합하기에 데이터가 비선형 관계(nonlinear equation)를 가지는 경우 적절하지 않은 경우가 있다. 그런데 비선형 관계의 특별한 경우 약간의 변형만으로 선형모형을 그대로 사용할 수 있는데, 그 중 하나가 로그 변환이다.먼저 xxyy 간 다음과 같은 관계가 있다고 해보자.y=α0αx1ϵy=α0αx1ϵ여기서 α0α0α1α1 은 회귀모수(regression parameters)이며, ϵϵ 은 오차를 의미하는 확률변수로 평균이 11 이고 분산이 $..
[Time Series Analysis] 예측 모델(forecasting model) 모니터링(monitoring)
·
Statistics/Time Series Analysis
모니터링 예측 모델을 운영하면, 즉 처음 과거 데이터를 기반으로 모델을 만들고 선택한 후 새로운 데이터를 예측하고, 다시 데이터를 수집하다 보면 당연히 새로운 데이터의 변화가 생기고, 덕분에 예측 모델의 정확성이 낮아질 수 있다. 시계열의 기본적인 패턴이 변할 수 있기 때문이다. 예를 들어 예측 대상 변수의 수준 변화(level change) 혹은 기울기 변화(slope change)가 생길 수 있고, 이때문에 변동성(variability) 자체가 증가할 수 있다. 따라서 지속적인 모니터링으로 이러한 변화에 대응해야 한다.예측 모니터링에는 11단계 예측 오차 et(1)et(1) 을 사용한다. 만약 시계열에 수준 변화가 생긴다면 예측 오차는 더 이상 00 을 중심으로 변동하지 않고, 편향(bia..
[Time Series Analysis] 예측 모델(forecasting model) 선택(Choosing)
·
Statistics/Time Series Analysis
모델 평가 어떤 시계열을 예측하는 데에 사용할 수 있는 모델이 하나라면 그 모델밖에 사용할 수 없겠지만, 모델이 여러개라면 그 중 가장 좋은 모델을 골라야할 것이다. 이때 어떤 모델을 선택할 것인가에 대한 지표가 필요하다.모델을 만들 때는 과거 데이터만을 사용하였다. 과거 데이터에 잘 맞는 모델은 새로운 데이터를 예측할 때도 도움이 될 가능성이 높긴 하지만, 반드시 그런 것은 아니다. 특히 과거 데이터에 과적합(overfitting)되면 새로운 데이터에서는 오히려 성능이 떨어진다.따라서 일반적으로는 모델을 만들 때 사용한 데이터와 다른 데이터(out-of-sample)를 평가데이터로 활용하여 11단계 앞 예측 오차(one-step-ahead forecast error)를 이용한 표준편차 혹은 평균제곱오..
[Regression Analysis] 단순선형회귀모형의 타당성
·
Statistics/Regression Analysis
타당성 검증 단순선형회귀모형은 세 가지 기본 전제가 필요했다. 먼저 독립변수 xx 와 종속변수 yy 간 선형 함수관계가 성립해야 했고, 오차항 ϵϵ 은 서로 독립이며 N(0,σ2)N(0,σ2) 을 따라야 했다.그런데 이러한 기본 가정 자체에 대한 검증은 하지 않았기에, 즉 선형모델로 설명하기 적합한지에 대한 검증을 해야할 것이다. 이를 위해 적합결여검정(lack-of-fit test) 등을 활용한다. 적합결여검정 (Lack-of-Fit Test) 두 변수 xxyy 사이의 함수관계가 다음과 같은 단순선형회귀모형으로 표현되는 것이 적합한지 알아보기 위해 적합결여검정을 진행한다.$$ y = \beta_0 + \beta_1 x + \epsilon, \qquad..
[Regression Analysis] 단순선형회귀(simple linear regression) 가설검정(hypothesis test)
·
Statistics/Regression Analysis
회귀계수 검정 일반적인 검정과 거의 동일하다고 생각하면 된다. 앞서 신뢰구간(참고링크)를 구해놨기 때문에 측정된 관측값의 확률에 대해 확인할 수 있고, 따라서 가설검정을 진행할 수 있다.먼저 ϵiN(0,σ2)ϵiN(0,σ2) 등 단순선형회귀의 기본가정이 성립한다고 전제한다.목표모수 θθ점추정량 ˆθ^θ표준오차 σˆθσ^θβ0β0ˆβ1=ˉyˆβ1ˉx^β1=¯y^β1¯xσ2(1n+ˉx2(xiˉx)2)σ2(1n+¯x2(xi¯x)2)β1β1$$ \..
애스터로이드