Statistics

[Time Series Analysis] 변이도(variogram)
·
Statistics/Time Series Analysis
변이도 (Variogram) 시계열의 정상성(stationarity)을 판단하는 방법으로는 데이터를 시각화하여 충분히 긴 시간동안 같은 평균이나 분산을 유지하는지 확인하거나, 표본 자기상관함수(ACF)를 계산한 후 시각화하는 방법이 있다. 그러나 이러한 방법은 시계열의 길이가 제한되어 있거나, 추세(trend)나 계절성(seasonality) 등의 문제로 실제 상황에서 사용하기란 쉽지 않다.이때 변이도(variogram)을 이용할 수 있다. 변이도는 관측값들의 시공간적 연관성(correlation)을 표현하는 함수로 다음과 같이 정의된다.$$ G_k = \frac{\mathrm{Var}(y_{t+k}-y_t)}{\mathrm{Var}(y_{t+1}-y_t)}, \qquad (k = 1, 2, \cdots..
[Time Series Analysis] 시계열 자료의 정상성(stationarity)
·
Statistics/Time Series Analysis
정상성 (Stationarity) 장성성(stationarity)을 가진 시계열, 즉 정상시계열(stationary time series) 데이터는 확인하는 시점이 바뀌어도 그 자료의 특징이 변하지 않는 시계열이다. 특히 엄격한 정상성(strict stationarity)을 가정하면 그 성질이 시간의 원점 변화에 영향을 받지 않아 관측값 $ y_t, y_{t+1}, \cdots, y_{t+n} $ 의 결합확률분포(joint probability distribution)가 $ y_{t+k}, y_{t+k+1}, \cdots, y_{t+k+n} $ 과 완전히 동일(exactly same)하다. 이러한 정상성 가저은 $ n = 0 $ 일 때 $ y_t $ 의 확률분포가 모든 시간(time periods)에 대..
[Time Series Analysis] 단순이동평균(simple moving average), 중심화이동평균(centered moving average), 이동중앙값(moving median)을 이용한 스무딩(smoothing)
·
Statistics/Time Series Analysis
단순이동평균 주로 주식하면 많이 봤을 스무딩 기법으로 기간(span)을 정하고 원하는 시점 $ t $ 에서 기간만큼 데이터를 확인하고 평균내어 데이터를 다시 만드는 방법이다. 즉 가장 최근을 $ T $ 라 할 때 기간을 $ N $ 으로 정했다면 최근 $ N $ 개의 관측값 $y_T, y_{T-1}, \cdots, y_{T-N+1} $ 에 동일한 가중치 $ 1/ N $ 을 할당한다. 그렇다면 시점 $ T $ 에서 $ N $ 기간 이동평균 $ M_T $ 는 다음과 같다.$$ M_T = \frac{y_T + y_{T-1} + \cdots + y_{T-N+1}}{N} = \frac{1}{N} \sum_{t=T-N+1}^T y_t $$새로운 관측값이 한 개 추가될 때마다, 이동평균을 계산하는 합에 그 새로운 관측..
[Time Series Analysis] 시계열에서 예측 오차(forecast errors)와 잔차(residuals)
·
Statistics/Time Series Analysis
예측 오차와 잔차 (Forecast Errors and Residuals) 예측(forecasts)은 관심 변수에 대한 데이터, 즉 관측값(observations)에 근거한다. 그리고 이것이 시계열(time series) 형태로 주어졌다고 가정하자. 예를 들어 $ T $ 기간의 데이터가 있고, $ T $ 가 가장 최근 시점이라 하고, 시점 $ t $ 에 관측되는 값을 $ y_t $ $(t = 1, 2, \cdots, T) $ 라 하자. 이제 우리는 다음 두 가지를 구분해야 한다.하나는 어떤 이전 시점, 예를 들어 $t - \tau $ 에서 생성된 $ y_t $ 의 예측값(forecast or predicted value)이고, 다른 하나는 과거 데이터에 시계열 모델을 적합(fitting)하여 추정된 파라..
[Time Series Analysis] 예측(forecasting) 및 시계열 분석(time series analysis)
·
Statistics/Time Series Analysis
예측 (Forecast) 미래의 어떤 사건 혹은 여러 사건에 대한 추측(prediction)을 말한다. 당연히 여러 분야에서 중요한 이슈이다. 내일의 날씨, 내일의 경제 상황, 내일 환자의 상태 등 다양한 것을 예측해야할 필요가 있다.간단하게 구분다면 수일에서 수개월 정도의 단기(short-term), 1~2년 정도의 중기(medium-term), 그 이상의 장기(long-term)으로 나눌 수 있다.그러나 이러한 예측은 쉽지 않다. 어떤 변수가 어떻게 작용하는지도 파악해야 하고, 어느 정도 작용하는지도 파악해야 하며, 예측하고자 하는 시점에 해당 변수들이 어떻게 달라질지도 예측해야 한다. 예를 들어서 1966년 월스트리트저널은 세기가 바뀔 즈음 미국 컴퓨터는 22만대 가량에 이를 것이라 예측했지만, 당..
[Regression Analysis] 상관분석(correlation analysis) 및 분산분석(ANOVA, analysis of variance)
·
Statistics/Regression Analysis
상관분석 (Correlation Analysis) 두 변수 $X $ 와 $ Y $ 사이 선형관계(linear relationship)를 설명하는 상관계수(coefficient of correlation)을 이용한 분석이다. 상관계수 $ r $ 은 결정계수(참고링크) $ r^2 $ 를 통해 다음과 같이 구할 수 있다.$$ r = \pm \sqrt{r^2} $$$ r $ 의 부호는 회귀선의 기울기인 $ \hat{\beta}_1 $ 을 따라간다. $ \hat{\beta}_1 $ 이 양수이면 $ r $ 도 양수이고, 음수이면 $ r $ 도 음수이다. 따라서 $ r $ 의 범위는 $ [-1, 1] $ 이다. 만약 $ r = 0 $ 이면 두 변수간 선형관계가 없다고 말할 수 있다.단 지금까지는 $ Y $ 는 확률변..
[Regression Analysis] 단순회귀분석 회귀선 적합(fitting the regression line) 및 정밀도(precission)
·
Statistics/Regression Analysis
회귀선 추정 (Regression Line Estimation) 단순회귀분석모형인 $ Y= \beta_0 + \beta_1 X + \epsilon $ 을 얻기 위해 추정을 진행한다면 다음과 같은 직선을 얻을 것이다.$$ \hat{y} = \hat{\beta}_0 + \hat{\beta}_1 x $$이와 같은 직선을 추정된 회귀직선, 간단하게 회귀선이라 한다. 여기서 $ \hat{\beta}_0, \hat{\beta}_1, \hat{y} $ 는 각각 $ \beta_0, \beta_1, E(Y \mid X= x) $ 의 추정값(estimate)이다. 이를 좌표평면에 그리면 $ \hat{\beta}_0 $ 가 절편이 되고, $ \hat{\beta}_1 $ 이 기울기가 되서 이를 각각 회귀선의 절편, 기울기라 ..
[Regression Analysis] 단순회귀분석(simple regression analysis) 및 기본 가정
·
Statistics/Regression Analysis
회귀분석 (Regrassion Analysis) 많은 연구에서의 관심사는 특정 변수 간의 관계를 파악하는 것이다. 인공지능이나 머신러닝에서 특정 변수를 예측하는 것 역시 다른 변수와의 관계를 모델링하여 특정 변수를 예측하는 것과 무관하지 않다.회귀분석은 이러한 변수 간의 관계를 모델링하고 예측하는 통계적 방법론이다. 예측하고자 하는 변수를 일반적으로 종속변수(dependent variable) 또는 반응변수(response variable)라고 하고, 이에 영향을 주는 변수를 독립변수(independent variable) 또는 설명변수(explanatory variable)라고 한다.가장 간단하게는 독립변수 하나, 종속변수 하나, 그리고 그 둘의 선형관계(linear ralation)를 탐색하는 단순회..
[Mathematical Statistics] 마르코프 연쇄의 가역성(reversibility)
·
Statistics/Mathematical Statistics
가역성 (Reversibility) $ P = (P_{ij}) $ 를 어떤 마르코프 연쇄의 전이행렬이라 하자.$$ \pi_i P_{ij} = \pi_j P_{ji} $$모든 $i, j $ 에 대하여 위를 만족하는 $ \pi_i \geq 0 $ 이고, $ \sum_i \pi_i = 1 $ 인 $ \boldsymbol{\pi} = ( \pi_1, \pi_2, \cdots, \pi_M ) $ 이 존재한다고 하자. 이 식을 가역성 조건 또는 세부균형(detailed balance) 조건이라 하며, 이 조건이 성립하면 마르코프 연쇄는 $ \boldsymbol{\pi} $ 에 대해 가역적(reversible)이라 한다.정상분포에 따라 출발하는 경우, 가역 마르코프 연쇄는 시간 흐름과 관계없이, 즉 순방향이든, 역방..
[Mathematical Statistics] 에르고딕성(ergodicity)
·
Statistics/Mathematical Statistics
에르고딕 이론 (Ergodic Theory) 에르고딕 가설은 보존적 열역학계에서 장기적으로 관측한 어떤 물리량의 시간 평균이, 해당 계의 전체 상태 공간에서의 공간 평균과 일치할 것이라는 가설이다. 이 성질을 간단하게 에르고딕성이 성립한다고 표현한다.이 개념을 직관적으로 설명하기 위해 자주 사용하는 것이 당구대 비유로 1963년 수학자 야코프 시나이의 일명 역학적 당구(dynamical billiards) 비유이다. 당구대의 벽이 완전 탄성 반사를 제공하고 당구공이 에너지 손실 없이 일정한 속도로 움직인다고 가정하자. 당구대의 모양이 복잡하거나 비대칭적인 경우, 거의 모든 초기 조건에서 당구공의 경로는 시간이 지남에 따라 당구대의 거의 모든 부분을 방문하게 된다. 이는 시간 평균이 공간 평균과 일치함을 ..
애스터로이드
'Statistics' 카테고리의 글 목록 (3 Page)