선형성 (Linearity)
시계열 모델을 만들 때 편리한 가정이 선형성 가정(linearity assumption)이다. 어떤 선형 필터(linear filter)를 가정하자. 선형 필터는 어떤 시계열 $ x_t $ 를 입력으로 하여 다른 시계열 $ y_t $ 를 출력으로 내보내는 선형 연산(linear operation)을 의미한다.
$$ y_t = L(x_t) = \sum_{i = - \infty}^{+\infty} \psi_i x_{t-i} , \qquad (t = \cdots, -1, 0, 1, \cdots) $$
이 식에서 선형 필터는 입력 $ x_t $ 를 출력 $ y_t $ 로 바꾸는 프로세스(process)로도 볼 수 있으며, 변화는 순간적(instantaneous)인 것이 아니라 과거, 미래 모든 입력값에 대해 서로 다른 가중치(individual weights)를 곱해 더해지는 형태로 이루어진다. 대표적 선형필터가 이동평균(참고링크)이다.
이때 선형 필터는 몇가지 성질을 갖는다. 먼저 계수 $ \psi_i $ 는 시간 불변 계수(time-invariant coefficients)로 시간에 의존하지 않는다. 또한 물리적으로 실현 가능(physically realizable)하다. 이는 $ i < 0 $ 인 경우 $ \psi_i = 0 $ 이라면 출력 $ y_t $ 가 현재 시점 밎 과거 시점의 입력값으로만 표현되는 것을 의미한다. 즉 다음과 같다.
$$ y_t = \psi_0 x_t + \psi_1 x_{t-1} + \cdots $$
또한 안정적(stable)이다. 즉 발산하지 않아 다음과 같다.
$$ \sum_{i = - \infty}^{+\infty} \lvert \psi_i \rvert < \infty $$
이러한 선형 필터에서는 특정 조건하에 입력 시계열이 가진 특성, 예를 들어 정상성(stationarity)이 출력에도 반영된다.
무한 이동평균 (Infinite Moving Average)
시계열의 정상성(참고링크)은 시계열이 시간 전반에 걸쳐 보이는 통계적 특성(statistical properties)과 관련된다. 더 엄밀하게 정상시계열(stationary time series)란 시간에 따라 확률분포(probability distribution)가 변하지 않는 경우를 말하는데, 일반적으로는 정상성에는 약한 정상성(weak stationarity)도 포함하기 때문에 1차, 2차 모멘트인 평균, 분산, 공분산 정도만 시간에 의존하지 않는다면 정상성을 가진다고 간주한다.
즉 정상성을 만족하려면 시계열의 기댓값 $ E(y_t) $ 가 시간 $ t $ 에 의존하지 않아야 하고, 자기공분산 함수(autocovariance function - 참고링크)가 시차(lag) $ k $ 만의 함수로, 시간 $ t $ 와 무관해야 한다.
대략적으로는 프로세스의 임의 시점에서 잘라서(snapshots) 확인하여 그 전반적 거동이 비슷하면 정상성 가정하에 모델링한다. 초기 진단에는 자기상관함수(ACF, autocorrelation function)를 확인하기도 하는데, 만약 자기상관함수가 특정 시점이후에도 크게 줄어들지 않고, 느리게 감소하며 강한 값을 유지한다면 비정상(nonstationary) 가능성이 높음을 의미하기에 주의해야 한다.
정상시계열 $ x_t $ 에 시간 불변(time-invariant)이고 안정적(stable)인 선형 필터를 이용해 $ y_t $ 를 출력하면 $ y_t $ 역시 정상시계열이다. 이때 아래와 같다고 해보자.
$$ E(y_t) = \mu_t = \sum_{i = - \infty}^{+\infty} \psi_i \mu_x $$
$$ \mathrm{Cov}(y_t, y_{t+k}) = \gamma_y(k) = \sum_{i = - \infty}^{+\infty} \sum_{j = - \infty}^{+\infty} \psi_i \psi_j \gamma_x (i - j + k) $$
$ y_t = \sum_{i = - \infty}^{+ \infty} \psi_i x_{t-i} $
$ y_{t+k} = \sum_{i = - \infty}^{+ \infty} \psi_i x_{t+k-i} $
이때 $ y_t $ 의 자기공분산은 다음과 같다.
$ \mathrm{Cov}(y_t, y_{t+k}) = \mathrm{Cov} \left( \sum_{i = - \infty}^{+ \infty} \psi_i x_{t-i}, \sum_{i = - \infty}^{+ \infty} \psi_i x_{t+k-i} \right) $
여기서 공분산의 선형성과 이중합의 성질을 이용하면 다음과 같다.
$ \mathrm{Cov}(y_t, y_{t+k}) = \sum_i \sum_j \psi_i \psi_j \cdot \mathrm{Cov}(x_{t-i}, x_{t+k-j} ) $
또한 $ x_{t-i} $ 와 $ x_{t+k-j} $ 의 공분산을 확인하면 다음과 같다.
$ \mathrm{Cov}(x_{t-i}, x_{t+k-j}) = \gamma_x((t+k-j) - (t-i)) $
$ = \gamma_x (i - j + k) $
따라서 다음과 같다.
$ \gamma_y (k) = \sum_i \sum_j \psi_i \psi_j \gamma_x (i - j +k ) $
이를 이용하면 화이트 노이즈(white noist) 시계열 $ \epsilon_t $ 를 갖는 다음의 선형 프로세스(linear process)도 정상시계열임을 쉽게 확인할 수 있다.
$$ y_t = \mu \sum_{i=0}^\infty \psi_i \epsilon_{t-i} $$
단 이때 $ \epsilon_t $ 는 평균이 $ 0 $, 분산, 즉 자기공분산이 다음과 같아 서로 독립적이거나 최소한 무상관(uncorrelated)인 화이트 노이즈이다.
$$ \gamma_\epsilon(h) = \begin{cases} \sigma^2, & \quad (h = 0) \\ 0, & \quad (h \neq0) \end{cases} $$
그렇다면 시계열 $y_t $ 의 자기공분산 함수는 다음과 같다.
$$ \gamma_y(k) = \sum_{i=0}^\infty \sum_{j=0}^\infty \psi_i \psi_j \gamma_\epsilon (i - j +k) = \sigma^2 \sum_{i=0}^\infty \psi_i \psi_{i+k} $$
이제 이 프로세스를 후방이동 연산자(backshift operator) $ B $ 를 이용해 다음과 같이 다시 쓸 수 있다.
$$ y_t = \mu + \psi_0 \epsilon_t + \psi_1 \epsilon_{t-1} + \cdots = \mu + \sum_{i=0}^\infty \psi_i B^i \epsilon_t $$
그리고 이를 다시 아래와 같이 쓸 수 있다.
$$ y_t = \mu + \Psi (B) \epsilon_t , \qquad \Psi(B) = \sum_{i=0}^\infty \psi_i B^i $$
이를 무한 이동평균(infinite moving average)이라고 부르며 임의의 정상시계열(any stationary time series)을 표현할 수 있는 매우 일반적인 모델(general model)이다. 이는 모든 정상시계열(stationary time serise)은 현재 시점과 과거 시점의 무작위 충격(disturbances)의 가중합(weighted sum)으로 볼 수 있다는 뜻이다. 단 이때 상관(correlation)과 독립성(independence)의 차이를 잘 생각해야 한다. 독립이면 무상관이지만, 무상관이라 해서 독립인 것은 아니다.
앞선 식에서 확인할 수 있듯이 가중치 집합 $ \{ \psi_i \} $ 와 자기공분산함수 사이에는 직접적 대응 관계가 존재한다. 하지만 임의의 정상시계열을 무한 이동평균 모델로 나타내려면 실제 추정 과정에서 $ \{ \psi_i \} $ 를 무한히 많이 추정해야 하므로 이는 실질적으로 사용이 불가능한 모델이다.
단 현실적으로 이를 활용할 수 있는 몇몇 특수한 형태가 있다. 먼저 유한차수 이동평균 모델(MA, finite order moving average model)은 $ \{ psi_i \} $ 중 유한 개 이외의 모든 항이 $ 0 $ 인 경우이다. 유한차수 자기회귀 모델(AR, finite order autoregressive model)은 $ \{ \psi_i \} $ 가 유한 개의 파라미터만으로 생성되는 경우이다. 그리고 위 두 모델을 혼합한 유한차수 자기회귀이동평균 모델(ARMA, finite autoregressive moving average model)이 있다.
'Statistics > Time Series Analysis' 카테고리의 다른 글
[Time Series Analysis] 유한차수 자기회귀 모델(AR, finite order autoregressive model) (0) | 2025.04.13 |
---|---|
[Time Series Analysis] 유한차수 이동평균 모델(MA, finite order moving average model) (0) | 2025.04.11 |
[Time Series Analysis] 계절성을 가지는 시계열에 대한 지수평활법 (0) | 2025.04.09 |
[Time Series Analysis] 지수평활법을 이용한 예측(forecasting) (0) | 2025.04.09 |
[Time Series Analysis] 2차 지수평활법(second-order exponential smoothing) (0) | 2025.04.09 |