예측 오차와 잔차 (Forecast Errors and Residuals)

 

예측(forecasts)은 관심 변수에 대한 데이터, 즉 관측값(observations)에 근거한다. 그리고 이것이 시계열(time series) 형태로 주어졌다고 가정하자. 예를 들어 $ T $ 기간의 데이터가 있고, $ T $ 가 가장 최근 시점이라 하고, 시점 $ t $ 에 관측되는 값을 $ y_t $ $(t = 1, 2, \cdots, T) $ 라 하자. 이제 우리는 다음 두 가지를 구분해야 한다.

하나는 어떤 이전 시점, 예를 들어 $t - \tau $ 에서 생성된 $ y_t $ 의 예측값(forecast or predicted value)이고, 다른 하나는 과거 데이터에 시계열 모델을 적합(fitting)하여 추정된 파라미터로부터 얻은 $ y_t $ 의 적합값(fitted value)이다. 여기서 $ \tau $ 를 예측 리드 타임(forecast lead time)이라 한다. $ t - \tau $ 시점에서 만들어진 $ t $ 시점의 예측값은 $ \hat{y}_t(t - \tau)$ 로 나타낸다. 예측 리드 타임이 $ 1 $ 인 경우가 많이 사용된다. 적합하여 얻어진 적합값은 $ \hat{y}_t $ 로 나타낸다.

이를 구분하는 것이 중요한 이유는 예측 오차(forecast errors)와 잔차(residuals)를 구분해야 하기 때문이다. $ \tau $ 에 대한 예측 오차는 $ e_t(\tau) $ 로 나타내고, 잔차는 $ e_t $ 로 나타내며, 다음과 같이 정의된다.

$$ e_t(\tau) = y_t - \hat{y}_t(t - \tau) $$

$$ e_t = y_t - \hat{y}_t $$

이렇게 구분하는 이유는 모델이 일반적으로 과거 데이터 피팅(fit historical data)을 예측(forecast)보다 잘하기 때문이다. 즉 모델 적합으로부터 얻어지는 잔차는 실제 미래 예측 시 발생하는 예측 오차보다 거의 항상 작다. 결국 모델을 적합(fitting)할 때 예측했던 것보다 실제 사용에서 오차가 더 크게 발생할 가능성이 높다.

 

애스터로이드