모델 평가
어떤 시계열을 예측하는 데에 사용할 수 있는 모델이 하나라면 그 모델밖에 사용할 수 없겠지만, 모델이 여러개라면 그 중 가장 좋은 모델을 골라야할 것이다. 이때 어떤 모델을 선택할 것인가에 대한 지표가 필요하다.
모델을 만들 때는 과거 데이터만을 사용하였다. 과거 데이터에 잘 맞는 모델은 새로운 데이터를 예측할 때도 도움이 될 가능성이 높긴 하지만, 반드시 그런 것은 아니다. 특히 과거 데이터에 과적합(overfitting)되면 새로운 데이터에서는 오히려 성능이 떨어진다.
따라서 일반적으로는 모델을 만들 때 사용한 데이터와 다른 데이터(out-of-sample)를 평가데이터로 활용하여 $1$단계 앞 예측 오차(one-step-ahead forecast error)를 이용한 표준편차 혹은 평균제곱오차(MSE)를 계산하는 방법으로 해당 모델의 성능을 평가하곤 한다. 일반적으로는 전체 데이터를 분할(data splitting)하여 한 부분은 모델을 만드는데에, 또 다른 부분은 모델을 평가하는 데에 사용한다. 이를 교차 검증(cross-validation)이라고도 한다.
결국 어찌되었던 간에 과거 데이터에 대해 적합하는 것이기에 $ y_t - \hat{y}_t $ 인 잔차(residuals) $ e_t $ 를 사용한다.
선택 지표
먼저 잔차의 평균제곱오차(MSE)는 다음과 같다.
$$ s^2 = \frac{\sum _{t=1}^T e_t^2}{T-p} $$
여기서 $ T $ 는 데이터를 적합하는 데 사용된 기간 수이고, $ p $ 는 모델의 매개변수 개수이다. $ s^2 $ 는 확인할 수 있듯이 잔차의 표본분산이며 이는 모델 오차의 분산에 대한 추정량이다.
결정계수(R-squared)는 다음과 같다.
$$ R^2 = 1 - \frac{\sum_{t=1}^T e_t^2}{\sum_{t=1}^T (y_t - \bar{y})^2} $$
분모는 관측값의 총 제곱합(SST)이며, 분자는 잔차의 제곱합(SSE)이다. 즉 결정계수를 최대화하는 모델을 선택하는 것은 잔차 제곱합(SSE)을 최소화하는 모델을 선택하는 것이다.
그러나 모델에 매개변수가 추가되면 항상 잔차 제곱합(SSE)이 작아진다는 문제가 있고, 따라서 결정계수에만 의존하여 모델을 선택하면 매개변수가 많은 모델을 선택할 가능성이 높아진다. 이는 과적합(overfitting)을 발생시킬 가능성을 높인다. 따라서 이를 방지하고자 매개변수를 규제하는 다음과 같은 조정 결정계수(adjusted R-squared)를 활용하기도 한다.
$$ R^2_{\text{Adj}} = 1 - \frac{\sum_{t=1}^T e_t^2 / (T-p)}{\sum_{t=1}^T (y_t - \bar{y})^2 / (T-1)} = 1 - \frac{s^2}{\sum_{t=1}^T (y_t - \bar{y})^2 / (T-1)} $$
여기서 조정(adjusted)은 모델의 크기, 즉 매개변수의 수에 대한 조정을 의미한다.
정보 기준 (Information Criteria)
앞서 여러 지표가 있었는데, 이에 대한 여러 변형과 확장이 존재한다. 다음 기준들은 모델의 잔차 제곱합에 대해 매개변수 추가에 따른 패널티를 부과한다. 아래는 그중 하나인 아카이케 정보 기준(AIC, Akaike information criterion)이다.
$$ AIC = \ln \left( \frac{\sum_{t=1}^T e_t^2}{T} \right) + \frac{2p}{T} $$
그런데 아카이케 정보 기준은 일관성(consistency) 측면에서는 적절하지 않다. 즉, 일관적이지 않은 기준이다. 여기서 말하는 일관성이란 표본의 크기가 커질수록 진짜 모델(true model)을 선택할 확률이 $1$에 수렴하는 성질을 의미한다. 데이터가 충분히 많다면, 그 데이터를 생성한 진짜 모델을 정확히 골라낼 수 있어야 한다. 하지만 $AIC$와 $s^2 $, $R^2 $ 는 모두 일관되지 않은 기준이기 때문에, 과적합을 초래하기 쉽다.
이러한 점을 보완하여 일관성을 갖춘 기준이 바로 베이지안 정보 기준(BIC, Bayesian information criterion)이다.
$$ BIC = \ln \left( \frac{\sum_{t=1}^T e_t^2}{T} \right) + \frac{p \ln(T)}{T} $$
$BIC$는 $AIC$보다 더 강한 패널티를 부여하므로, 불필요하게 복잡한 모델을 억제하는 데에 더 효과적이다. 따라서 모델이 단순해지는 경향이 있고, 진짜 모델을 찾아내는 데는 더 적합하다.
단, 일관성이 전부는 아니다. 진짜 모델이나 그에 가까운 근사 모델이 매우 복잡할 수도 있다. 이런 경우에는 점근적으로 효율적인(asymptotically efficient) 모델 선택 기준이 중요해진다. 점근적으로 효율적이라는 것은, 표본의 크기가 커질 때 1단계 예측 오차의 분산이 진짜 모델의 오차 분산에 가장 빠르게 수렴한다는 의미다.
이런 관점에서 보면, $BIC$는 점근적으로 효율적이지 않고, 오히려 $AIC$가 점근적으로 효율적이다. 즉, $AIC$는 진짜 모델을 정확히 고르지는 못하더라도 예측 성능 면에서는 데이터가 많아질수록 가장 빠르게 좋은 결과에 도달하는 기준이라는 점에서 장점이 있다.
'Statistics > Time Series Analysis' 카테고리의 다른 글
[Time Series Analysis] 선형회귀모델(linear regression models) (0) | 2025.03.26 |
---|---|
[Time Series Analysis] 예측 모델(forecasting model) 모니터링(monitoring) (0) | 2025.03.26 |
[Time Series Analysis] 예측 모델(forecasting model) 평가(evaluation) (0) | 2025.03.23 |
[Time Series Analysis] 추세(trend) 및 계절성(seasonal) 조정 (0) | 2025.03.21 |
[Time Series Analysis] 멱변환(power transformation)을 통한 데이터 변환(data transformation) (0) | 2025.03.20 |