패널 데이터 (Panel Data)
일반적으로 많이 보는 데이터는 특정 기간에 여러 개체를 조사한 횡단면 데이터(cross-sectional data)이거나 한 개체를 여러 시점에 걸쳐 조사한 시계열 데이터(time-series data)이다. 패널 데이터(panel data)는 여러 개체를 여러 시간에 걸쳐 추적 조사함으로써 얻는 데이터를 말한다. 따라서 패널 데이터를 사용하려면 개체를 구분할 수 있는 고유한 식별값이 필요하며, 각 시기별로 각 개체에 대한 관측이 이루어져야 한다.
예를 들어 대한민국의 명목 GDP 추이를 보면 대한민국이라는 한 개체를 여러 시간에 걸쳐 조사한 시계열 데이터이다. 반면 OECD 각 국가별 명목 GDP 추이를 보면 국가들이 개체가 되어 여러 개체를 여러 시점에 걸쳐 조사한 패널 데이터가 된다.
패널 데이터는 균형 패널(balanced panel)과 불균형 패널(unbalanced panel)로 나뉜다. 균형 패널은 모든 횡단면 단위가 동일한 기간 동안 관찰값을 빠짐없이 가지고 있는 경우이고, 불균형 패널은 횡단면 단위별로 관찰 기간이 서로 다른 경우를 가리킨다. 다시 말해, 결측치가 있으면 불균형 패널이라고 볼 수 있다. 현실적으로 조사 과정에서 응답 누락이나 기업, 개인의 탈락 등의 이유로 결측치가 발생하기 쉽기 때문에, 패널 데이터의 상당 부분이 불균형 패널 형태이다.
횡단면 데이터를 이용해 회귀 모형을 만들 때는 개체 고유의 척도만 고려되므로 다음과 같이 나타낼 수 있다.
$$ Y_i = \beta_0 + \boldsymbol{\beta}_1 \mathbf{x}_i^\prime + \epsilon_i $$
여기서 $i $ 는 개체를 가리키는 척도이다. 그러나 패널 데이터에서는 개체와 함께 시간 요소가 추가되므로 식은 다음과 같이 표현되는 것이 일반적이다.
$$ Y_{it} = \beta_0 + \boldsymbol{\beta}_1 \mathbf{x}_{it}^\prime + \epsilon_{it} $$
여기서 $ i $ 는 개체 인덱스, $ t $ 는 시점 인덱스이다.
단 횡단면 데이터와 마찬가지로 모든 표본은 모집단에서 독립적으로 추출되어 독립항등분포(i.i.d.)를 만족한다고 가정한다.
패널 데이터를 이용할 수 있다면 종속변수가 우리가 관측하지 못한 변수, 즉 생략 변수(omitted variable)의 영향으로 편향(omitted variable bias - 참고링크)이 발생하는 것을 통제할 가능성이 높아진다. 특히 이러한 생략 변수가 시간에 따라 변하지 않는 특성(time invariance)을 가진다면, 고정 효과(fixed effects) 등의 패널 데이터 기법을 통해 그 영향을 제거할 수 있으므로, 설명 변수의 효과를 일관되게(consistently) 추정할 수 있다.
표기
패널 데이터를 나타낼 때는 3차원 텐서(tensor)로 나타낼 수도 있지만, 일반적으로는 2차원 행렬(matrix)로 나타낸다. 이를 나타내는 방법은 다음과 같다.
데이터가 각 $ i = 1, 2, \cdots, N $ 를 $ t = 1, 2, \cdots, T $ 기간 동안 관찰하여 만든 패널 데이터이고, 균형 패널이라면 각 $ i $ 에 대해 모든 기간 관찰 가능한 변수들을 $ (y_{it}, \mathbf{x}_{it}) $ 로 표기할 수 있다. 여기서 $ \mathbf{x}_{it} = \{ x_{it1}, x_{it2}, \cdots , x_{itK} \} $ 인 $ 1 \times K $ 벡터이다. 또한 일반적으로 횡단면 단위들은 모집단에서 독립항등분포(i.i.d.)한다 가정한다.
$$ \{\mathbf{y}_t, \mathbf{X}_i, \mathbf{c}_i \}_{i=1}^N \sim \text{i.i.d.} $$
$$ \mathbf{y}_i = \{ y_{i1}, y_{i2}, \cdots, y_{iT} \}^\prime, \qquad \mathbf{X}_i = \{ \mathbf{x}_{i1}, \mathbf{x}_{i2}, \cdots, \mathbf{x}_{iT} \}^\prime, \qquad \mathbf{c}_i = \{ c_{i1}, c_{i2}, \cdots, c_{iT} \}^\prime $$
단일 단위로 본다면 다음과 같다.
$$ \mathbf{y}_{i, T \times 1} = \begin{bmatrix} y_{i1} \\ \vdots \\ y_{iT} \end{bmatrix}, \qquad \mathbf{X}_{i, T \times K} = \begin{bmatrix} x_{i11} & x_{i12} & \cdots & x_{i2K} \\ \vdots & \vdots & \vdots & \vdots \\ x_{it1} & x_{it2} & \cdots & x_{itK} \\ \vdots & \vdots & \vdots & \vdots \\ x_{iT1} & x_{iT2} & \cdots & x_{iTK} \end{bmatrix} $$
이를 다시 다음과 같이 나타낸다.
$$ \mathbf{Y}_{NT \times 1} = \begin{bmatrix} \mathbf{y}_1 \\ \vdots \\ \mathbf{y}_i \\ \vdots \\ \mathbf{y}_N \end{bmatrix}, \qquad \mathbf{X}_{NT \times K} = \begin{bmatrix} \mathbf{X}_1 \\ \vdots \\ \mathbf{X}_i \\ \vdots \\ \mathbf{X}_N \end{bmatrix} $$
'Economics > Causal Inference' 카테고리의 다른 글
[Causal Inference] 고정효과 모형(fixed-effects model) (0) | 2025.06.06 |
---|---|
[Causal Inference] 합동 최소제곱법(pooled OLS) (0) | 2025.06.05 |
[Causal Inference] 비모수 추정(nonparametric estimation) (0) | 2025.04.20 |
[Causal Inference] 2단계 최소제곱법(2SLS, two-stage least squares) (0) | 2025.04.09 |
[Causal Inference] 도구변수(IV, instrumental variable) (0) | 2025.04.09 |