회귀분석 (Regrassion Analysis)
많은 연구에서의 관심사는 특정 변수 간의 관계를 파악하는 것이다. 인공지능이나 머신러닝에서 특정 변수를 예측하는 것 역시 다른 변수와의 관계를 모델링하여 특정 변수를 예측하는 것과 무관하지 않다.
회귀분석은 이러한 변수 간의 관계를 모델링하고 예측하는 통계적 방법론이다. 예측하고자 하는 변수를 일반적으로 종속변수(dependent variable) 또는 반응변수(response variable)라고 하고, 이에 영향을 주는 변수를 독립변수(independent variable) 또는 설명변수(explanatory variable)라고 한다.
가장 간단하게는 독립변수 하나, 종속변수 하나, 그리고 그 둘의 선형관계(linear ralation)를 탐색하는 단순회귀분석(simple regression analysis)가 있고, 그 외에도 여러 독립변수를 고려하는 다중회귀분석(multiple regression analiysis), 비선형일 때 사용하는 곡선회귀(curvilinear regression)과 다항회귀(polymonial regression) 등이 있다.
시작은 간단하게 단순선형회귀분석(simple linear regression analysis)에 대해 알아보겠다.
기본 가정 (Basic Assumptions)
다음 가정은 독립변수 $ X $ 와 종속변수 $ Y $ 간 직선회귀모형(straight line regression model)을 적합할 경우에 대한 가정이다.
- 선형성 (Linearity)
독립변수 $X $ 와 종속변수 $ Y $ 사이 연관성에 대해 주어진 $ X = x $ 를 이용하여 다음과 같이 선형식으로 나타낼 수 있다.
$$ E(Y \mid X = x) = \beta_0 + \beta_1 x $$
단 여기서 선형식이라는 것은 $ x $ 에 대한 선형식이 아니라 회귀계수 $ \beta_0 $, $ \beta_1$ 에 대한 선형식을 의미한다. 이 선형성은 $ x $ 에 대한 이차곡선인 $ E( Y \mid X = x) = \beta_0 + \beta_1 x + \beta_2 x^2 $ 에서도 만족한다.
- 정규성 및 등분산성 (Normality and Homoscedasticity)
주어진 $ X = x $ 에 대해 종속변수 $ Y $ 는 정규분포를 따른다. 또한 평균 $ E(Y \mid X = x) = \beta_0 + \beta_1 x $ 는 $ x $ 에 따라 변하지만 분산 $ V(Y) $ 는 $ x $ 가 변하여도 변하지 않는다. 정규분포를 따르는 것이 정규성이고, 분산이 변하지 않는 것이 등분산성이다.
- 독립성 (Independence)
독립변수 $ X $ 는 고정된 상수이지 확률변수가 아니다. 반대로 종속변수 $ Y $ 는 측정오차를 수반하는 확률변수이며, 측정오차는 서로 독립이다.
단순회귀분석 (Simple Regression Analysis)
위 가정을 아래와 같이 단순회귀모형으로 나타낼 수 있다.
$$ E(Y \mid X = x) = \beta_0 + \beta_1 x $$
그러나 이때 $ V(Y) $ 에 대해 고려하면 관측값과 실제값의 차이인 $ \epsilon $ 를 고려해야 하고 이를 위해 다음과 같이 나타낸다.
$$ y_i = \beta_0 + \beta_1 x_i + \epsilon_i $$
여기서 $ y_i $ 는 종속변수 $ Y $ 의 $ i $ 번째 값이고, $x_i $ 는 독립변수 $ X $ 의 $ i $ 번째 값, $ \epsilon_i $ 는 $y_i $ 의 오차항이다. 앞선 가정에 따라 $ y_i $ 는 $N(0, \sigma^2) $ 을 따르며 각 오차항들은 독립이다. $ \beta_0 $, $ \beta_1 $ 은 앞서 말한바와 같이 회귀계수이다. 이를 일반화하면 다음과 같다.
$$ Y = \beta_0 + \beta_1 x + \epsilon $$
이를 단순회귀라 하는데, 여기서 단순은 회귀계수에 대해서도, 종속변수에 대해서도 선형이고, 독립변수가 하나라는 의미이다. 독립변수가 하나라 일차모형(first-order model)이라 하기도 한다.
이렇게 정의한 회귀모형과 앞선 가정을 토대로 다음과 같은 성질도 나타낼 수 있다.
$$ Y = E(Y \mid X = x) + \epsilon $$
$$ Y \mid X \sim N(E[Y \mid X = x] , \sigma^2) $$
$$ \epsilon \sim N(0, \sigma^2) $$
$$ \newcommand{\Cov}{\mathrm{Cov}} \Cov(\epsilon_i, \epsilon_j \mid X) = 0 , \qquad i \neq j $$