인과추론

[Causal Inference] 2단계 최소제곱법(2SLS, two-stage least squares)
·
Economics/Causal Inference
2단계 최소제곱법 (2SLS) 2단계 최소제곱법은 도구변수 회귀분석을 실제로 수행할 때 가장 널리 사용되는 방법이다. 먼저 다음과 같은 실제 모형을 가정한다.Yi=α+βXi+ϵiYi=α+βXi+ϵi이를 구조적 모델(structural model)이라 한다.그리고 도구변수 ZZ 에 대해 다음과 같이 도구 관련성(instrument relevance) 조건과 도구 외생성(instrument exogeneity) 조건을 만족한다고 하자.Cov(X,Z)0Cov(X,Z)0Cov(ϵ,Z)=0Cov(ϵ,Z)=0이미 도구변수를 이용한 ββ 의 추정값을 다음과 같이 알고있다.$$ \hat{\beta}_{IV} =..
[Causal Inference] 도구변수(IV, instrumental variable)
·
Economics/Causal Inference
도구변수 (IV) 도구변수는 누락편의(참고링크), 측정오차(참고링크), 동시성(참고링크), 역인과성(참고링크) 등의 이유로 내생성(endogeneity) 문제가 발생해 OLS 추정치가 편향되는 상황을 해결하기 위해 사용한다. 내생성은 설명변수와 오차항이 상관되는 것을 말한다.도구변수를 생각하기 위해 간단한 문제를 생각해보자. 과연 교육은 임금에 얼마나 많은 영향을 미칠까. 이를 회귀식으로 세운 것은 다음과 같다.Yi=α+βSi+γAi+ϵiYi=α+βSi+γAi+ϵi여기서 YiYi 는 개인 ii 의 임금의 로그를 씌운 값(log of earnings)이고, SiSiii 의 교육연수(shcooling), AiAiii 의 ..
[Causal Inference] 동시성(simultaneity)과 역인과성(reverse cauality)
·
Economics/Causal Inference
동시성 (Simultaneity) 연립방정식 문제(simultaneous equations problem)라고도 한다. 이는 한 모델 내에서 설명변수로 취급하는 변수가 실제로는 그 모델의 종속변수와 동시에 결정되는, 즉 변수들간 인과관계가 상호작용할 때 발생하는 문제이다. 이는 설명변수가 사실 내생적(endogenous)일 수 있다는 것을 의미한다.가장 대표적인 예가 수요·공급 모형이다. 예를 들어 수요함수가 다음과 같다고 하자.qd=β0+β1p+βxx+ϵdqd=β0+β1p+βxx+ϵd여기서 qdqd 는 수요량이고, pp 는 가격, xx 는 그 밖의 수요결정 요인, ϵdϵd 는 수요측 충격을 의미하는 오차항이다. 이때 OLS 추..
[Causal Inference] 측정오차(measurement error)
·
Economics/Causal Inference
종속변수의 측정오차 (Measurement Error of Dependent Variable) 종속변수를 측정할 때 오차가 있을 수 있다. 예를 들어서 소득에 미치는 영향을 연구하려 하는데, 이때 데이터를 설문지를 통해 얻었다고 해보자. 그럼 사람들이 자신의 소득을 실제 소득과 다르게 말할 여지가 있다.실제 회귀식은 아래와 같다.y=β0+β1x1++βkxk+ϵy=β0+β1x1++βkxk+ϵ여기서 yy 는 실제 소득(true)이다. 그런데 사람들이 실제로는 다르게 대답하였고, 이를 yy 라 하면 yy 는 관측 가능한 소득(reported)이다. 그렇다면 측정오차(measurement errors)는 다음과 같다.$$ e_0 = ..
[Causal Inference] 누락 편의(omitted variable bias)
·
Economics/Causal Inference
누락 편의 누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편향(bias)를 의미한다. 예를 들어, XXYY 에 미치는 인과 효과를 추정하려고 할 때, 혼동요인인 변수 WW 가 존재하는 경우를 생각해보자. 실제 XXYY 에 미치는 인과 효과를 추정하기 위해서는 변수 WW 를 통제, 즉 회귀식에 독립 변수로 포함한 상태에서 측정해야 한다. 그러나 설계 단계에서 WW 를 고려하지 못했더나, 데이터를 확보하지 못해 WW 가 회귀모형에서 누락되었다고 가정하자.이러한 상황에서의 회귀모형을 다음과 같이 설정해보자.Yi=β0+β1Xi+ϵ1iYi=β0+β1Xi+ϵ1i반면 WW 를 잘 파악하고 회귀식에 포함한 ..
[Causal Inference] 최소제곱법(OLS)을 통한 회귀분석(regression analysis)
·
Economics/Causal Inference
기본모델 및 조건 기본 모델은 다음과 같다.Yi=β0+αDi+β1Xi1++βkXik+ϵiYi=β0+αDi+β1Xi1++βkXik+ϵi추정하고자 하는 것이 αα 이고, 이를 최소제곱법을 통해 ˆα^α 로 추정한다고 하자. 최소제곱법을 이용하기에 각 회귀계수는 불편성(unbiasedness), 일관성(consistency), 점근 정규성(asymptotic normality)을 만족한다. 즉 E(ˆβX)=βE(^βX)=β 이고, ˆβpβ 이며, 표본이 충분히 클 때 ˆβN 이다. 이..
[Causal Inference] 무작위 배정(randomized assignment)에서 고려할 사항
·
Economics/Causal Inference
고정효과 (Fixed-Effects) 실제 상황에서 무작위 실험연구를 진행하기란 쉽지 않다. 윤리적 문제, 예산 문제도 있거니와 무작위 배정(randomized assignment)이 어렵기 때문이다. 무작위 배정이 왜 어려운지 알아보기 위해 테네시 주에서 있었던 교육 관련 실험(Tennessee Project STAR-참고링크)을 알아보자.이 실험은 각 학급의 인원수가 학업 성적에 미치는 영향을 확인하고자 하였다. 인원이 13명에서 17명 사이인 작은 학급(small class), 인원이 22명에서 25명 사이인 보통 학급(regular class), 보조 교사가 있는 보통 학급(regular class with an aside)로 나누어 처치집단(treatment group)과 통제집단(control..
[Causal Inference] 무작위 실험연구(randomized experiments)
·
Economics/Causal Inference
무작위 실험연구 (Randomized Experiments) 먼저 중요한 것은 관찰연구(observational study)가 아니라 실험연구(experiments)라는 것이다. 관찰연구는 연구자가 직접 개입하여 실험을 진행하기 때문에 무작위 배정(randomized control)이 가능해진다. 즉 처리집단(treatment)과 통제집단(control)이 나뉠 때 관찰연구에서 발생할 수 있는 두 집단이 내가 확인하려는 설명변수뿐 아니라 다른 요인, 즉 혼동요인(confounding factor)에 의해 영향을 받아 두 집단의 성질 자체가 달라져 제대로된 인과추론을 할 수 없게 되는 상황을 무작위 배정을 통해 극복할 수 있다.또한 무작위 배정을 하고 나서도 실험자와 피험자 모두가 실험 여부에 영향을 받지..
[Causal Inference] 인과추론(causal inference) 및 실험연구(experiments)와 관찰연구(observational study)
·
Economics/Causal Inference
인과추론 (Causal Inference) 통계학을 배우면 상관관계에 대해 배우게 된다. 상관관계를 나타내는 피어슨 상관계수는 두 변수 간의 선형적 관계를 측정하는데, 여기서 가장 주의해야 할 점은 비선형적인 관계는 포착하지 못한다는 것과 인과관계를 보여주는 것이 아니라는 점이다.상관관계는 XY 로 표현할 수 있다. 이는 어느 한쪽이 다른 한쪽에 일방적으로 영향을 주는 것이 아니라, 서로 영향을 주고받는 관계이기 때문이다. 반면, 인과관계는 XY 처럼 한 방향으로 표현할 수 있다. 즉, 명확하게 Y 에 영향을 주는 X 를 찾는 것이 목표이다. 예를 들어, 건강보험이 건강에 미치는 영향이나, 소득이 교육에 미치는 영향을 분석하는 것은 $X..
애스터로이드