전체 글

[Regression Analysis] 프리슈-워-로벨 정리 (Frisch–Waugh–Lovell theorem)
·
Statistics/Regression Analysis
프리슈-워-로벨 정리 (Frisch–Waugh–Lovell Theorem) 변수가 하나일 때를 가정한 단순회귀분석에서는 회귀계수 $ \beta_1 $ 의 최소제곱추정량이 설명변수 $ x $ 와 반응변수 $ y $ 의 표본상관계수 $ r $ 과 비례하였다.그러나 다중회귀분석에서는 단순 표본상관계수와의 비례 관계가 성립하지 않는다. 이때 다중회귀분석에서의 회귀계수에 대해 알아보기 위해 다음과 같이 관측값 행렬 $ \mathbf{X} $ 를 분해해보자.$$ \mathbf{X} = \mathbf{X}_1 + \mathbf{X}_2 $$$$ \mathbf{X}_1 = \begin{bmatrix} 1 & x_{11} & \cdots & x_{1q} \\ 1 & x_{21} & \cdots & x_{2q} \\ \v..
[Regression Analysis] 다중회귀에서의 제곱합의 분포(distribution of sum of squares)
·
Statistics/Regression Analysis
제곱합의 분포 분산분석(ANOVA)을 할 때 자연스럽게 $ F_0 = MSR/ MSE $ 를 이용해 검정하였다. 즉 $ F_0 $ 가 F분포를 따른다고 보고 검정하였다. 이때 $ F_0 $ 가 왜 F분포를 따르는지 좀 더 엄밀하게 확인해보겠다.아래와 같은 다중회귀모형을 가정하자.$$ \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} , \qquad (\boldsymbol{\epsilon} \sim N(\mathbf{0}_n , \sigma^2 \mathbf{I}_n)) $$총 제곱합 $SST $ 는 다음과 같다.$$ SST = \sum_{i=1}^n (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ..
[Regression Analysis] 다중회귀분석에서의 제곱합의 기댓값 및 F-검정의 의미
·
Statistics/Regression Analysis
제곱합의 기댓값 다중회귀모델이 다음과 같다고 하자.$$ \mathbf{y} = \mathbf{X}\boldsymbol{\beta} + \boldsymbol{\epsilon} $$이를 적합시켜 다음을 얻는다.$$ \hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} $$그리고 $ SSR $, $SSE $ 는 다음과 같다.$$ SSR = \mathbf{y}^T \mathbf{X} (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y} - n(\bar{y})^2 $$$$ SSE = \mathbf{y}^T \left[ \mathbf{I}_n - \mathbf{X} ( \mathbf{X}^T \mathbf{X})^{-1} \m..
[DB] 관계 데이터 연산(relational data operator)
·
Computer Science and Engineering/Database
관계 해석과 관계 대수 (Relational Calculus and Relational Algebra) 데이터 모델은 현실 세계의 데이터를 구조화하여 표현하기 위한 도구로, 데이터베이스의 구조, 제약조건, 그리고 데이터를 처리하는 연산을 정의한다. 이 중 개념적 데이터 모델의 대표적인 예는 개체-관계(ER, entity-relationship) 모델로, 데이터베이스의 개념적 구조를 시각적으로 표현하는 데 사용된다. 반면, 논리적 데이터 모델의 대표적인 예는 관계형 데이터 모델(참고링크)이며, 이는 데이터를 표(table)의 형태로 표현하고 논리적인 구조를 정의한다.관계형 데이터 모델은 데이터 구조, 제약조건, 연산의 세 가지 구성 요소로 이루어진다. 데이터 구조는 데이터를 테이블 형식으로 나타내며, 각 ..
[Regression Analysis] 다중회귀분석 분산분석(ANOVA)
·
Statistics/Regression Analysis
분산분석 다중회귀분석의 분산분석도 역시 단순회귀분석의 분산분석과 유사하게 진행된다. 결국 총변동인 $ SST $ 와 설명가능한 $ SSR $, 설명 불가능한 $ SSE $ 를 활용하여 분석한다.다중회귀모델이 다음과 같다고 하자.$$ \mathbf{y} = \mathbf{X} \boldsymbol{\beta} + \boldsymbol{\epsilon} $$$$ \hat{\mathbf{y}} = \mathbf{X} \hat{\boldsymbol{\beta}} $$그렇다면 $ SST $ 는 다음과 같다.$$ SST = \sum (y_i - \bar{y})^2 = \mathbf{y}^T \mathbf{y} - n ( \bar{y})^2 $$참고로 $ n (\bar{y})^2 $ 은 다음과 같이 행렬 표현도 가능..
[Regression Analysis] 다중회귀분석(multiple regression analysis)
·
Statistics/Regression Analysis
다중회귀분석 (Multiple Regression Analysis) 기존 단순선형회귀분석에서는 설명변수가 $ x $ 하나였다. 그러나 현실에서 많은 경우 단 하나의 영향으로 결정되는 것은 없다. 이러한 것을 반영하여 설명변수를 $ x_1, x_2, \cdots, x_p $ 등 여러개 설정하여 회귀분석하는 것을 다중회귀분석이라 한다.다중회귀분석은 그 편의상, 그리고 추후 계산까지 고려하여 주로 벡터와 행렬을 이용해 표현한다. 측정값 $ y $ 와 $ x $ 들에 대해, 그리고 회귀계수 $ \beta $ 들에 대해 다음과 같이 벡터나 행렬로 나타내자.$$ \mathbf{y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \qquad \mathbf..
[Regression Analysis] 이차형식(quadratic forms)의 분포
·
Statistics/Regression Analysis
다변량정규분포 (Multivariate Normal Distribution) 확률벡터 $ \mathbf{y}^T = (y_1, y_2, \cdots, y_n) $ 의 기댓값이 $ \boldsymbol{\mu}_T = (\mu_1, \mu_2, \cdots, \mu_n) $ 이고 분산-공분산 행렬이 $ \mathbf{V} $ 이라 할 때 $ \mathbf{y}$ 가 다변량정규분포를 따른다면 이를 다음과 같이 표기한다.$$ \mathbf{y} \sim N(\boldsymbol{\mu}, \mathbf{V}) $$이때 $ \mathbf{V} $ 는 양의 정부호 행렬(positive definite matrix)이라 가정한다.만약 $ \mathbf{y} \sim (\mathbf{0}_n, \mathbf{I}_n..
[Causal Inference] 누락 편의(omitted variable bias)
·
Economics/Causal Inference
누락 편의 누락 편의란 통제가 필요한 변수가 통제되지 않았을 때 발생하는 편향(bias)를 의미한다. 예를 들어, $ X $ 가 $ Y $ 에 미치는 인과 효과를 추정하려고 할 때, 혼동요인인 변수 $ W $ 가 존재하는 경우를 생각해보자. 실제 $ X $ 가 $ Y $ 에 미치는 인과 효과를 추정하기 위해서는 변수 $ W $ 를 통제, 즉 회귀식에 독립 변수로 포함한 상태에서 측정해야 한다. 그러나 설계 단계에서 $ W $ 를 고려하지 못했더나, 데이터를 확보하지 못해 $ W $ 가 회귀모형에서 누락되었다고 가정하자.이러한 상황에서의 회귀모형을 다음과 같이 설정해보자.$$ Y_i = \beta_0 + \beta_1 X_i + \epsilon_{1i} $$반면 $ W $ 를 잘 파악하고 회귀식에 포함한 ..
[Causal Inference] 최소제곱법(OLS)을 통한 회귀분석(regression analysis)
·
Economics/Causal Inference
기본모델 및 조건 기본 모델은 다음과 같다.$$ Y_i = \beta_0 + \alpha D_i + \beta_1 X_{i1} + \cdots + \beta_k X_{ik} + \epsilon_i $$추정하고자 하는 것이 $ \alpha $ 이고, 이를 최소제곱법을 통해 $ \hat{\alpha} $ 로 추정한다고 하자. 최소제곱법을 이용하기에 각 회귀계수는 불편성(unbiasedness), 일관성(consistency), 점근 정규성(asymptotic normality)을 만족한다. 즉 $ E(\hat{\beta} \mid X) = \beta $ 이고, $ \hat{\beta} \overset{p}{\to} \beta $ 이며, 표본이 충분히 클 때 $ \hat{\beta} \sim N $ 이다. 이..
[DB] 관계 데이터 모델(relation data model)
·
Computer Science and Engineering/Database
기본 개념 관계(relation)란 하나의 개체에 관한 데이터를 2차원 테이블 구조로 정리한 것으로 아래와 같이 생겼다. 릴레이션 내에서 생성되는 데이터 간 관계가 있고, 릴레이션 간 생성되는 릴레이션 간 관계가 있다.행을 튜플(tuple) 혹은 행(row)라 하고, 열을 속성(attribute) 혹은 열(column)이라 한다.열의 수를 차수(degree), 행의 수를 카디널리티(cardinality)라 한다.가장 위 열 이름을 스키마(schema)로 볼 수 있고, 각 행에 들어가 있는 값을 인스턴스(instance)로 볼 수 있다.도메인(domain)은 하나의 속성이 가질 수 있는 모든 값의 집합, 즉 정의역이다. 속성 값에 대한 입력, 수정에서 적합성 여부를 판단하는 기준이 되며, 속성 특성을 고려..
애스터로이드
인공지능은 전기양의 꿈을 꾸는가