전체 글

[Mathematical Statistics] 다변량 정규분포(MVN, multivariate normal distribution)
·
Statistics/Mathematical Statistics
다변량 정규분포 다변량 정규분포는 확률변수의 벡터인 확률벡터의 모든 선형결합이 정규분포를 따르면 확률벡터는 다변량 정규분포를 갖는다고 한다. 예를 들어 확률벡터가 $ \mathbf{X} = (X_1, X_2, \cdots, X_D) $ 이고, $ k_1, k_2, \cdots, k_D $ 가 임의의 상수일 때 $ Y $ 가 다음과 같으면서 정규분포를 가지면 $ \mathbf{X} $ 는 다변량 정규분포를 가진다.$$ Y = k_1 X_1 + k_2 X_2 + \cdots + k_D X_D $$만약 $ Y $ 가 상수라면 분산이 $ 0 $ 인 퇴화(degenerate) 정규분포이긴 하지만, 그럼에도 정규분포를 갖는 것으로 간주하며, $ D = 2 $ 인 경우는 이변량 정규분포라 한다.이러한 다변량 정규분포..
[Pandas] 데이터프레임 인덱싱(loc, iloc) 및 단일값 접근(at, iat)
·
Data Science/Data Processing
인덱싱 (loc) loc(참고링크)는 location의 약자로 데이터프레임 인덱싱을 도와준다.일반적으로 파이썬에서는 []을 이용하여 리스트 인덱싱, 슬라이싱 등을 하는데 판다스 데이터프레임에서는 loc[]를 통해 비슷한 일을 한다고 생각하면 편하다.DataFrame.loc[name_row, name_column]위가 기본적인 접근 방법으로 loc는 행과 열의 이름으로 접근한다. 혹은 행과 열의 이름을 리스트로 넣어 접근할 수도 있다. 또한 :을 이용하여 슬라이싱도 가능하고, 조건을 넣어서 접근할 수도 있다.예를 들기 위해 아래와 같이 데이터를 불러오자.import seaborn as snsdf = sns.load_dataset('titanic')간단하게 데이터를 살펴보기 위해 head()를 이용하여 출력..
[Mathematical Statistics] 이변량 정규분포(bivariate normal distribution)
·
Statistics/Mathematical Statistics
이변량 정규분포 이변량 정규분포는 두 확률변수의 분포가 정규분포를 따르는 확률분포로 다변량 정규분포의 특수한 형태이다.확률변수 $ X_1, X_2 $ 가 각각 $ N(\mu_1, \sigma_1^2) $, $N(\mu_2, \sigma_2^2)$ 를 따르며 이변량 정규분포를 따른다면 이변량 밀도함수는 다음과 같다.$$ f(x_1, x_2) = \dfrac{e^{-q(x_1, x_2)/2}}{2\pi \sigma_1 \sigma_2 \sqrt{1-\rho ^2 }} \qquad (-\infty $$ q(x_1, x_2) = \dfrac{1}{1-\rho^2} \left[ \dfrac{(x_1 - \mu_1)^2}{\sigma_1^2} - 2 \rho \dfrac{(x_1 - \mu_1)(x_2 - \mu_..
[Mathematical Statistics] 조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계
·
Statistics/Mathematical Statistics
조건부 기댓값 및 분산과 최소제곱 회귀직선과의 관계  $ X $ 와 $ Y $ 가 결합확률함수 $ p (x, y) $ 를 가지는 공동이산 확률변수라 가정하면 조건부 기댓값과 조건부 분산은 다음과 같을 것이다.$ \mu_{Y \mid x} = E(Y \mid x) = \sum_{y} y p(y \mid x) $$ \sigma^2 _{Y \mid x} = E \left( [ Y - E(Y \mid x)^2 \mid x \right) = \sum_y [y-E(Y \mid x)]^2 p(y \mid x)  = E(Y^2 \mid x) - E(Y \mid x)^2 $이제 $ E ( Y \mid x) $ 를 $ x $ 단독의 함수, $ E(X \mid y) $ 를 $ y $ 단독의 함수라 할 수 있다. 이때 $ E..
[Mathematical Statistics] 조건부 기댓값(conditional expectation) 및 조건부 분산(conditional variance)
·
Statistics/Mathematical Statistics
조건부 기댓값 어떤 확률변수 $ X_1 $ 과 $ X_2 $ 에 대해 $ X_2 = x_2 $ 라 주어진 경우에 $ X_1 $ 의 함수인 $ g(X_1) $ 의 조건부 기댓값은 만약 $ X_1 $ 과 $ X_2 $ 가 공동연속이면 다음과 같이 정의한다.$$ E\left[ g(X_1) \mid X_2 = x_2 \right] = \int_{-\infty}^\infty g(x_1) f(x_1 \mid x_2) dx_1 $$만약 공동이산이면 다음과 같이 정의한다.$$ E\left[ g(X_1) \mid X_2 = x_2 \right] = \sum_{\forall x_1} g(x_1) p(x_1 \mid x_2) $$ 전체 기댓값의 법칙 (Law of Total Expectation) 반복 기댓값의 법칙(law..
[Mathematical Statistics] 다항분포(multinomial distribution)
·
Statistics/Mathematical Statistics
다항분포 (Multinomial Distribution) 다항실험 (Multinomial Experiment)이항실험의 일반화로 다음과 같은 성질을 가진다. 실험은 $ n $ 번의 동일한 시행으로 이뤄지며, 각 시행의 기본결과는 $k $ 개의 부류 중 하나에 속한다.단일 시행의 기본결과가 $ i $ 번째 부류에 속할 확률을 $ p_i $ $(i = 1, 2, \cdots, k) $ 라 하면 $ \sum_{i=1}^k p_i = 1 $ 이고, 이 확률은 시행마다 동일하게 유지된다. 또한 시행들을 i.i.d.를 따른다.이때 관심있는 확률변수는 $ X_1, X_2, \cdots, X_k $ 로 $ X_i $ 는 기본결과가 $ i $ 번째 부류에 속하는 시행의 횟수이며 $ \sum_{i=1}^k X_i = n ..
[Mathematical Statistics] 확률변수의 선형함수에 대한 기댓값과 분산
·
Statistics/Mathematical Statistics
확률변수의 선형함수에 대한 기댓값과 분산 표본의 측정값들의 선형함수인 모수추정량을 위해 확률변수의 선형함수에 대한 기댓값과 분산을 알아야 한다.예를 들어 $ Y_1, Y_2, \cdots, Y_n $ 과 $ X_1, X_2, \cdots, X_m $ 이 $ E\left( Y_i \right) = \mu_{y_i} $ 이고, $ E\left( X_i \right) = \mu_{x_i} $ 인 확률변수라 하고, $ a_1, a_2, \cdots, a_n $ 과 $ b_1, b_2, \cdots, b_m $ 이 상수이며, $ U_1 $ 과 $ U_2 $ 가 다음과 같다고 가정하자.$ U_1 = \sum_{i=1}^n a_i Y_i $,     $ U_2 = \sum_{i=1}^m b_i X_i $그렇다면 다음..
[Mathematical Statistics] 확률변수 함수의 기댓값
·
Statistics/Mathematical Statistics
확률변수 함수의 기댓값 일변량 확률변수의 함수의 기댓값을 구할 수 있듯이 다변량 확률변수의 함수 역시 기댓값을 구할 수 있다. 이산확률변수의 함수$ g(X_1, X_2, \cdots, X_n) $ 이 확률변수 $ X_1, X_2, \cdots, X_n $ 의 함수이며 $ X_1, X_2, \cdots, X_n $ 이 이산확률변수이고 $ p(x_1, x_2, \cdots, x_n) $ 의 결합확률함수를 가진다면 기댓값은 다음과 같다.$$ E\left[ g(X_1, X_2, \cdots, X_n) \right] = \sum_{\forall x_n} \cdots \sum_{\forall x_2} \sum_{\forall x_1} g(x_1, x_2, \cdots, x_n) p(x_1, x_2, \cdots, ..
[Baekjoon 11286] 절댓값 힙 | Python
·
Online Judge/Baekjoon
https://www.acmicpc.net/problem/11286문제 힙에 넣고 빼는 간단한 문제인데, 힙에서 정렬 기준이 절댓값이다. 절댓값이 같다면 작은 순으로 정렬한다. 풀이 절댓값을 이용하기 위해 0보다 작은 경우 -1을 곱해 힙에 넣으면 원래 값을 알 수 없게 되기 때문에 절댓값을 구하여 힙에 넣는 것은 아니다.파이썬에는 heapq(참고링크)를 통해 편리하게 힙을 사용할 수 있는데, heapq의 heappop, heappush는 단일 값 뿐 아니라 리스트도 지원한다. 리스트의 정렬 기준은 리스트의 인덱스 순이다. 따라서 절댓값과 원래값을 리스트에 담아 힙에 넣으면 절댓값 순으로 정렬되면서 원래값도 보존할 수 있다.참고로 입력이 많으므로 sys를 사용하여 입력받아야 한다. 코드 import he..
[Pandas] 녹이기(melt)와 피벗(pivot)을 통한 데이터프레임 재구조화
·
Data Science/Data Processing
melt melt(참고링크)가 녹이기인 만큼 이 맥락에서 보면 열을 값으로 녹여 넣는다고 보면 된다. 예를 들어서 다음과 같은 데이터가 있다고 해보자.import pandas as pddata = { "이름": ["철수", "영희", "민수"], "수학": [90, 80, 70], "영어": [85, 95, 75], "국어": [75, 95, 95]}df = pd.DataFrame(data)그렇다면 df는 아래와 같다. 이름 수학 영어 국어0 철수 90 85 751 영희 80 95 952 민수 70 75 95그런데 이제 수학, 영어로 열을 나누는 것이 아니라 과목, 점수로 열을 나누고 싶을 수 있다. 이럴 때 melt를 사용한다.d..
애스터로이드
인공지능은 전기양의 꿈을 꾸는가