Gamma distribution으로 알아보는 수리통계의 전반적인 Flow!
특징
⋅ (포아송 사건이) α번째 사건 발생까지의 대기시간을 나타내는 분포.
⋅ 정규분포로 설명할 수 없는 부분을 보완하기 위해 나온 확률분포.
⋅ 연속 확률분포로 두 개의 매개변수를 받으며 양의 실수를 가질 수 있다.
Q1. 데이터 정의
⋅ 여기서는 단변량 데이터의 경우만 고려.
⋅ Excel 형태
Index | X (R.V) | →x (observation) |
1 | X1 | →x1 |
2 | X2 | →x2 |
⋮ | ⋮ | ⋮ |
n | Xn | →xn |
→X1,X2,⋯,Xni.i.d.∼Gamma(α,β)
Q2. 확률변수의 정의
◯ pdf 정의 및 합이 1임을 보이기.
⋅ pdf 정의
f(x)=1Γ(α)βαxα−1e−x/β
⋅Γ(α)=∫∞0yα−1e−ydy(α>0)→(α−1)!
⋅0≤x<∞
⋅ pdf 성질 (확률의 공리 만족 여부)
∫∞0xα−1e−x/βΓ(α)βαdx
→∫∞0βyα−1e−yΓ(α)βαβdy from Y=xβ
→1Γ(α)∫∞0yα−1e−ydy
→Γ(α)Γ(α) = 1 from Γ(α)=∫∞0yα−1e−ydyα>0
◯ cdf 정의
평균 λ를 갖는 포아송과정에서 α 번째 발생이 일어날 때까지 기다리는 시간을 X라 할 때,
X의 cdf는 x≥0일 때 다음과 같이 정의된다.
F(X)
=P(X≤x)=1−P(X>x)
=1−P([0,x]에서α개보다작은개수의발생이일어난다.)
=1−∑α−1k=0(λx)ke−λxk!
◯ mgf 유도
M(t)=1(1−βt)α
M(t)=E(etX)=∫∞01Γ(α)βαxα−1e−x/βetXdx=∫∞01Γ(α)βαxα−1e−1β(1−βt)xdx
=∫∞01Γ(α)βαβα(1−βt)αyα−1e−ydy from y=1β(1−βt)x
=1(1−βt)α∫∞01Γ(α)yα−1e−ydy
=1(1−βt)α from ∫∞01Γ(α)yα−1e−ydy=1
◯ cgf 유도
2021.12.21 - [Mathematical Statistics] - Chapter 1. Preliminaries
Q3. 확률변수의 기댓값, 분산 및 성질
◯ 정의를 이용한 평균과 분산
⋅ 기댓값
E(X)
=∫∞0x1Γ(α)βαxα−1e−x/βdx
=∫∞01Γ(α)βαx(α+1)−1e−x/βdx
=∫∞01Γ(α+1)βα+1x(α+1)−1e−x/βΓ(α+1)Γ(α)βα+1βαdx
=αβ
from Γ(α)=(α−1)! , ∫∞01Γ(α+1)βα+1x(α+1)−1e−x/β=1∵
\cdot 분산
E(X^2)
=\;\; \int_0^{\infty} x^2\;{1 \over \Gamma(\alpha) \beta^{\alpha}} x^{\alpha-1} e^{-x/\beta} \;dx
=\;\; \int_0^{\infty} {1 \over \Gamma(\alpha) \beta^{\alpha}} x^{(\alpha+2)-1} e^{-x/\beta} \;dx
=\;\; \int_0^{\infty} {1 \over \Gamma(\alpha+2) \beta^{\alpha+2}} x^{(\alpha+2)-1} e^{-x/\beta} {\Gamma(\alpha+2) \over \Gamma(\alpha)} {\beta^{\alpha+2} \over \beta^{\alpha}} \;dx
=\;\; \alpha(\alpha+1) \beta^2
\therefore \quad Var(X) \;\;=\;\; E(X^2) \;\;-\;\;[E(X)]^2 \;\;=\;\; \alpha(\alpha+1) \beta^2 - (\alpha \beta)^2 \;\;=\;\; \alpha \beta^2
\bigcirc mgf 이용한 평균과 분산
E(X) \;\;=\;\; M'_x(0)\;=\;[(1-\beta t)^{-\alpha}]'|_{t=0} \;\;=\;\; -\alpha(1-\beta)^{-\alpha-1}\times(-\beta)|_{t=0} \;\;=\;\; \alpha\beta(1-\beta t)^{-(\alpha+1)}|_{t=0}\;\;=\;\;\alpha\beta
Var(X) \;\;=\;\; M''_x(0)\;-\;M'_x(0) \;\;=\;\; \alpha\beta^2
\because\;\;M''_x(0)\;=\;[M'_x(0)]'\;=\;[(\alpha\beta(1-\beta t)^{-(\alpha+1)}]'|_{t=0} \;\;=\;\; \alpha(\alpha+1)\beta^2(1-\beta t)^{-(\alpha+2)}|_{t=0}\;\;=\;\;\alpha^2 \beta^2 + \alpha\beta^2
\bigcirc cgf 이용한 평균과 분산
E(X) \;\;=\;\; K'_x(0) \;\;=\;\; [-\alpha log(1-\beta t)]'|_{t=0} \;\;=\;\; {\alpha\beta \over (1-\beta t)}|_{t=0} \;\;=\;\; \alpha\beta
Var(X) \;\;=\;\; K''_x(0) \;\;=\;\; [{\alpha\beta \over (1-\beta t)}]'|_{t=0} \;\;=\;\; {\alpha\beta^2 \over (1-\beta t)^2}|_{t=0} \;\;=\;\; \alpha\beta^2
\bigcirc 성질
\cdot X_1 , \cdots, X_n \;\;\sim^{i.i.d.} Gamma(\alpha_i, \beta) \;\;이면\;\; \sum^n_{i=1} X_i \;\;\sim\;\; Gamma(\sum^n_{i=1} \alpha_i, \beta)
\cdot X \;\;\sim\;\; Gamma(\alpha, \beta) \;\;이면\;\; cX \;\;\sim\;\; Gamma(\alpha, c\beta)
\cdot Gamma(1, {1 \over \lambda}) \;\;\sim\;\; exp(\lambda)
\cdot Gamma({v \over 2}, 2) \;\;\sim\;\; \chi^2(v)
Q4. 모수(\alpha, \beta) 추정
\bigcirc Likelihood
\cdot Likelihood란, 데이터(x_1, x_2, \cdots, x_n)가 관측되었을 때, 이 관측치들이 모수를 \theta로 갖는 분포에서 나올 가능성.
\to\;\; L(\theta| x_1, \cdots, x_n) \;=\; Pr(X \;=\; x_1, \cdots, x_n \;|\; \theta)
X_1, X_2, \cdots, X_n \;\; \overset{i.i.d.}{\sim} \;\; Gamma(\alpha, \beta) 일 때,
L(\alpha, \beta \;|\; X) \;=\; \prod^n_{i=1} {1 \over \Gamma(\alpha) \beta^\alpha} X^{\alpha-1} e^{-{X_i \over \beta}} \;=\; (\Gamma(\alpha) \beta^\alpha)^{-n} (\prod^n_{i=1} X_i)^{\alpha-1} e^{-{1 \over \beta} \sum^n_{i=1} X_i}
\bigcirc MLE
\cdot MLE란, Maximum Likelihood Estimation의 약자로 어떤 모수 \beta\; (=\; \alpha, \beta)가 주어졌을 때, 원하는 값이 나올 가능도를
최대로 만드는 모수를 선택하는 방법. (즉, 이론 적으로 가장 가능성이 높은 모수를 찾는 방법.)
\cdot Likelihood의 공식이 곱셈(\prod)로 이루어져 있어 미분 적용이 어려우므로, 식에 Log와 마이너스를 적용시키고(logl ikelihood)
그 값이 최소가 되는 값을 구하는 방법(미분식 = 0)을 사용한다.
l(\alpha, \beta) \;=\; -log\;L(\alpha, \beta \;|\; X) \;=\; n \; log \Gamma(\alpha) + \alpha n \; log \beta - (\alpha-1) \sum^n_{i=1} log\;X_i + {1\over\beta}\sum^n_{i=1} X_i
{\partial l(\alpha, \beta) \over \partial \alpha} \;=\; n{\Gamma^{'}(\alpha) \over \Gamma(\alpha)} + n\;log\beta - \sum^n_{i=1} log\;X_i \;\;=\;\;0
{\partial l(\alpha, \beta) \over \partial \beta} \;=\; {\alpha \; n \over \beta} - {1 \over \beta^2} \sum^n_{i=1} \; X_i \;\;=\;\;0
\therefore \;\; \hat{\beta} \;=\; \bar{X} / \hat{\alpha} \quad\quad n{\Gamma^{'}(\hat{\alpha}) \over \Gamma(\hat{\alpha})} \;=\; \sum^n_{i=1} log\;X_i \;-\; n\;log\;\hat{\beta}
Gamma의 likelihood는 \hat{\alpha}을 추정 후 이를 이용해 \hat{\beta} 구하는 Profile Liklihood이다.
여기서 \hat{\alpha}는 다음과 같은 순서로 추정된다.
1. n{\Gamma^{'}(\alpha) \over \Gamma(\alpha)} + n\;log\beta - \sum^n_{i=1} log\;X_i \;\;=\;\;0
2. {\Gamma^{'}(\alpha) \over \Gamma(\alpha)} + \;log\beta - {1 \over n}\sum^n_{i=1} log\;X_i \;\;=\;\;0 from n으로 나누기.
3. \psi(\alpha) - \;log\alpha +log\bar{X}- {1 \over n}\sum^n_{i=1} log\;X_i \;\;=\;\;0 from {\Gamma^{'}(\alpha) \over \Gamma(\alpha)} \;=\; \psi(\alpha), \beta\;=\;{\bar{X} \over \alpha}
4. 위 식에서 좌변을 g(\alpha)라고 할 때, g^{`}(\alpha) \;=\; \psi^{'}(\alpha) - {1 \over \alpha}가 되며, 이 식에 "Newton-Rapshon"방법을 사용한다.
\to Newton-Rapshon method : 수렴할때까지 \alpha_{n+1} \;=\; \alpha_n - g(\alpha_n) / g'(\alpha_n)을 반복.
\bigcirc MME
\cdot MME란, Method of Moments Estimation의 약자로 모수 \beta\; (=\; \alpha, \beta)의 함수인
k차 모적률을 k차 표본적률과 일치시켜 모수를 추정하는 방법.
\cdot 모적률
\mu \;=\; M^{'}(t) |_{t=0} \;=\; \alpha\beta(1-\beta t)^{-(\alpha +1)}|_{t=0} \;=\; \alpha\beta
\sigma^2 \;=\; E(X^2) - [E(X)]^2 \;=\; M^{''}(0) - M^{'}(0) \;=\; \alpha^2\beta^2 + \alpha\beta^2 - (\alpha\beta)^2 \;=\; \alpha\beta^2
from E(X^2) \;=\; M^{''}(t)|_{t=0} \;=\; \alpha(\alpha+1)\beta^2(1-\beta t)^{-(\alpha+2)}|_{t=0} \;=\; \alpha(\alpha+1)\beta^2
\beta \;=\; {\alpha\beta^2 \over \alpha\beta} \;=\; {\sigma^2 \over \mu}
\alpha \;=\; {\mu \over \beta} \;=\; \mu \cdot {\mu \over \sigma^2} \;=\; {\mu^2 \over \sigma^2}
\cdot MME 방식에 따라, k차 모적률 \approx k차 표본적률이므로 아래와 같이 나타낼 수 있다.
\mu \;=\; M^{'}(t) |_{t=0} \;\;\approx\;\; \hat{\mu} \;=\; {1 \over n}\sum^n_{i=1}x_i
\sigma^2 \;=\; \{M^{''}(t) - M^{'}(t)\} |_{t=0} \;\;\approx\;\; \hat{\sigma^2} \;=\; {1 \over n}\sum^n_{i=1}(x_i - \bar{X})^2
Cf) "k차 모적률 \approx k차 표본적률"로 나타낼 수 있는 이유는 "큰 수의 법칙" 때문이다.
\cdot 따라서, \alpha,\; \beta의 추정량은 다음과 같다.
\hat{\beta} \;=\; {\alpha\beta^2 \over \alpha\beta} \;=\; {\hat{\sigma^2} \over \hat{\mu}}
\hat{\alpha} \;=\; {\mu \over \beta} \;=\; \mu \cdot {\mu \over \sigma^2} \;=\; {\hat{\mu^2} \over \hat{\sigma^2}}
Q5. 추정량의 분포
\circ 이유 : 추정량 검정 시 사용.
\bigcirc 가정
\cdot 여기서는 \alpha를 알고 있다는 가정하에 \beta의 추정량 분포를 구함.
\cdot n = 2일 때, \hat{\beta}_n \;\;=\;\; {X_1 + X_2 \over 2 \alpha} (\alpha is known)
\cdot X_1 and X_2는 서로 독립
\bigcirc Transformation method
\circ 특징 : 대부분의 경우에 사용 가능하나, X의 정의역과 Y의 정의역이 1-1 관계가 아니라면 식이 복잡해진다.
T \;\;=\;\; {X_1 + X_2 \over 2 \alpha} W \;\;=\;\; {X_2 \over X_1 + X_2} 0 \;<\; T \;<\; \infty , 0 \;<\; W \;<\; 1
X_1 \;\;=\;\; 2\alpha T(1-W) , X_2 \;\;=\;\; 2\alpha TW
| J | \;\;=\;\; \begin{vmatrix} {dx_1 \over dT} & {dx_2 \over dT} \\ {dx_1 \over dW} & {dx_2 \over dW} \end{vmatrix} \;\;=\;\; \begin{vmatrix} 2\alpha(1-w) & 2\alpha w \\ -2\alpha t & 2\alpha t \end{vmatrix} \;\;=\;\; 4\alpha^2 t
g_{T,W}(t, w) \;\;=\;\; | J | \cdot f_{X_1, X_2}(2\alpha t(1-w) , 2\alpha tw) \;\;=\;\; {(4\alpha^2)^{\alpha} \times t^{2\alpha} \times e^{- {2\alpha t \over \beta}} \over \Gamma(\alpha) \Gamma(\alpha) \beta^{2\alpha}} \times [w(1-w)]^{\alpha-1} \quad\quad 0<t<\infty \;\; 0<w<1
우리가 알고 싶은 것은 \hat{\beta}_n 즉, T에 대한 것이므로 T의 Marginal function을 계산.
\begin{align} g_T(t) \;\; &=\;\; {(4\alpha^2)^{\alpha} \over \Gamma(2\alpha) \beta^{2\alpha}} t^{2\alpha} e^{-{2\alpha t \over \beta}} \times \int_0^1 {\Gamma(2\alpha) \over \Gamma(\alpha) \Gamma(\alpha)} w^{\alpha-1}(1-w)^{\alpha-1} dw \\ &=\;\; {(4\alpha^2)^{\alpha} \over \Gamma(2\alpha) \beta^{2\alpha}} t^{2\alpha} e^{-{2\alpha t \over \beta}} \\ &=\;\; {1 \over \Gamma(2\alpha) ({\beta \over 2\alpha})^{2\alpha}} t^{2\alpha} e^{-{t \over ({\beta \over 2\alpha})}} \quad\quad 0<t<\infty \quad\sim Gamma(2\alpha, {\beta \over 2\alpha}) \end{align}
\therefore 추정량 \hat{\beta}_n은 Gamma(2\alpha, {\beta \over 2\alpha})를 따른다.
\bigcirc Mgf method
\circ 특징 : Mgf을 알아야하며, X_i들이 서로 독립이어야 한다.
X_i의 mgf = {1 \over (1-\beta t)^{\alpha}}\;\; , \;\;\; t<{1 \over \beta}
Y의 mgf
\begin{align} M_{Y}(t) \;\; &= \; E(e^{tY}) \;\;=\;\; E(e^{{X_1 \over 2\alpha}t + {X_2 \over 2\alpha}t}) \\ &= \; E(e^{{X_1 \over 2\alpha}t}) \times E(e^{{X_2 \over 2\alpha}t}) \quad\quad from \;\; Indepdent \\ &=\;\; E(e^{{X_1 \over 2\alpha}t})^2 \quad\quad\quad\quad from \;\; X_1 , X_2 \;\;\sim\;\; Gamma(\alpha, \beta) \\ &=\;\; [ \int_{0}^{\infty} e^{{X} \over 2\alpha}t {1\over \Gamma(\alpha) \beta^{\alpha}}x^{\alpha-1} e^{-{x \over \beta}} dx ]^2 \\ &=\;\; [\int_{0}^{\infty} {1\over \Gamma(\alpha) \beta^{\alpha}}x^{\alpha-1} e^{({t\over 2\alpha} - {1\over \beta})x} dx ]^2 \\ &=\;\; [({2\alpha \over 2\alpha - \beta t})^{\alpha} \int_{0}^{\infty} {1\over \Gamma(\alpha) \theta^{\alpha}}x^{\alpha-1} e^{-{x \over \theta}} dx ]^2 \quad\quad, \;\; \theta \;=\; {2\alpha - \beta t \over 2\alpha\beta} \\ &=\;\; [({2\alpha \over 2\alpha - \beta t})^{\alpha} ]^2 \quad\quad from \;\; pdf\;\;of\;\;Gamma(\alpha, \theta) \\ &=\;\; [({1 \over 1 - {\beta t \over 2\alpha}})^{\alpha} ]^2 \\ &=\;\; {1 \over (1 - {\beta t \over 2\alpha})^{2\alpha}} \;\;\;\sim\;\;\; mgf\;\;of\;\;Gamma(2\alpha, {\beta \over 2\alpha}) \end{align}
\therefore 추정량 \hat{\beta}_n은 Gamma(2\alpha, {\beta \over 2\alpha})를 따른다.
\bigcirc cdf method
\circ 특징 : "단"변량인 경우 유용한 방법.
Q6. 추정량의 성질
\bigcirc 일치성
\hat{\beta}_n \;=\; {\bar{X}_n \over \alpha} (\alpha\;\;is\;\;known)\;\; \forall\varepsilon>0,\quad \underset{n\to\infty}{lim}\;P[|\hat{\beta}_n-\beta|>\varepsilon] \;\leq\; \underset{n\to\infty}{lim}\;{\beta^2 \over \alpha n \varepsilon^2}\;\;(\approx \; 0)
(reason : 위에서 구한 모수의 추정량이 모수와 일치하는지를 확인)
(Proof)
1. Generlized Chebyshev Ineq에 의해 아래 식 도출.
P[|\hat{\beta}_n-\beta|>\varepsilon] \;\leq\; {E[(\hat{\beta}_n - \beta)^2] \over \alpha n \varepsilon^2}
Generlized Chebyshev Ineq은 아래 세 조건이 만족하는 경우 사용 가능.
\phi \; : \; R \;\to\; [0, \infty) s.t
(1) \phi is even, i.e \phi(-x) \;=\; \phi(x)
(2) \phi is non-decreasing
(3) \phi(x)\;>\;0\;\; x\ne0\;\;\phi(0)\;=\;0
이 경우, \phi(x)\;=\;x^2(x \;=\;\hat{\beta}_n-\beta) 이므로 위 세 조건을 모두 만족.
2. 위 식에서 E[(\hat{\beta}_n - \beta)^2]은 다음과 같다.
\begin{align} E[(\hat{\beta}_n - \beta)^2] &=\; E[({\bar{X}_n \over \alpha})^2] \\ &=\; E[{1 \over \alpha^2} \bar{X}_n^2-{2\beta \over \alpha}\bar{X}_n + \beta^2] \\ &=\; {1 \over \alpha^2}[Var(\bar{X}_n) + E(\bar{X}_n)^2]-{2\beta \over \alpha}\bar{X}_n + \beta^2 \\ &=\; {\beta^2 \over \alpha n} \quad\quad\quad (E(\bar{X}_n)\;=\;\alpha\beta\;\;\;Var(\bar{X}_n)\;=\;{1\over n}\alpha\beta^2) \end{align}
3. 따라서, P[|\hat{\beta}_n-\beta|>\varepsilon] \;\leq\; {E[(\hat{\beta}_n - \beta)^2] \over \alpha n \varepsilon^2} 이 식은 다음과 같이 나타낼 수 있다.
P[|\hat{\beta}_n-\beta|>\varepsilon] \;\leq\; \underset{n\to\infty}{lim}\;{\beta^2 \over \alpha n \varepsilon^2}
4. 위 3번 식의 양변에 \underset{n\to\infty}{lim}을 대입하면 우변이 0으로 근사하므로 좌변의 확률 값이 0으로 수렴한다.
즉, 추정량 \hat{\beta}_n은 모수 \beta와 일치한다고 할 수 있다.
Gamma 분포 https://ddoyun.notion.site/Gamma-Distribution-37886d612bde4e6eb0d0c74e27028161
Gamma Distribution
1. 데이터 구조
ddoyun.notion.site
Binomial 분포 https://www.notion.so/Binomial-distribution-f7748e9b8c3a4de48a55b9b42c44bc0c
'Statistics' 카테고리의 다른 글
(통계 용어) 자유도 (Degree of Freedom)란? (0) | 2021.03.30 |
---|---|
(통계 용어) 유의수준 and 유의확률 (0) | 2021.03.22 |
(통계 용어) 확률 변수, 확률 분포 Etc (0) | 2021.03.22 |
(통계 용어) 표준 편차 vs 표준오차 (0) | 2021.03.22 |
(통계 용어) 검정력 (Power) (0) | 2021.03.22 |