저번에 최소제곱법으로 회귀계수 $\beta_0, \beta_1$을 추정했다면 (최소제곱법 내용은 여기!) 이번에는 최우추정법으로 추정하는 방법에 대해 알아보겠습니다!
최우추정법 MLE는
어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택하는 방법.
이론적으로 가장 가능성이 높은 모수를 찾는 방법
우선 최우추정법을 설명하기 전 알아야 할 사항이 있습니다.
1. Likelihood
최우추정법의 Likelihood란 "가능도 또는 우도"라고 하며 다음과 같은 의미를 갖습니다.
① 어떤 관측 값이 관측되었을 때 이것이 어떤 확률분포에서 왔을지에 대한 확률
L(확률분포 | 관측값)
② 주어진 표집 값에 대한 모수의 가능도는 이 모수를 따르는 분포가 주어진 관측 값에 대해 부여하는 확률
즉, 우리가 알고있는 데이터들이 그 모수를 따르는 분포로부터 나올 가능성!
2. MLE 가정
아무런 가정도 필요없던 최소제곱법(LSE)와는 다르게 MLE에는 다음과 같은 가정이 필요합니다.
"오차가 평균은 0이고, 분산은 $\sigma^2$인 정규분포를 따른다. "
$$\varepsilon \sim N(0, \sigma^2)$$
이러한 배경하에서 이제 MLE(= 최우추정법)으로 회귀계수($\beta_0, \beta_1$) 을 추정해 보겠습니다 :)
1. 가능도 함수 구하기.
위 가정하에서 $n$개의 관찰점을 구했을 때, $\varepsilon_1, \varepsilon_2, \cdots, \varepsilon_n$은 $N(0, \sigma^2)$에서 얻어지는 확률표본이고,
$\varepsilon_i$의 확률 밀도 함수(pdf, probability density function)는 다음과 같습니다.
$$f(\varepsilon_i) = {1 \over \sqrt{2 \pi \sigma^2}}exp(-{\varepsilon_i^2 \over 2 \sigma^2})$$
이때, $f(\varepsilon_i)$ , $i = 1,2,\cdots, n$들의 곱은
$$L = \prod_{i=1}^{n} f(\varepsilon_i) = {1 \over (2 \pi \sigma^2)^{n/2}} exp(- {\sum \varepsilon_i^2 \over 2 \sigma^2}) = {1 \over (2 \pi \sigma^2)^n/2} exp({\sum (y_i - \beta_0 - \beta_1 x_i)^2 \over 2 \sigma^2})$$
위와 같이 표현되며, 이 식이 곧 가능도(= 우도) 함수가 됩니다!
여기서 가능도 함수의 의미는 이 데이터 n개가 모수 $\beta_0, \beta_1$을 가질 확률이라고 할 수 있습니다.
즉, 이 모수가 잘 맞을수록 가능도 함수 값이 높게 나오게 됩니다.
그리고 위 가능도 함수의 식을 곱으로 표현할 수 있는 이유는 모든 데이터가 독립으로 가정 되어있기 때문입니다!
$$L(\varepsilon_1, \varepsilon_2, \cdots, \varepsilon_n |\beta_0, \beta_1) = L( \varepsilon_1 | \beta_0, \beta_1) L(\varepsilon_2| \beta_0, \beta_1) \cdots L(\varepsilon_n |\beta_0, \beta_1)$$
∵ $\varepsilon_i$ (= 데이터)은 서로 독립
그리고 최대우도함수 이름 그대로 이 우도 함수가 최대가 되는 $\beta_0, \beta_1$의 값을 찾으면 되며,
그 값들을 최우추정값이라 부르고 이와 같은 방법으로 구하는 $\beta_0, \beta_1$의 추정량을 최우추정량이라고 합니다.
2. 가능도 함수를 최대로 하는 $\beta_0, \beta_1$ 구하기.
위에서 구한 가능도함수를 각 $\beta_0, \beta_1$로 미분하여 그 값을 0으로 놓는 방식으로 $\beta_0, \beta_1$의 값을 찾게 됩니다.
이런 방식은 고등학교 수학에 나오는 f'(x) = 0과 같은 방식이며, 전에 설명드린 최소제곱법과 같은 방식입니다.
① 미분 계산을 편하게 하기 위해 우선 양변에 자연로그($ln = log_e$)를 취해 줍니다.
$$ln L = -{n \over 2} ln 2 \pi \sigma^2 - {1 \over 2 \sigma^2} \sum (y_i - \beta_0 - \beta_1 x_i)^2$$
② 그 다음 각 $\beta_0, \beta_1$으로 미분해주면 다음과 같은 식이 나옵니다.
$${\partial ln L \over \partial \beta_0} = {1 \over \sigma^2} \sum(y_i - \beta_0 - \beta_1 x_i)$$
$${\partial ln L \over \partial \beta_1} = {1 \over \sigma^2} \sum x_i (y_i - \beta_0 - \beta_1 x_i)$$
③ 그리고 이 식을 각각 = 0으로 놓고 연립방정식을 풀면 $\beta_0, \beta_1$의 해를 구할 수 있게 되며,
그 값들이 최우 추정법(MLE)을 사용해 구한 회귀계수의 추정값 $\hat {\beta_0}, \hat {\beta_1}$이 됩니다!
위 방법대로 풀게 되면, 최우추정량으로서의 $\hat {\beta_0}, \hat {\beta_1}$ 즉 $b_0, b_1$은 최소제곱추정량과 동일한 것을 알 수 있습니다.
주의 사항!
최우추정량(MLE)은 오차항 $\varepsilon_i$의 분포를 정규분포 $N(0, \sigma^2)$이라고 가정하여 얻은 것이며,
최소제곱추정량(LSE, OLS)은 이러한 가정(오차항의 정규성 가정)이 전제되어 있지 않습니다!
'Regression' 카테고리의 다른 글
Q-Q plot 정규분포에만 사용할까?? (1) | 2021.04.28 |
---|---|
최소 제곱법 (Least Square Method = OLS) (1) | 2021.04.01 |
VIF > 10의 의미는 무엇일까? (0) | 2021.03.27 |
선형 회귀 모형 가정을 왜 하는가? (1) | 2021.03.15 |
단순회귀 모형 (SLR, Simple Linear Regression) (0) | 2021.03.15 |