최소제곱법이란, "Least Square Method" or "Ordinary Least Square"으로 불리며
오차를 최소화 시키는 방법으로 회귀 계수($\beta_0, \beta_1$)를 추정하는 기법입니다.
단순 선형 회귀(이하 회귀)란 설명변수와 반응변수간의 관계를 선형식으로 나타내는 방법입니다.
$$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$$
$$\varepsilon_i \sim N(0, \sigma^2), \ i = 1,2,\cdots,n$$
하지만 두 변수간의 관계를 정확히 일직선으로 나타낼 수 없으니,
우리는 관계를 가장 잘 나타낼 수 있는 $b_0, b_1$을 추정해야 하고
이 $b_0, b_1$을 추정하는 방법 중 하나가 바로 최소제곱법(Least Square Method)인 것입니다!
그럼 최소 제곱법은 어떻게 하는것일까요?
위 정의에서 말했듯이 오차를 최소화 시키는 방법을 사용합니다.
오차($\varepsilon_i$)를 나타내기위해 위의 회귀식을 이항시키면, 다음과 같은 식이 됩니다.
$$\varepsilon_i = y_i - \beta_0 - \beta_1 x_i $$
그리고 최소 제곱법 답게 "위 식(오차)의 제곱의 합이 최소"가 되는 $b_0, b_1$을 찾는 것이 목적입니다.
즉, 위 식에 $b_0, b_1$을 넣었을 때 저 식이 최소가 되어야한다는 것입니다.
따라서 다시 적어보면, 다음과 같이 나타낼 수 있습니다.
$$Min \ \ S^2 = Min \sum_{i=1}^{n} \varepsilon_i^2 = Min \sum_{i=1}^{n} (y_i - b_0 - b_1 x_i)^2$$
그리고 이 식을 최소화시키는 $b_0, b_1$을 찾기 위해 고등학교때 배웠던 $f'(x) = 0 , f''(x) > 0$을 사용하면 됩니다.
① f'(x) = 0
두 값($b_0, b_1$)을 찾기 위해 각각 미분을 사용해주면
$${\partial S \over \partial b_0} = - 2\sum_{i=1}^{n} (y_i - b_0 - b_1 x_i) = 0$$
$${\partial S \over \partial b_1} = - 2\sum_{i=1}^{n} x_i (y_i - b_0 - b_1 x_i) = 0$$
이 되고, 두 식을 정리하면 ($\sum = \sum_{i=1}^{n}$)
$$b_0 n + b_1 \sum x_i = \sum y_i $$
$$b_0 \sum x_i + b_1 \sum x_{i}^{2} = \sum x_i y_i$$
이 되는데, 이 식을 정규방정식(Normal Equations)라고 합니다.
하지만 이 식은 최소 or 최대 점을 찾는 것으로 이 점이 "최소"가 되려면 조건 하나를 더 만족해야합니다.
② f"(x) > 0
이 식을 해결하기 위해 여기서는 이차 편미분 행렬(Second Order Partial Derivative)를 사용합니다.
$$H = \begin{bmatrix} {\partial^2 S \over \partial \beta_0^2} & {\partial^2 S \over \partial \beta_0 \partial \beta_1} \\ {\partial^2 S \over \partial \beta_1 \partial \beta_0} & {\partial^2 S \over \partial \beta_1^2} \end{bmatrix}$$
이 행렬이 양정치(Positive definite) 행렬이 되어야 합니다.
양정치란 ${\partial^2 S \over \partial \beta_0^2} >0$ 과 $|H| > 0$을 만족시키는 것으로
$${\partial^2 S \over \partial \beta_0^2} = 2n > 0$$
$$ |H| = \begin{vmatrix} 2n & 2 \sum x_i \\ 2 \sum x_i & 2 \sum x_i^2 \end{vmatrix} = 4n \sum(x_i - \bar{x})^2 > 0$$
이 경우 모두 만족하는 것을 알 수 있습니다.
즉, 위 정규방정식의 $b_0, b_1$이 오차제곱합을 최소로하는 해가 되고
정규방정식을 $b_0, b_1$에 대해 풀면,
$$b_1 = {\sum x_i y_i - {(\sum x_i) (\sum y_i) \over n} \over \sum x_i^2 - {(\sum x_i)^2 \over n}} $$
$$\ \ = {\sum (x_i - \bar{x}) (y_i - \bar{y}) \over \sum (x_i - \bar{x})^2}$$
$$b_0 = {\sum y_i \over n} - b_1 {\sum x_i \over n} = \bar{y} - b_1 \bar{x}$$
위와 같이 $b_0, b_1$을 나타낼 수 있습니다.
이것이 바로 최소제곱법을 이용해 $\beta_0, \beta_1$을 추정한 $b_0, b_1$ 값이 되는 것입니다!
'Regression' 카테고리의 다른 글
Q-Q plot 정규분포에만 사용할까?? (1) | 2021.04.28 |
---|---|
최우추정법 (MLE, Method of Maximum likelihood Estimation (2) | 2021.04.02 |
VIF > 10의 의미는 무엇일까? (0) | 2021.03.27 |
선형 회귀 모형 가정을 왜 하는가? (1) | 2021.03.15 |
단순회귀 모형 (SLR, Simple Linear Regression) (0) | 2021.03.15 |