선형 회귀모형을 공부하다 보면 반드시 보게 되는 것이 회귀모형의 "가정"입니다.
물론 이 가정에 대해 아 그렇구나 하고 넘어가도 되지만, 왜 가정하는지 한 번 알아보는 것도 좋을 것 같습니다.
그렇다면 왜 가정을 하고 왜 그렇게 가정하는지를 알아보겠습니다.
가정을 하는 이유
먼저 회귀분석의 목적을 알아야 합니다.
회귀 분석의 목적은 설명변수 $x$와 반응변수 $y$의 관계를 선형식으로 나타내고 싶은 것입니다.
그러나 현실적으로 변수 간의 관계를 선형식으로 나타내는 것이 힘드므로, 여러 가정을 통해 선형식으로 만들어 내는 것입니다.
가정의 종류
1. $x, y$는 선형 관계
2. $x$ : 오차 없이 측정 가능한 수학 변수
$y$ : 오차를 수반하는 확률 변수(Random Variable)
3. $\varepsilon_i \sim N(0, \sigma^2) \ \ i.i.d$
(1) 정규성(Normality) : $\varepsilon_i \sim Normal$
(2) 독립성(Independent) : $Cov(\varepsilon_i , \varepsilon_j) = 0$ (i≠j)
(3) 등분산성(Homoscedasticity) : $Var(\varepsilon_i) = \sigma^2$
4. $Cov(X_i , X_j) = 0 $ (i≠j) → Multi Regression에서 해당하는 가정으로 여기서는 설명하지 않겠습니다.
5. $x$의 샘플 수는 2개 이상 → 당연한 이야기이므로 설명을 생략하겠습니다.
1. $x, y$는 선형 관계
이유
우리는 $x, y$의 선형관계식을 알고 싶어 진행하는 것으로, $x, y$가 어느정도 선형식으로 표현할 수 있는 형태를 갖고 있어야 선형 회귀 분석을 실시할 수 있습니다.
확인 방법
$x, y$가 선형의 관계를 갖고 있는지는 $x, y$ 의 산점도로 확인할 수 있습니다.
가정 위배 시
만약 $x, y$가 선형의 관계를 갖고있지 않다면, 다음과 같은 방법으로 선형 관계 형태로 만들어 줄 수 있습니다.
(1) $x^2$항을 추가
(2) 변수 변환법
2. $x$ : 오차 없이 측정 가능한 수학 변수 and $y$ : 오차를 수반하는 확률 변수(Random Variable)
$x$의 경우 우리가 관측한 값으로서 실제로 값을 알고 있는 값으로 생각합니다.
그러나 $y$의 경우 우리가 추정하고자 하는 값으로 $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$의 형태로 표현합니다.
여기서 보이듯이 $\varepsilon_i$이라는 오차를 갖고 있는 값으로서, 확률변수 값으로 생각합니다.
3. $\varepsilon_i \sim N(0, \sigma^2) \ \ i.i.d$
이 부분을 설명하기에 앞서 몇가지 알아야 할 점이 있습니다.
- 여기서 말하는 오차 $\varepsilon_i$는 우연 오차(random error)로 측정하는 사람이 도저히 조정할 수 없는 오류를 의미합니다. $\\$
- 따라서, 오차에 대한 검정은 할 수 없으므로 오차를 대신하여 잔차(Residual)를 사용합니다. $\\$이때 잔차는 실제값과 예측값의 차이로, 실제 $y$와 우리가 추정하여 만든 $\hat {y}$의 차이를 의미합니다.$\\$ $$ e_i = y_i - \hat {y_i} $$
(1) 정규성(Normality) : $\varepsilon_i \sim Normal$
① 의미 : 오차항은 정규분포형태
② 이유 : 회귀 분석은 회귀 모형을 추정한 이후 회귀 모형이 잘 맞는지 모형 검정과 계수 검정을 필요로 합니다.
모형 검정과 계수 검정 등의 가설검정을 하기 위해서는 분포 가정이 필요 하여, 이때 사용하기 위한 정규성 가정입니다.
③ 확인 : Q-Q plot, Shapiro-Wilk test, Kolmogolov-Smirnov test, Jarque-Bera test
※ 주의 사항!!!
정규성 검정은 $y_i$가 아닌 $\varepsilon_i$에 하는 것입니다!!
( 정말 많은 분들이 헷갈려하는 부분이니 꼭 명심하시기 바랍니다 :) )
(2) 독립성(Independent) : $Cov(\varepsilon_i , \varepsilon_j) = 0$ (i≠j)
① 의미 : 오차항은 서로 독립
② 이유 - 오차는 random error로서 서로 관계가 없다고 가정합니다.
- 오차항이 서로 상관관계가 있다면, 추정된 회귀식으로 설명되는 않은 부분에서 다른 어떤 관계가
있다는 것을 의미하는 것으로 이는 회귀식의 설명력을 약하게 만듭니다.
③ 확인 : Residual plor, Durbin-watson test, Breusch-Godfre's LM test, ACF
④ 위배 : 독립성의 가정이 위배된 경우 "자기상관"을 갖는다고 말하며,
추후 회귀모형 검정에서 사용되는 $t, F, R^2$값이 모두 과대 추정되는 경향이 생깁니다.
⑤ 해결 : 변수의 차분
⑥ 특징 : 주로 시계열 자료에서만 독립성을 가정합니다.
(3) 등분 산성(Homoscedasticity) : $Var(\varepsilon_i) = \sigma^2$
① 의미 : 오차의 분산이 $x_i$에 관계없이 일정하다.
② 이유 : 정규성 가정과 마찬가지로 추후 회귀 모형의 검정에 있어, 검정을 용이하게 하기 위한 가정입니다.
③ 확인 : Resdiual plot, Brown-Forsythe, Breusch-Pagan
④ 위배 - 이분 산성(Hetroskedasticity)라고 하며, 추정량의 분산이 커져 최소분산을 갖는 효율성을 갖지 못합니다.
이에 BLUE(Best Linear Umbasied Estimator)가 되지 못합니다.
- 추정치 분산 추정량이 하향 편의를 갖게 됩니다.
⑤ 해결 : WLS(Weight Least Square), GLS regression
2번과 3번 가정을 통해 $y_i \sim N(\beta_0 + \beta_1 x_i , \sigma^2)$이 됩니다.
(1) $y_i$ = 상수($\beta_0 + \beta_1 x_i$) + Normal distribution($\varepsilon_i$) =$ Normal distribution
(2) $E(y_i) = E(\beta_0 + \beta_1 x_i + \varepsilon_i) = \beta_0 + \beta_1 x_i + E(\varepsilon_i) = \beta_0 + \beta_1 x_i$
$Var(y_i) = Var(\beta_0 + \beta_1 x_i + \varepsilon_i) = Var(\varepsilon_i) = \sigma^2$
'Regression' 카테고리의 다른 글
Q-Q plot 정규분포에만 사용할까?? (1) | 2021.04.28 |
---|---|
최우추정법 (MLE, Method of Maximum likelihood Estimation (2) | 2021.04.02 |
최소 제곱법 (Least Square Method = OLS) (1) | 2021.04.01 |
VIF > 10의 의미는 무엇일까? (0) | 2021.03.27 |
단순회귀 모형 (SLR, Simple Linear Regression) (0) | 2021.03.15 |