선형 회귀모형을 공부하다 보면 반드시 보게 되는 것이 회귀모형의 "가정"입니다.
물론 이 가정에 대해 아 그렇구나 하고 넘어가도 되지만, 왜 가정하는지 한 번 알아보는 것도 좋을 것 같습니다.
그렇다면 왜 가정을 하고 왜 그렇게 가정하는지를 알아보겠습니다.
가정을 하는 이유
먼저 회귀분석의 목적을 알아야 합니다.
회귀 분석의 목적은 설명변수 x와 반응변수 y의 관계를 선형식으로 나타내고 싶은 것입니다.
그러나 현실적으로 변수 간의 관계를 선형식으로 나타내는 것이 힘드므로, 여러 가정을 통해 선형식으로 만들어 내는 것입니다.
가정의 종류
1. x,y는 선형 관계
2. x : 오차 없이 측정 가능한 수학 변수
y : 오차를 수반하는 확률 변수(Random Variable)
3. εi∼N(0,σ2) i.i.d
(1) 정규성(Normality) : εi∼Normal
(2) 독립성(Independent) : Cov(εi,εj)=0 (i≠j)
(3) 등분산성(Homoscedasticity) : Var(εi)=σ2
4. Cov(Xi,Xj)=0 (i≠j) → Multi Regression에서 해당하는 가정으로 여기서는 설명하지 않겠습니다.
5. x의 샘플 수는 2개 이상 → 당연한 이야기이므로 설명을 생략하겠습니다.
1. x,y는 선형 관계
이유
우리는 x,y의 선형관계식을 알고 싶어 진행하는 것으로, x,y가 어느정도 선형식으로 표현할 수 있는 형태를 갖고 있어야 선형 회귀 분석을 실시할 수 있습니다.
확인 방법
x,y가 선형의 관계를 갖고 있는지는 x,y 의 산점도로 확인할 수 있습니다.

가정 위배 시
만약 x,y가 선형의 관계를 갖고있지 않다면, 다음과 같은 방법으로 선형 관계 형태로 만들어 줄 수 있습니다.
(1) x2항을 추가
(2) 변수 변환법
2. x : 오차 없이 측정 가능한 수학 변수 and y : 오차를 수반하는 확률 변수(Random Variable)
x의 경우 우리가 관측한 값으로서 실제로 값을 알고 있는 값으로 생각합니다.
그러나 y의 경우 우리가 추정하고자 하는 값으로 yi=β0+β1xi+εi의 형태로 표현합니다.
여기서 보이듯이 εi이라는 오차를 갖고 있는 값으로서, 확률변수 값으로 생각합니다.
3. εi∼N(0,σ2) i.i.d
이 부분을 설명하기에 앞서 몇가지 알아야 할 점이 있습니다.
- 여기서 말하는 오차 εi는 우연 오차(random error)로 측정하는 사람이 도저히 조정할 수 없는 오류를 의미합니다.
- 따라서, 오차에 대한 검정은 할 수 없으므로 오차를 대신하여 잔차(Residual)를 사용합니다. 이때 잔차는 실제값과 예측값의 차이로, 실제 y와 우리가 추정하여 만든 ˆy의 차이를 의미합니다. ei=yi−^yi
(1) 정규성(Normality) : εi∼Normal
① 의미 : 오차항은 정규분포형태
② 이유 : 회귀 분석은 회귀 모형을 추정한 이후 회귀 모형이 잘 맞는지 모형 검정과 계수 검정을 필요로 합니다.
모형 검정과 계수 검정 등의 가설검정을 하기 위해서는 분포 가정이 필요 하여, 이때 사용하기 위한 정규성 가정입니다.
③ 확인 : Q-Q plot, Shapiro-Wilk test, Kolmogolov-Smirnov test, Jarque-Bera test
※ 주의 사항!!!
정규성 검정은 yi가 아닌 εi에 하는 것입니다!!
( 정말 많은 분들이 헷갈려하는 부분이니 꼭 명심하시기 바랍니다 :) )
(2) 독립성(Independent) : Cov(εi,εj)=0 (i≠j)
① 의미 : 오차항은 서로 독립
② 이유 - 오차는 random error로서 서로 관계가 없다고 가정합니다.
- 오차항이 서로 상관관계가 있다면, 추정된 회귀식으로 설명되는 않은 부분에서 다른 어떤 관계가
있다는 것을 의미하는 것으로 이는 회귀식의 설명력을 약하게 만듭니다.
③ 확인 : Residual plor, Durbin-watson test, Breusch-Godfre's LM test, ACF
④ 위배 : 독립성의 가정이 위배된 경우 "자기상관"을 갖는다고 말하며,
추후 회귀모형 검정에서 사용되는 t,F,R2값이 모두 과대 추정되는 경향이 생깁니다.
⑤ 해결 : 변수의 차분
⑥ 특징 : 주로 시계열 자료에서만 독립성을 가정합니다.
(3) 등분 산성(Homoscedasticity) : Var(εi)=σ2
① 의미 : 오차의 분산이 xi에 관계없이 일정하다.
② 이유 : 정규성 가정과 마찬가지로 추후 회귀 모형의 검정에 있어, 검정을 용이하게 하기 위한 가정입니다.
③ 확인 : Resdiual plot, Brown-Forsythe, Breusch-Pagan
④ 위배 - 이분 산성(Hetroskedasticity)라고 하며, 추정량의 분산이 커져 최소분산을 갖는 효율성을 갖지 못합니다.
이에 BLUE(Best Linear Umbasied Estimator)가 되지 못합니다.
- 추정치 분산 추정량이 하향 편의를 갖게 됩니다.
⑤ 해결 : WLS(Weight Least Square), GLS regression
2번과 3번 가정을 통해 yi∼N(β0+β1xi,σ2)이 됩니다.
(1) yi = 상수(β0+β1xi) + Normal distribution(εi) =$ Normal distribution
(2) E(yi)=E(β0+β1xi+εi)=β0+β1xi+E(εi)=β0+β1xi
Var(yi)=Var(β0+β1xi+εi)=Var(εi)=σ2
'Regression' 카테고리의 다른 글
Q-Q plot 정규분포에만 사용할까?? (1) | 2021.04.28 |
---|---|
최우추정법 (MLE, Method of Maximum likelihood Estimation (2) | 2021.04.02 |
최소 제곱법 (Least Square Method = OLS) (1) | 2021.04.01 |
VIF > 10의 의미는 무엇일까? (0) | 2021.03.27 |
단순회귀 모형 (SLR, Simple Linear Regression) (0) | 2021.03.15 |