본문 바로가기

Regression

선형 회귀 모형 가정을 왜 하는가?

반응형

선형 회귀모형을 공부하다 보면 반드시 보게 되는 것이 회귀모형의 "가정"입니다.

물론 이 가정에 대해 아 그렇구나 하고 넘어가도 되지만, 왜 가정하는지 한 번 알아보는 것도 좋을 것 같습니다.

그렇다면 왜 가정을 하고 왜 그렇게 가정하는지를 알아보겠습니다.

 

가정을 하는 이유

먼저 회귀분석의 목적을 알아야 합니다. 

회귀 분석의 목적은 설명변수 $x$와 반응변수 $y$의 관계를 선형식으로 나타내고 싶은 것입니다.

그러나 현실적으로 변수 간의 관계를 선형식으로 나타내는 것이 힘드므로, 여러 가정을 통해 선형식으로 만들어 내는 것입니다.

 

가정의 종류

 

1. $x, y$는 선형 관계

 

2. $x$ : 오차 없이 측정 가능한 수학 변수

    $y$ : 오차를 수반하는 확률 변수(Random Variable)

 

3. $\varepsilon_i \sim N(0, \sigma^2) \ \ i.i.d$

     (1) 정규성(Normality) : $\varepsilon_i \sim Normal$

     (2) 독립성(Independent) : $Cov(\varepsilon_i , \varepsilon_j) = 0$   (i≠j)

     (3) 등분산성(Homoscedasticity) : $Var(\varepsilon_i) = \sigma^2$


4. $Cov(X_i , X_j) = 0 $  (i≠j)  →  Multi Regression에서 해당하는 가정으로 여기서는 설명하지 않겠습니다.

5. $x$의 샘플 수는 2개 이상  → 당연한 이야기이므로 설명을 생략하겠습니다.


1. $x, y$는 선형 관계

 

이유

우리는 $x, y$의 선형관계식을 알고 싶어 진행하는 것으로, $x, y$가 어느정도 선형식으로 표현할 수 있는 형태를 갖고 있어야 선형 회귀 분석을 실시할 수 있습니다.

 

확인 방법

$x, y$가 선형의 관계를 갖고 있는지는 $x, y$ 의 산점도로 확인할 수 있습니다.

가정 위배 시

만약 $x, y$가 선형의 관계를 갖고있지 않다면, 다음과 같은 방법으로 선형 관계 형태로 만들어 줄 수 있습니다.

   (1) $x^2$항을 추가

   (2) 변수 변환법


 

2. $x$ : 오차 없이 측정 가능한 수학 변수  and  $y$ : 오차를 수반하는 확률 변수(Random Variable)

 

$x$의 경우 우리가 관측한 값으로서 실제로 값을 알고 있는 값으로 생각합니다.

 

그러나 $y$의 경우 우리가 추정하고자 하는 값으로 $y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$의 형태로 표현합니다.

여기서 보이듯이 $\varepsilon_i$이라는 오차를 갖고 있는 값으로서, 확률변수 값으로 생각합니다.

 


3. $\varepsilon_i \sim N(0, \sigma^2) \ \ i.i.d$

이 부분을 설명하기에 앞서 몇가지 알아야 할 점이 있습니다.

 

  • 여기서 말하는 오차 $\varepsilon_i$는 우연 오차(random error)로 측정하는 사람이 도저히 조정할 수 없는 오류를 의미합니다. $\\$
  • 따라서, 오차에 대한 검정은 할 수 없으므로 오차를 대신하여 잔차(Residual)를 사용합니다. $\\$이때 잔차는 실제값과 예측값의 차이로, 실제 $y$와 우리가 추정하여 만든 $\hat {y}$의 차이를 의미합니다.$\\$ $$ e_i = y_i - \hat {y_i} $$

(1) 정규성(Normality) : $\varepsilon_i \sim Normal$

 

  ① 의미  :  오차항은 정규분포형태

 

  ② 이유  :  회귀 분석은 회귀 모형을 추정한 이후 회귀 모형이 잘 맞는지 모형 검정과 계수 검정을 필요로 합니다.

                  모형 검정과 계수 검정 등의 가설검정을 하기 위해서는 분포 가정이 필요 하여, 이때 사용하기 위한 정규성 가정입니다.

 

  ③ 확인 : Q-Q plot, Shapiro-Wilk test, Kolmogolov-Smirnov test, Jarque-Bera test

 

※ 주의 사항!!!

정규성 검정은 $y_i$가 아닌 $\varepsilon_i$에 하는 것입니다!! 
( 정말 많은 분들이 헷갈려하는 부분이니 꼭 명심하시기 바랍니다 :) )

(2) 독립성(Independent) : $Cov(\varepsilon_i , \varepsilon_j) = 0$   (i≠j)

 

  ① 의미  :  오차항은 서로 독립

 

  ② 이유  - 오차는 random error로서 서로 관계가 없다고 가정합니다. 

               - 오차항이 서로 상관관계가 있다면, 추정된 회귀식으로 설명되는 않은 부분에서 다른 어떤 관계가

                  있다는 것을 의미하는 것으로 이는 회귀식의 설명력을 약하게 만듭니다.

 

  ③ 확인  :  Residual plor, Durbin-watson test, Breusch-Godfre's LM test, ACF

 

  ④ 위배  :  독립성의 가정이 위배된 경우 "자기상관"을 갖는다고 말하며,

                  추후 회귀모형 검정에서 사용되는 $t, F, R^2$값이 모두 과대 추정되는 경향이 생깁니다.

 

  ⑤ 해결  :  변수의 차분

 

  ⑥ 특징  :  주로 시계열 자료에서만 독립성을 가정합니다.

 

(3) 등분 산성(Homoscedasticity) : $Var(\varepsilon_i) = \sigma^2$

 

  ① 의미  :  오차의 분산이 $x_i$에 관계없이 일정하다.

 

  ② 이유  :  정규성 가정과 마찬가지로 추후 회귀 모형의 검정에 있어, 검정을 용이하게 하기 위한 가정입니다.

 

  ③ 확인  :  Resdiual plot, Brown-Forsythe, Breusch-Pagan

 

  ④ 위배  - 이분 산성(Hetroskedasticity)라고 하며, 추정량의 분산이 커져 최소분산을 갖는 효율성을 갖지 못합니다.

                  이에 BLUE(Best Linear Umbasied Estimator)가 되지 못합니다.

                - 추정치 분산 추정량이 하향 편의를 갖게 됩니다.

 

  ⑤ 해결  :  WLS(Weight Least Square), GLS regression

 

2번과 3번 가정을 통해 $y_i \sim N(\beta_0 + \beta_1 x_i  ,  \sigma^2)$이 됩니다.

(1) $y_i$ = 상수($\beta_0 + \beta_1 x_i$) + Normal distribution($\varepsilon_i$) =$ Normal distribution

(2) $E(y_i) = E(\beta_0 + \beta_1 x_i + \varepsilon_i) = \beta_0 + \beta_1 x_i + E(\varepsilon_i) = \beta_0 + \beta_1 x_i$

      $Var(y_i) = Var(\beta_0 + \beta_1 x_i + \varepsilon_i) = Var(\varepsilon_i) = \sigma^2$
반응형