본문 바로가기

Regression

VIF > 10의 의미는 무엇일까?

반응형

VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수라고 합니다.

 

이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며,

주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말합니다.

 

그렇다면 VIF는 어떻게 계산되고, 10보다 크다는 것은 무엇을 의미할까요?

 


먼저 VIF는 다음과 같은 식으로 계산됩니다.

 

$$ VIF_i = {1 \over 1 - r_i} $$

 

$r_i$ = i 번째 변수를 제외한 회귀식의 $R^2$값

 

 


 

위 식을 바탕으로 $VIF_i$ > 10이 의미하는 바를 보면 다음과 같습니다.

 

 

$r_i$ > 0.9 라는 것의 의미는 i 번째 독립변수가 빠져도 나머지 변수들이 반응 변수($y$)를 90% 이상 설명한다는 것입니다.

 

 

즉, $VIF_i$ > 10은  i 번째 독립변수 없이도 충분히 반응변수($y$)를 잘 설명할 수 있으므로,

 i 번째 독립변수는 없어도 된다는 것을 의미합니다.

반응형