반응형
VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수라고 합니다.
이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며,
주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말합니다.
그렇다면 VIF는 어떻게 계산되고, 10보다 크다는 것은 무엇을 의미할까요?
먼저 VIF는 다음과 같은 식으로 계산됩니다.
$$ VIF_i = {1 \over 1 - r_i} $$
$r_i$ = i 번째 변수를 제외한 회귀식의 $R^2$값
위 식을 바탕으로 $VIF_i$ > 10이 의미하는 바를 보면 다음과 같습니다.
$r_i$ > 0.9 라는 것의 의미는 i 번째 독립변수가 빠져도 나머지 변수들이 반응 변수($y$)를 90% 이상 설명한다는 것입니다.
즉, $VIF_i$ > 10은 i 번째 독립변수 없이도 충분히 반응변수($y$)를 잘 설명할 수 있으므로,
i 번째 독립변수는 없어도 된다는 것을 의미합니다.
반응형
'Regression' 카테고리의 다른 글
Q-Q plot 정규분포에만 사용할까?? (1) | 2021.04.28 |
---|---|
최우추정법 (MLE, Method of Maximum likelihood Estimation (2) | 2021.04.02 |
최소 제곱법 (Least Square Method = OLS) (1) | 2021.04.01 |
선형 회귀 모형 가정을 왜 하는가? (1) | 2021.03.15 |
단순회귀 모형 (SLR, Simple Linear Regression) (0) | 2021.03.15 |