회귀분석에서 오차의 정규성 검정에 자주 사용되는 Q-Q plot은 과연 정규분포에만 사용될까요??
결론부터 말하자면,
아닙니다!
Q-Q plot은 정규분포가 아닌 다른 분포에도 가능하며,
단지 두 확률 분포가 같은 형태인지를 확인하는 방법입니다.
그렇다면 이제부터 더 자세히 알아보겠습니다. :)
Q-Q plot이란?
Quantile - Quantile plot의 약자로, 분위수 대조도 라고 불리기도 합니다.
즉, quantile값을 사용해 두 확률분포를 비교하는 plot을 의미합니다!
그렇다면 quantile은 뭘까요?
quantile이란?
분위수로 불리며, 확률분포를 동일한 확률 간격으로 나누는 절단점을 의미합니다. (Wikipedia)
대표적으로 사분위수(Quartile)가 Quantile의 한 예입니다.
ex) (140, 143, 151, 155, 160)의 5개의 데이터가 있을 때, 20(%)-quantile 값은 5 x 0.2 = 1
즉, 1번째 값인 140이 되는 것입니다.
다시 Q-Q plot
으로 돌아와 얘기해보겠습니다.
Q-Q plot은 quantile을 통해 비교한다고 하였습니다. 그렇다면 어떻게 할까요??
예를 들어 $x$ : 100명 사람의 키 , $y$ : 100명 양팔 길이라 하고 100%-quantile(= 값을 100등분)을 사용한다고 합시다.
그렇다면 Q-Q plot은 ($x_i$ , $y_i$) i = 1,2,$\cdots$,100인 100쌍의 값들을 갖습니다. 여기서,
($x_1$, $y_1$) = (가장 작은 키, 가장 짧은 양팔 길이)
($x_2$, $y_2$) = (2번째 작은 키, 2번째 짧은 양팔 길이)
$\vdots$
($x_100$, $y_100$) = (가장 큰 키, 가장 긴 양팔 길이)가 되는 것입니다.
cf) 여기서 한 가지, 그렇다면 두 값의 개수가 다르다면 어떻게 할까요??
그럴 경우에는 적은 데이터에 대해 중복을 허용하게 됩니다.
즉, $x$는 100개 $y$는 50개인 경우 ($x_1$, $y_1$)($x_2$, $y_1$) ($x_3$, $y_2$) 이런 식으로
$x$의 개수에 맞춰 $y$는 중복되어 사용됩니다.
이런식으로 생긴 값들의 점을 plot위에 찍게 되고,
두 데이터의 확률분포가 비슷할수록 (대각선) 직선에 가까운 형태를 갖습니다.
즉, 분포가 정규분포가 아니라
단지 두 분포가 같은 형태인지를 확인하는 것이 Q-Q plot인 것입니다!
아래의 이미지를 보시면 Normal distribution이 아닌 "Theoretical Quantile vs Sample Quantile"로
이론적인 분포와 샘플의 분포를 비교하는 것으로 표시되어 있습니다.
Q-Q plot 해석
Q-Q plot을 간단히 해석하기 전에 세가지만 고려해주세요
1. $x$축이 이론적 분포 즉, 기준이 되는 분포입니다.
2. $y$축은 비교하고자 하는 분포 즉, 비교대상 분포입니다.
3. 데이터는 크기순으로 나열되어 왼쪽이 작은 값 오른쪽이 큰 값입니다.
이제 해석해보겠습니다.
- 점들이 직선 위에 있다 : 두 분포가 같은 형태이다.
- 특정 점들이 선 위쪽에 있다 : 그 위치에서 비교대상 분포가 기준 분포의 값보다 작은 값을 갖는다.
- 특정 점들이 선 아래쪽에 있다 : 그 위치에서 비교대상 분포가 기준분포의 값보다 큰 값을 갖는다.
이것만 아시면 가능합니다!
'Regression' 카테고리의 다른 글
최우추정법 (MLE, Method of Maximum likelihood Estimation (2) | 2021.04.02 |
---|---|
최소 제곱법 (Least Square Method = OLS) (1) | 2021.04.01 |
VIF > 10의 의미는 무엇일까? (0) | 2021.03.27 |
선형 회귀 모형 가정을 왜 하는가? (1) | 2021.03.15 |
단순회귀 모형 (SLR, Simple Linear Regression) (0) | 2021.03.15 |