본문 바로가기

Regression

Q-Q plot 정규분포에만 사용할까??

반응형

회귀분석에서 오차의 정규성 검정에 자주 사용되는 Q-Q plot은 과연 정규분포에만 사용될까요??

 

결론부터 말하자면,

 

아닙니다!

Q-Q plot은 정규분포가 아닌 다른 분포에도 가능하며,

단지 두 확률 분포가 같은 형태인지를 확인하는 방법입니다.

 

 


그렇다면 이제부터 더 자세히 알아보겠습니다. :)

 

Q-Q plot이란? 

Quantile - Quantile plot의 약자로, 분위수 대조도 라고 불리기도 합니다.

즉, quantile값을 사용해 두 확률분포를 비교하는 plot을 의미합니다!

 

그렇다면 quantile은 뭘까요?

 

 

quantile이란?

분위수로 불리며, 확률분포를 동일한 확률 간격으로 나누는 절단점을 의미합니다. (Wikipedia) 

대표적으로 사분위수(Quartile)가 Quantile의 한 예입니다.

   ex) (140, 143, 151, 155, 160)의 5개의 데이터가 있을 때,  20(%)-quantile 값은 5 x 0.2 = 1

        즉, 1번째 값인 140이 되는 것입니다.

 

 

다시 Q-Q plot

으로 돌아와 얘기해보겠습니다.

 

Q-Q plot은 quantile을 통해 비교한다고 하였습니다. 그렇다면 어떻게 할까요??

 

예를 들어 $x$ : 100명 사람의 키 ,  $y$ : 100명 양팔 길이라 하고 100%-quantile(= 값을 100등분)을 사용한다고 합시다.

그렇다면 Q-Q plot은 ($x_i$ , $y_i$) i = 1,2,$\cdots$,100인 100쌍의 값들을 갖습니다. 여기서,

($x_1$, $y_1$) = (가장 작은 키, 가장 짧은 양팔 길이)

($x_2$, $y_2$) = (2번째 작은 키, 2번째 짧은 양팔 길이)

   $\vdots$

($x_100$, $y_100$) = (가장 큰 키, 가장 긴 양팔 길이)가 되는 것입니다.

 

   cf) 여기서 한 가지, 그렇다면 두 값의 개수가 다르다면 어떻게 할까요??

        그럴 경우에는 적은 데이터에 대해 중복을 허용하게 됩니다.

        즉, $x$는 100개 $y$는 50개인 경우 ($x_1$, $y_1$)($x_2$, $y_1$) ($x_3$, $y_2$) 이런 식으로

        $x$의 개수에 맞춰 $y$는 중복되어 사용됩니다.

 

이런식으로 생긴 값들의 점을 plot위에 찍게 되고,

두 데이터의 확률분포가 비슷할수록 (대각선) 직선에 가까운 형태를 갖습니다.

 

즉, 분포가 정규분포가 아니라

단지 두 분포가 같은 형태인지를 확인하는 것이 Q-Q plot인 것입니다!

 

아래의 이미지를 보시면 Normal distribution이 아닌 "Theoretical Quantile vs Sample Quantile"로

이론적인 분포와 샘플의 분포를 비교하는 것으로 표시되어 있습니다.

 


Q-Q plot 해석

Q-Q plot을 간단히 해석하기 전에 세가지만 고려해주세요

   1. $x$축이 이론적 분포 즉, 기준이 되는 분포입니다.

   2. $y$축은 비교하고자 하는 분포 즉, 비교대상 분포입니다.

   3. 데이터는 크기순으로 나열되어 왼쪽이 작은 값 오른쪽이 큰 값입니다.

이제 해석해보겠습니다.

 

 

- 점들이 직선 위에 있다  :  두 분포가 같은 형태이다.

- 특정 점들이 선 위쪽에 있다 : 그 위치에서 비교대상 분포가 기준 분포의 값보다 작은 값을 갖는다.

- 특정 점들이 선 아래쪽에 있다 :  그 위치에서 비교대상 분포가 기준분포의 값보다 큰 값을 갖는다.

 

이것만 아시면 가능합니다!

반응형