본문 바로가기

반응형

Regression

(6)
Q-Q plot 정규분포에만 사용할까?? 회귀분석에서 오차의 정규성 검정에 자주 사용되는 Q-Q plot은 과연 정규분포에만 사용될까요?? 결론부터 말하자면, 아닙니다! Q-Q plot은 정규분포가 아닌 다른 분포에도 가능하며, 단지 두 확률 분포가 같은 형태인지를 확인하는 방법입니다. 그렇다면 이제부터 더 자세히 알아보겠습니다. :) Q-Q plot이란? Quantile - Quantile plot의 약자로, 분위수 대조도 라고 불리기도 합니다. 즉, quantile값을 사용해 두 확률분포를 비교하는 plot을 의미합니다! 그렇다면 quantile은 뭘까요? quantile이란? 분위수로 불리며, 확률분포를 동일한 확률 간격으로 나누는 절단점을 의미합니다. (Wikipedia) 대표적으로 사분위수(Quartile)가 Quantile의 한 예입..
최우추정법 (MLE, Method of Maximum likelihood Estimation 저번에 최소제곱법으로 회귀계수 $\beta_0, \beta_1$을 추정했다면 (최소제곱법 내용은 여기!) 이번에는 최우추정법으로 추정하는 방법에 대해 알아보겠습니다! 최우추정법 MLE는 어떤 모수가 주어졌을 때, 원하는 값들이 나올 가능도를 최대로 만드는 모수를 선택하는 방법. 이론적으로 가장 가능성이 높은 모수를 찾는 방법 우선 최우추정법을 설명하기 전 알아야 할 사항이 있습니다. 1. Likelihood 최우추정법의 Likelihood란 "가능도 또는 우도"라고 하며 다음과 같은 의미를 갖습니다. ① 어떤 관측 값이 관측되었을 때 이것이 어떤 확률분포에서 왔을지에 대한 확률 L(확률분포 | 관측값) ② 주어진 표집 값에 대한 모수의 가능도는 이 모수를 따르는 분포가 주어진 관측 값에 대해 부여하는 확..
최소 제곱법 (Least Square Method = OLS) 최소제곱법이란, "Least Square Method" or "Ordinary Least Square"으로 불리며 오차를 최소화 시키는 방법으로 회귀 계수($\beta_0, \beta_1$)를 추정하는 기법입니다. 단순 선형 회귀(이하 회귀)란 설명변수와 반응변수간의 관계를 선형식으로 나타내는 방법입니다. $$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$$ $$\varepsilon_i \sim N(0, \sigma^2), \ i = 1,2,\cdots,n$$ 하지만 두 변수간의 관계를 정확히 일직선으로 나타낼 수 없으니, 우리는 관계를 가장 잘 나타낼 수 있는 $b_0, b_1$을 추정해야 하고 이 $b_0, b_1$을 추정하는 방법 중 하나가 바로 최소제곱법(Least..
VIF > 10의 의미는 무엇일까? VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수라고 합니다. 이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며, 주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말합니다. 그렇다면 VIF는 어떻게 계산되고, 10보다 크다는 것은 무엇을 의미할까요? 먼저 VIF는 다음과 같은 식으로 계산됩니다. $$ VIF_i = {1 \over 1 - r_i} $$ $r_i$ = i 번째 변수를 제외한 회귀식의 $R^2$값 위 식을 바탕으로 $VIF_i$ > 10이 의미하는 바를 보면 다음과 같습니다. $r_i$ > 0.9 라는 것의 의미는 i 번째 독립변수가 빠져도 나머지 변수들이 반응 변수($y$)를 90..
선형 회귀 모형 가정을 왜 하는가? 선형 회귀모형을 공부하다 보면 반드시 보게 되는 것이 회귀모형의 "가정"입니다. 물론 이 가정에 대해 아 그렇구나 하고 넘어가도 되지만, 왜 가정하는지 한 번 알아보는 것도 좋을 것 같습니다. 그렇다면 왜 가정을 하고 왜 그렇게 가정하는지를 알아보겠습니다. 가정을 하는 이유 먼저 회귀분석의 목적을 알아야 합니다. 회귀 분석의 목적은 설명변수 $x$와 반응변수 $y$의 관계를 선형식으로 나타내고 싶은 것입니다. 그러나 현실적으로 변수 간의 관계를 선형식으로 나타내는 것이 힘드므로, 여러 가정을 통해 선형식으로 만들어 내는 것입니다. 가정의 종류 1. $x, y$는 선형 관계 2. $x$ : 오차 없이 측정 가능한 수학 변수 $y$ : 오차를 수반하는 확률 변수(Random Variable) 3. $\var..
단순회귀 모형 (SLR, Simple Linear Regression) 회귀분석이 연속형 변수들에 대해 독립 수와 종속변수 사이의 상관관계를 나타내는 것이라면, 단순 회귀 분석은 독립 변수가 단일 개일 때의 분석을 의미한다. (Wikipedia) $$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \\ \varepsilon_i \sim N(0, \sigma^2)$$ 목적 $x, y$ 의 관계를 "최대한" 위와 같은 선형 직선의 관계로 나타내고자 하는 것입니다. 그러기 위해 의 관계를 $x, y$ 잘 설명하는 $\beta_0 , \beta_1$을 알아내야 합니다. 하지만 이 값은 실제로 알 수 없는 값으로 최대한 비슷한 값인 $b_0, b_1$을 추정하고 사용하여 위 식과 가장 비슷한 식을 알아내고자하는 것이 목적입니다. $$y_i = \beta..

반응형