본문 바로가기

Regression

단순회귀 모형 (SLR, Simple Linear Regression)

반응형
회귀분석이 연속형 변수들에 대해 독립 수와 종속변수 사이의 상관관계를 나타내는 것이라면, 
단순 회귀 분석은 독립 변수가 단일 개일 때의 분석을 의미한다. (Wikipedia)

$$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i \\
\varepsilon_i \sim N(0, \sigma^2)$$

목적

 

$x, y$ 의 관계를 "최대한" 위와 같은 선형 직선의 관계로 나타내고자 하는 것입니다.

 

그러기 위해 의 관계를 $x, y$ 잘 설명하는 $\beta_0 , \beta_1$을 알아내야 합니다.

하지만 이 값은 실제로 알 수 없는 값으로 최대한 비슷한 값인 $b_0, b_1$을 추정하고 사용하여 위 식과 가장 비슷한 식을 알아내고자하는 것이 목적입니다.

$$y_i = \beta_0 + \beta_1 x_i + \varepsilon_i$$

$$↓$$

$$\hat{y_i} = b_0 + b_1 x_i$$

 

가정

 

그러나 단순회귀 모형의 데이터는 아래의 그림처럼 생겼기에 완벽하게 선형식으로 표현할 수 없습니다.

그래도 최대한 선형식 관계로 나타내고 싶기에 몇 가지 가정을 만들어 선형식을 만들어냅니다.

 

(오차를 "왜? 하필!" 이렇게 가정하는지에 대해서는 따로 포스팅하겠습니다. Here!)

 

1. $x, y$ 는 선형 관계

 

2. $x$ : 오차 없이 측정 가능한 수학 변수$y$ : 오차를 수반하는 확률 변수(Random Variable)

 

3. $\varepsilon_i \sim N(0, \sigma^2), \ iid$
    · $\varepsilon_i \sim Normal$   :  오차(= $\varepsilon_i$) 는 정규분포를 따른다.  → 정규성 (Normality) 

                                    

    · $var(\varepsilon_i) = \sigma^2$   :   오차의 분산이 $x_i$와 관계없이 일정하다. 등분산성 (Homoscedasicity)

                                               

    · $\ Cov(\varepsilon_i , \varepsilon_j) = 0 \  \ i≠j$   :  오 차 항은 서로 독립이다.  독립성 (Independent)

                                       

(+ 추가)

· $x$ 의 샘플 수는 2개 이상 

· $Cov(X_i , X_j) = 0 \ (i!=j)$  in  Multi-Regression

 

 

추정

 

$\beta_0 , \beta_1$는 통계 용어로 모수(Parameter)에 해당하는 값으로, 실제로는 알 수 없는 값입니다.

그러나 회귀분석은 이 $\beta_0 , \beta_1$을 알고 싶어 하는 것으로 진짜 $\beta_0 , \beta_1$ 값은 알 수 없으니 이 값과 비슷한 값을 "추정"하여 나온 값인

$b_0 , b_1$을 사용합니다.

$$\hat {\beta_0} = b_0 \  , \  \hat {\beta_1} = b_1$$

 

그리고 이 $b_0 , b_1$을 추정하는 가장 유명한 방법은 세 방법이 있습니다. (자세한 내용은 이곳에 있습니다.)

 

1. Ordinart Least Squares Method (= OLS,  최소제곱법)

2. Maximum Likelihood Estimation Method (= MLE,  최대우도 추정법)

3.  Method of Moment Estimation (= MOM,  적률 추정법)

 

 


 

반응형