본문 바로가기

반응형

전체 글

(28)
(통계 용어) 자유도 (Degree of Freedom)란? 통계를 하면서 정말 많이 보는 것중 하나가 자유도입니다. 자유도... 많이 접하지만 막상 설명하려면 하기 어려운 용어인 것 같습니다. 이 자유도에 대해서 한번 이야기 해보겠습니다 : ) 자유도의 의미 1. (Wikipedia) 통계적 추정을 할 때 표본 자료 중 모집단($x$)에 대한 정보를 주는 독립적인 자료의 수. 2. (나무위키) "변인의 수 빼기 제약" 3. 자유로운 수 자유도의 의미는 위와 같이 여러 방법으로 이야기 할 수 있으며, 구글 검색만 해도 정말 많은 블로그에서 소개하고 있습니다. 제가 이해하기 편한 자유도의 의미는 "확률변수로부터 자유롭게 선택될 수 있는 자료의 수" 입니다. 흔히 자유도를 이야기할 때 자주 사용하는 $\bar{X}$와 $S^2$으로 이야기 해보겠습니다. 1. 표본평균..
VIF > 10의 의미는 무엇일까? VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수라고 합니다. 이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준이며, 주로 10보다 크면 그 독립변수는 다중공산성이 있다고 말합니다. 그렇다면 VIF는 어떻게 계산되고, 10보다 크다는 것은 무엇을 의미할까요? 먼저 VIF는 다음과 같은 식으로 계산됩니다. $$ VIF_i = {1 \over 1 - r_i} $$ $r_i$ = i 번째 변수를 제외한 회귀식의 $R^2$값 위 식을 바탕으로 $VIF_i$ > 10이 의미하는 바를 보면 다음과 같습니다. $r_i$ > 0.9 라는 것의 의미는 i 번째 독립변수가 빠져도 나머지 변수들이 반응 변수($y$)를 90..
(통계 용어) 유의수준 and 유의확률 제 1종 오류($\alpha$) 귀무가설과 대립가설 검정통계량 설명에 앞서 위 개념에 대해 잘 모르신다면, 아래 글을 읽고 오시면 이해하시는데 도움이 될 것입니다 :) → (통계 용어) 제 1종 오류, 제 2종 오류, 검정력 (통계 용어) 검정력 (Power) 유의수준($\alpha$) 제 1종 오류를 범할 최대 허용치 → 이 값은 사전에 "미리" 오류의 허용 범위를 지정하는 것으로서, "관측치와 무관한 값"입니다. 위의 그림에서 "검정통계량값 2"를 갖는 경우 귀무가설($H_0$)이 기각된다고 할 수 있습니다. ※ 유의수준 95% vs 99% 95%의 경우가 99% 보다 $H_1$을 지지하는 검정통계량 값을 많이 허용합니다.$\\$ 99%가 95%보다 $H_0$을 더 옹호합니다. 유의확률 (p-valu..
(통계 용어) 확률 변수, 확률 분포 Etc 확률 실험 (Probability Experiment) 실험의 결과가 여러 가지의 경우러 나타나는 실험 표본 공간 (S, Sample Space) 확률 실험의 결과로 나타날 수 있는 모든 실현치들(outcomes)의 집합 확률 변수 (R.V, Random Variable) 표본공간의 각 원소에 실수값을 대응시켜주는 (일종의) "함수" 확률 분포 (Probability distribution) $x$ 영역에서의 $x$값들이 취활 확률 확률 표본(Random Sample) 확률변수로 값이 주어지기전의 가상의 표본, 대문자 $X$로 사용 예를 들어보자면, 확률 실험 : 동전 2개를 던지는 실험 (실험의 결과가 H : 앞면, T : 뒷면 으로 여러개로 나타납니다.) 표본 공간 : HH, HT, TH, TT 확률..
(통계 용어) 표준 편차 vs 표준오차 표준편차 와 표준오차 통계를 공부하는 사람이라면, 표준편차에 대해 많이 들어봤을 것입니다. 그렇다면 표준오차는 무엇일까요? 표준편차랑 같은 것일까요? 그 차이점에 대해 이야기해보겠습니다. 표준편차 (SD, Standard Deviation) 자료가 평균으로부터 얼마나 퍼져있는지 나타내는 지표 아래의 그림에서 $\sigma$에 해당합니다. 표준오차 (SEM, Standard Error of the Mean) 표본의 평균이 얼마나 모평균에 가까운지 나타내는 지표 여기서, SEM은 두 가지 특징을 갖습니다. 모집단의 변동과 추출된 표본의 개수에 따라 좌우된다. $\\$ 그러나 실제로는 하나의 표본만 추출하므로, $\\$이 표본의 표준편차(SD)와 표본수를 이용하여 표준오차(SEM)를 추정. 표준편차(SD)와 ..
(통계 용어) 검정력 (Power) 검정력이란, 대립가설($H_1$)이 참일 때, 귀무가설($H_0$)을 기각할 확률로서, $power$ 또는 $1-\beta$로 나타낸다. (조금 더 자세한 내용은 이곳을 참고해주세요) 검정력 함수 귀무가설($H_0$)을 기각할 확률을 모수값의 함수로 나타낸 것을 의미합니다. 검정 통계량 가설의 옳고 그름을 판단하는데 기준이 되는 통계량 입니다. 모수에 대한 추정량의 함수로, 검정통계량의 관측값은 데이터가 대립가설($H_1$)을 지지하는 정도를 의미합니다. (그러나 강약은 알 수 없습니다.) 검정통계량의 분포 귀무가설($H_0$)이 사실이라는 전제하에 구하게 됩니다. $H_0 : \mu = 0$ vs $H_1 : \mu =3$ 일 때, $\frac {\bar {X}-\mu}{s/\sqrt..
(통계 용어) 제 1종 오류, 제 2종 오류, 검정력 대립 가설($H_1$) : 주장하고자 하는 가설 귀무 가설($H_0$) : 그것에 반하는 가설 제 1종 오류 - $\alpha$ or $\alpha(\theta)$ 귀무가설($H_0$)이 참일 때, 귀무가설($H_0$)를 기각하는 오류 입니다. 제 2종 오류 - $\beta$ or $\beta(\theta)$ 대립가설($H_1$)이 참일 때, 귀무가설($H_0$)를 기각하는 채택하는 오류 입니다. 검정력 - $power$ or $1-\beta(\theta)$ 대립가설($H_1$)이 참일 때, 귀무가설($H_0$)를 기각하는 오류 입니다. (검정력, 검정 통계량에 관한 내용은 따로 정리하였습니다.) ※ 위 세 값을 식으로 표현하면 다음과 같습니다. 제 1종 오류 : $P(H_0 기각 | H_0 참)$ 제 ..
(통계 용어) 통계량, 추정량, 추정치 통계량 : 표본에 따라 변동하는 확률변수 (→ 표본을 뽑을 때마다 값이 변합니다.) Ex) 표본 평균, 표본 분산 etc 추정량 : 미지의 모수($\theta$)의 추정에 사용되는 통계량 (→ 통계량의 일부입니다.) Ex) $\bar {X} = \sum {X_i \over n}$ 추정치 : 확률 표본의 특정한 관측값에 대한 추정량의 관측값 (→ 즉, 추정량에 실제 관측값을 대입하여 나온 값을 의미합니다.) Ex) $\bar{x} = \sum {x_i \over n}$

반응형