계량경제학 강의 5 (한치록)
Updated:
- 관측에 기초하여 모집단의 속성에 대하여 추론(inference)하는 것은 계량 분석에 매우 중요하다.
- 본 장에서는 표본을 관측함으로써 얻은 정보를 이용하여 모집단의 속성에 대하여 어떤 결론을 이끌어내는 통계적 검정의 기초내용을 다룬다.
5.1 통계적 검정의 기초
- 통계적 검정을 한 마디로 표현하면 “나는 하나의 표본을 관측했는데, 이로부터 모집단의 속성에 관한 가설에 대해서 이러저러한 결론을 내린다”는 것이다.
- 통계적 검정은 4가지 단계로 이뤄진다.
- 무엇을 검정할지 정한다. 즉, 가설을 설정한다.
- 무엇을 보고 판단을 내릴지 정한다. 즉, 검정통계량을 정한다.
- 검정통계량이 어떤 값을 가질 때 가설을 기각할지 정한다. 즉, 기각영역을 정한다.
- 위의 2에서 정한 검정통계량의 값을 주어진 자료에 대하여 계산하고, 이 값이 3의 기각영역에 속하면, 1의 가설을 기각하고 그렇지 않으면 가설을 기각하지 않는다
5.2 가설 설정
- 가설 검정 자체가 자료로부터 모집단 속성을 추론하는 것이므로, 가설은 당연히 모집단과 관련된다.
- 통계적으로 직접 검정할 수 잇는 가설은 ‘이러저러한 모숙값이 이러저러한 값과 같다’는 식으로 표현된다.
- 예를 들어, 교사 1인당 학생수가 학생의 학업성취도에 미치는 영향은 0과 동일하다’는 가설은 검정 가능하다
- ‘영향을 미치지 않는다’는 가설도 직접 검정할 수 있다
- 직접 검정할 수 있는 가설은 등호로 표시되고 ‘귀무가설(null hypothesis)’라 한다.
- 귀무가설이 틀리다는 판단을 내릴 때 역으로 받아들이게 되는 가설은 ‘대립가설(alternative hypothesis)’라고 한다.
- 우리는 귀무가설을 기각함으로써 간적접으로 대리가설을 받아들이고, 귀무가설을 채택함으로써 간접적으로 대립가설을 버린다.
- 귀무가설을 받아들인다고 하여 영가설(귀무가설)이 옳다고 하는 것은 아니다.
- 다만, 영가설이 틀렸다고 하지 못할 뿐이다.
- 예를 들어, 평균이 0이라는 영가설을 채택한다고 하여 평균이 0이라는 뜻은 아니고, “평균이 0이 아니라는 증거가 없다”는 뜻이다.
- 판결을 예로 들면, 유죄가 내려지지 않았다고 하여 그 사람이 무죄인 것은 아니다. 다만 “유죄인 증거가 없다”는 것이다.
- 통계적 검정은 모수의 참값에 관한 것으로 자료로부터 모수의 참값을 정확히 알 방법은 없다.
- 통계적 검정은 그 본성상 부정확하며,
- 그나마 등식으로 표현된 귀무가설 외에는 합리적으로 겁정할 방법이 없다.
- 그래서, 등호로 표현된 가설을 ‘소중히 여기고’ 이를 너무 경솔하게 기각하지 않으려고 하는 것이다.
- 요약하자면 가설은 모수로써 표현되고, 귀무가설은 등호로, 대립가설은 대부분 부등호로 표현되며 귀무가설과 대립가설은 상호 배타적이지만 전 영역을 포괄할 필요는 없다. 또한 우리는 대립가설이 더 옳다는 충분한 확신이 있어야만 귀무가설을 기각한다.
5.3 검정통계량
- 통계량이란 표본이 주어지면 계산할 수 있는 공식을 뜻한다.
- 통계적 검정에서 사용하는 통계량을 검정통계량이라고 한다.
- 검정통계량으로 사용할 통계량은 다음 두 가지 조건을 충족시켜야 한다.
- 귀무가설이 옳을 때 이 통계량이 어떤 표집분포(표본추출 반복시행 시 분포)를 갖는 지 알아야 한다.
- 귀무가설이 반드시 등호로 표현되야 한다고 했는데, 그 이유가 바로 귀무가설하에 검정통계량의 분포를 알아야 하기 때문이다.
- 대립가설이 옳을 때 이 통계량이 어떤 행태를 보이는 지 알아야 한다. 이정보가 있어야 기각영역을 설정할 수 있다.
- 귀무가설이 옳을 때 이 통계량이 어떤 표집분포(표본추출 반복시행 시 분포)를 갖는 지 알아야 한다.
5.4 검증의 크기와 힘
- 만일 모수가 귀무가설을 충족시키면 검정통계량은 ~한 행태를 보이고,
- 만일 모수가 대립가설을 충족시키면 검정통계량은 또 ~한 행태를 보이는 데
-
실제 관측된 검정통계량의 값이 ~하므로 우리는 귀무가설 또는 대립가설이 맞다고 판단하는 것
- 1종 오류: 실제로는 귀무가설이 옳음에도 불구하고 귀무가설을 기각
-
2종 오류: 귀무가설이 틀리고 대립가설이 옳음에도 귀무가설을 채택
- 검정력: 모집답에서 성립하지 않는 잘못된 귀무가설을 기각할 확률을 뜻함 (제대로 귀무가설 기각할 확률)
-
검정의 크기: 귀무가설을 잘못 기각할 확률 (무한히 많은 시행 중 1종 오류를 범하는 비율)
- 통계적 검정에서는 검정의 크기를 일정한 수준 (유의수준)으로 유지
- 예를 들어,유의수준(검정의 크기)이 1%로 설정되면, 귀무가설이 옳은 경우에도 100번에 1번 꼴로 귀무가설을 기각하는 오류를 범한다. 여기서 1%의 확률은 작은 것으로 인식되며, 1%의 유의 수준을 사용하는 검정은 보수적으로 인식된다.
5.5 기각영역
- 통계적 검정에서 판단의 기준은 검정통계량의 값이 일정한 구역(기각영역)에 속하느냐 그렇지 않느냐이다.
- 실제 자료로부터 계산한 검정통계량의 값이 이 기각영역에 속하면 귀무가설을 기각한다.
- 귀무가설을 기각할지 채택할지 판단을 내리기 위한 기준(기각영역)은 자료로부터 검정통계량의 값을 계산하기 이전에 미리 결정되어 있어야 한다.
# 누적분포함수 - 기각영역 판단시 도움
pnorm(1.96) # 0.975, 정규분포
pt(1.6628, 86) # 0.900, 자유도가 86인 t 분포
# 분위수 함수 - 기각영역 설정시 도움
qnorm(0.01) # 확률값에 해당하는 변수값 도출 -2.326(정규분포) pnorm의 역함수, pnorm(-2.326) = 0.01
qt(0.95, 30) # 확률값에 해당하는 변수값 도출 1.697(t분포)) pt의 역함수, pt(1.697) = 0.95
# 위와같이 qf, pf (F분포), qchisq, pchisq(카이분포) 함수도 존재
# 다만 귀무가설로부터 멀어질수록 F분포는 0에서 멀어지고, 카이분포는 0에 가까워진다.
- 검정의 크기를 유의 수준과 일치하도록 하는 기각 영역 설정
- 우리의 목적은 대립가설이 옳으면 가능한 한 귀무가설을 기각하도록 (즉, 대립가설하에서 검정력이 극대화되도록) 기각영역 선택
- 이를 위해서는 대립가설이 옳을 때 검정통계량이 취할 가능성이 높은 값의 영역에 기각영역 설정
- 만일 대립가설하에서 검정통계량이 양의 값을 가질 확률이 높으면, 기각영역을 오른쪽 꼬리 부분에 둔다.
- 만일 대립가설하에서 검정통계량이 음의 값을 가질 확률이 높으면, 기각영역을 왼쪽 꼬리 부분에 둔다.
- 만일 대립가설하에서 검정통계량이 양 또는 음의 값을 가질 확률이 높으면 기각영역을 양쪽 꼬리 부분에 균등하게 둔다.
- 유의 수준이 바뀌거나 귀무가설하에서 통계량의 분포가 바뀌면 기각영역의 구간은 변경되지만,
- 대립가설이 바뀌지 않는 한 기각영역의 방향은 바뀌지 않는다.
5.6 귀무가설의 기각과 채택
- 유의수준 5%로 ~한 귀무가설을 검정하라고 하는 것은, ‘귀무가설을 기각할 때 그러한 기각이 5%정도는 잘못되는 것을 용납해줄테니 귀무가설이 틀렸다고 할 수 있는 지 얘기해봐라’는 뜻
- 즉, ‘귀무가설이 틀렸다고 판단한다. 그런데 사실은 귀무가설이 참일 확률, 즉 기각이 잘못될 확률은 5% 이내이다’
5.7 귀무가설을 채택하는가 기각하지 못하는가?
- 귀무가설을 기각하지 못할 때, 우리는 ‘귀무가설을 기각하지 못한다’고 하기도 하고, ‘귀무가설을 채택한다’고 하기도 한다.
- 그러나, ‘귀무가설을 채택한다’고 표현하는 경우에도 해갈 귀무가설이 옳다는 걸 의미하는 건 아니다.
- 단순히, ‘귀무가설과 대립가설 중 하나를 택한다면 귀무가설을 택한다’는 것이다.
- 달리말하면, ‘자료에서는 $\beta_1$이 0이 아니라는 증거를 보지 못했다’는 것이다.
- 그러므로 예를 들어 $\beta_1=0$ 이면서 $\beta_1 = 1$ 이라는 귀무가설을 채택하는 거도 가능하다.
- 물론, 0이면서 1이라는 얘기는 아니다.