계량경제학 강의 6 (한치록)
Updated:
6장 최소제곱을 이용한 가설 검정
- 가설은 항상 모수에 관한 것이다. 모수에 관한 가설을 검정하기 위해 우리는 최소제곱 추정량을 이용할 것이다.
- 주어진 귀무가설에 대해 우리는 일정한 통계량(검정통계량)을 사용한다.
- 이때 귀무가설 하에서 이 통계량의 분포를 알아야 하는데, 이를 위해서는 우선 최소제곱 추정량이 어떤 표집분포를 갖는지 알 필요가 있다.
- 4.10절에서는 4.3절의 가정하에서 최소제곱 추정량의 분포를 구한 바 있다.
6.1 가설들
*선형 회귀모형에서 사람들은 일반적으로 기울기에 관심을 갖는다. *$\beta_1$이 0이라는 것은 독립변수가 종속변수에 평균적으로 영향을 미치지 않음을 의미한다. (귀무가설)
- 경우에 따라서 $X$와 $Y$에 자연로그를 취한후 그 기울기가 1인지 검정해 볼 수 있는데, 이 때 1이면 $Y$가 단위 탄력적이고, 그 절대값이 1보다 작으면 비탄력적, 그리고 절대값이 1보다 크면 탄력적이다.
- 이처럼 $\beta_1=1$ 이라는 가설도 수요공급분석에 흥미로운 귀무가설이다.
$\frac{\hat{\beta_1} - \beta_1}{sd(\hat{\beta_1})} \sim N(0,1)$
- 위 식을 보면, 좌변이 여러 항으로 구성되어 있따.
- $\hat{\beta_1}$은 우리가 표본으로 부터 계산 가능하고
- $\beta_1$은 우리가 모르는 기울기의 참값이며,
- 분모의 표준편차는 우리가 모르는 $\sigma^2$와 설명변수의 표본값인 $x_1, \cdots, x_n$으로 구성되어있다.
- 만약 여기서, $\beta_1 = 1$이라고 귀무가설을 세운다면,
$\frac{\hat{\beta_1} - 1}{sd(\hat{\beta_1})} \sim N(0,1)$
- 위 식을 세운다고 해도 여전히 우리가 모르는 $\sigma$가 포함돼있다.
- 결국, 위 식은 통계량이 아니다.
- 이제 우리는 미지의 $\sigma$를 $s$로 치환하여 검정 통계량을 도출할 것이다.
6.2 검정통계량의 도출
- 통계량이 검정통계량으로 사용되려면, 귀무가설을 충족시키는 모집단으로부터 표본추출을 반복시행할 때,
- 해당 통계량의 확률분포가 무엇인지 알아야 한다.
스튜던트 t 분포
- 1908년 3월 바이오메트리카(Biometrika) 6월호에 스튜던트라는 가명의 저자에 의해 ‘평균의 확률오차’라는 논문이 발표됨
- 저자의 이름은 윌리엄 고셋으로 지금도 남아있는 맥주 기업 기네스 맥주에서 일하던 직원
-
개인 자격으로 학술논문 게재한 것을 금지하여 가명으로 출판
- $Z$가 표준정규분포를 따르고, $X$가 자유도가 $d$인 카이제곱분포를 따르며,
- $Z$와 $X$가 서로 독립일 때
$\frac{Z}{\sqrt{X/d}}$
- 라는 변수는 $d$값을 자유도로 갖는 t 분포를 따르게 된다.
-
해당 t 분포는 자유도가 작을수록 꼬리가 두껍고 (fat tail), 자유도가 클수록 표준 정규분포에 가까워진다
- 검정통계량이 쓸모 있으려면 귀무가설하 그 분포를 알아야 하고,
- t 분포는 4.3절 가정하 (오차평균0, 오차 독립성, 오차 동분산성 등)
-
$\frac{\hat{\beta_1} - \beta_1}{se(\hat{\beta_1})} \sim t_{n-2}$
- 위 결과를 간단히 보면,
- 일단, 주어진 가정 하에 $(\hat{\beta_1} - \beta_1)/sd(\hat{\beta_1})$는 정규분포를 따르고, (위 t 분포 정의에서 $Z$)
- $(n-x) \times [se(\hat{\beta_1})/sd(\hat{\beta_1})]^2=SSR/\sigma^2$인 자유도 $n-2$인 카이제곱분포를 따르기 때문에
$\frac{\hat{\beta_1} - \beta_1}{se(\hat{\beta_1})} = \frac{(\hat{\beta_1} - \beta_1)/sd(\hat{\beta_1})}{\sqrt{[(n-2)se(\hat{\beta_1})^2/sd(\hat{\beta_1})^2]/(n-2)}}$
- 위 식에서 $(n-x) \times [se(\hat{\beta_1})/sd(\hat{\beta_1})]^2$가 $X$고, $(n-2)$가 $d$이므로 t 분포를 따름
6.3 ‘영향없음’이라는 귀무가설 검정
- 만약 우리가 분석을 할 때 변수의 기울기인 $\beta_1 =0$이면 영향이 없음을 의미
- 그러므로, 귀무가설인 $\beta_1 =0$은 계량경제에서 매우 중요
- 위 식을 앞에서 본 식에 적용하면
$\frac{\hat{\beta_1}}{se(\hat{\beta_1})}$
- 그리고 위 통계량은 $t_{n-2}$ 분포를 갖게 된다.
- 이제, 유의수준에 따라 해당 분포에서 기각영역을 정하면 된다.
- 앞 장에서 봤듯이 t분포에서도 계산된 통계량인 t값이 t분포에서 기각영역에 속하면 귀무가설을 기각한다.
- 통계적으로 유의하다고 해서 반드시 독립변수가 종속변수에 실질적으로 중대한 영향을 미친다고 볼 수는 없다.
- 통계적으로 유의해도 영향은 미미할 수 있고, 유의하지 않아도 중대한 영향일수도 있다.
- 통계적 유의성은 해당 계수가 0이라는 귀무가설을 기각한다는 뜻일 뿐이다. 0은 아니라는 것이지 중요한 것과는 별개다.
6.5 신뢰구간
- $\hat{\beta_1} = 0.5422, se(\hat{\beta_1})= 0.0327, n=546$이라고 하자.
- $\frac{\hat{\beta_1} - \beta_1}{se(\hat{\beta_1})} \sim t_{n-2}$ 를 통해 신뢰구간을 구할 수 있다.
- 1.9643은 자유도 544를 갖는 t분포에서 97.5%의 임계값이다
- $P{-1.9643 < \frac{\hat{\beta_1} - \beta_1}{se(\hat{\beta_1})} < 1.9643} = 0.95$
- 위 식에서 세 변에 $se(\hat{\beta_1})$를 곱하고, 다시 -1을 곱한 다음에
- 좌우 위치를 바꿔주고 (부동호 방향도 함께)
- 세 변에 $\hat{\beta_1}$을 더해주면
- $P{\hat{\beta_1}-1.9643se(\hat{\beta_1}) < \beta_1 < \hat{\beta_1} + 1.9643se(\hat{\beta_1})} = 0.95$
- 결국, $0.5422 \pm 1.9643 \times 0.0327 = 0.4780, 0.6064$
- 신뢰구간은 주어진 자료로부터 계산할 수 있는 통계량이다.
- $\beta_1$의 95% 신뢰구간은 표본추출을 시행할 때마다 매번 변하며,
- 이 실험을 무한히 반복하면 $\beta_1$의 참값을 95% 확률로 포함하게 된다.
- 신뢰구간을 구하면, 우리는 이를 통해서도 가설검정을 할 수 있다.
- 만약 $H_0:\beta_1 = 0$이라고 귀무가설이 설정되고 5%의 유의수준에서 검정하고자 하려면
- 0이 95% 신뢰구간에 속해있는지를 보면 된다.
- 이는 우리가 유의수준, 기각영역을 다른 관점에서 바라본 것일 뿐 결과적으로 동일하다
- 왜냐면 우리는 신뢰구간 자체를 검정통계량으로부터 구했기 때문이다.
6.6 $beta_1 = a$라는 귀무가설의 검정
- 일반적으로 어떤 주어진 값 (a)에 대해 귀무가설이 $H_0: \beta_1 = a$라면 우리는 아래와 같은 검정통계량을 만들어낸다.
- $\frac{\hat{\beta_1} - a}{se(\hat{\beta_1})} \sim t_{n-2}$
- 흔히 생각할 수 있는 이런 상황으로는 가격탄력도 상상 가능
- 해당 상황도 수동으로 계산하여 진행 가능하지만 대부분의 통계 프로그램은 $\beta_1 = 0$을 가정하므로 수동 계산시 실수할 가능성이 높다
별도 계산없이 $H_0:\beta_1 = a$를 검정하는 방법
- $H_0: \beta_1 = 1$이라고 하자. 이걸 다시 쓰면 $\beta_1 - 1=0$이 된다.
- 여기서 $\theta = \beta_1-1$이라고 하면, 우리의 귀무가설은 $\theta = 0$이 되고, $\beta_1 = \theta+1$이 된다. 이 식을 우리 회귀식에 대입하면
- $y=\beta_0 + (\theta+1)x +u = \beta_0 + \theta x + x +u$가 되고, 계수가 없는 $x$를 좌변으로 넘기면
- $y-x = \beta_0 + \theta x + u$가 된다.
- 결국, $y-x$를 종속변수로 $x$를 독립변수로 하여 회귀 분석을 진행하면 된다.
- 예로 집값 모형을 보면, $log(price) = \beta_0 + \beta_1 log(lotsize) + u$
- 귀무가설로서 가격탄력도가 단위 탄력이라고 할 때 ($H_0:\beta_1 = 1$), 위에서 본 식을 대입하면
- $log(price) - log(lotsize) = \beta_0 + \theta log(lotsize)+u$가 된다. 여기서 price/lotsize = unitprice라 할 때
- $log(unitprice) = \beta_0 + \theta log(lotsize) + u$ 가 된다.
6.7 설명변수 표본값 고정의 완화
- 사실, 설명변수 표본값 고정은 현실과는 조금 맞지 않는다. 우리는 표본을 무작위로 추출하고 우연히 설명변수의 값을 갖게 되기 때문이다.
- 그럼에도 우리는 설명변수 표본값 고정을 가정하였고, 해당 가정하에서 $\hat{\beta_1}$이 정규분포를 갖고, 검정 통계량까지 도출했다.
-
그렇다면 설명 변수 표본값이 고정되지 않는다면 우리가 지금까지 본 결과들의 유용성이 떨어질까? 그렇지 않다.
- 해당 경우를 생각해보자, $x_1,\cdots, x_n$의 값들을 무작위로 추출하고, 각 추출값들에 대해 $x_1, \cdots, x_n$의 값들을 고정시킨채 $u_1, \cdots, u_n$의 추출을 반복한다.
- 두번째 단계 상상실험($x_1, \cdots, x_n$ 값들을 고정시키고 표본추출 진행)으로부터 $(\hat{\beta_1} - \beta_1)/se(\hat{\beta_1}) \sim t_{n-2}$라는 결과를 얻는다. (설명변수 표본값 고정)
- 그런데 생각해보면, 모든 가능한 $x_1, \cdots, x_n$에 대해 위 값을 얻게 될 것이고 (왜냐면, 무작위로 추출하지만 추출된 후 고정하여 잔차를 무작위 추출하기 때문, 지금까지 우리가 가정한 ‘설명변수 표본값 고정’)
- 따라서 $x_1, \cdots, x_n$의 값들을 무작위로 추출해도 우리는 동일한 $t_{n-2}$분포를 얻을 수밖에 없는 것이다.
- 결국, 해당 실험은 2개 표본을 무작위로 반복 추출하는 것과 동일함을 보여준다. (2개 동시 무작위 = 1개 추출 후 고정후 다른 1개 무작위 추출 반복)
- 위의 논의가 성립되려면 모든 주어진 $x_1, \cdots, x_n$의 값에 대해 $u_1, \cdots, u_n$의 분포가 동일해야 한다. 다시 말해 $u$와 $X$가 확률적으로 독립이어야 한다.
- 설명변수 표본값 고정의 가정을 완화시키고, 어떤 모집단에서 모든 변수들을 임의로 추출한다고 할 때,
- 우리가 예전에 했던 가정들은 모두 $x_1, \cdots, x_n$이 주어질 때의 ‘조건부’로 바뀐다.
- 조건부 오차평균 0: 모든 $i$에서 $E(u_i I x_1, \cdots, x_n) = 0$
- 조건부 동분산성: 모든 $i$에서 $var(u_i I x_1, \cdots, x_n) = \sigma^2$
- 조건부 오차간 독립
- 조건부 정규분포: $u_iIx_1, \cdots, x_n \sim N(0, \sigma^2)$
- 결국, 설명변수와 오차항이 독립이고, 오차항이 정규분포를 갖게 되면 되는 것이고,
- 설명변수와 오차항이 독립이라면 검정에 필요한 지금까지의 결과들을 수정없이 활용할 수 있게 된다.