계량경제학 강의 7 (한치록)

Updated:

2 minute read

7.1 일관성의 의미

  • 우리가 어떤 통계량(예: 동전 앞 나올 확률)이 어떤 구간을 고려하든 $n$이 증가하면서 그 구간에 속할 확률이 1에 수렴할 때,
  • 우리는 해당 통계량을 일관되게(consistently) 추정한다고 하고
  • 이 때 그 통계량을 일관된 추정량(consistent estimator)라고 한다.
    • $\lim_{n \to \infty}P(\mid X-c \mid \le \varepsilon) = 1$
  • 일관되게 추정하기 어려운 비일관적인 추정량은 믿을 수 없기 때문에, 일관성은 모든 추정량이 가져야 할 기본적 요소다

7.2 최소제곱 추정량의 일관성

  • 최소제곱 추정량(예: 기울기)의 분산도 표본크기($n$)가 증가한다면 줄어든다.
    • 분산의 분모가 $\sum_{i=1}^{n}{(x_i- \bar{x})^2}$ 이므로 $n$이 커진다면 당연히 커질 수밖에 없다.
    • 이에 반해, 분자인 $\sigma^2$는 그대로 이므로 결국, 분산은 0으로 수렴한다.
  • 또한, 표본추출 반복시행시 추정량의 평균이 참값과 동일하고 $n$이 커짐에 따라 분산이 0에 가까워지면, 추정량이 참값으로부터 일정 거리 이상을 벗어날 확률은 줄어들게 된다.
  • 결국, 최소제곱 추정량은 모집단 파라미터의 일관된 추정량(consistent estimator)라고 할 수 있다. (일치 추정량이라고도 함)

7.3 최소제곱 추정량이 일관성을 가질 조건

  • 앞의 최소제곱 추정량의 일관성은 몇 가지 가정을 필요로 하는데,
    • 비특이성, 설명변수 표본값 고정, 오차평균0의 가정하에 ‘최소제곱 추정량의 평균은 참값과 동일하므로’
    • $n$이 증가할 때 분산이 0으로 수렴하게 하면 되는데,
      • 분산 공식 도출을 위해서는 동분산과 오차간 독립 가정이 필요하다
      • 추가로 분산의 분모가 $n$이 커지면서 무한히 증가한다고 가정 (특수한 경우외에는 모두 성립)

7.4 정규분포의 가정이 맞지 않는다면?

  • 우리는 최소제곱 추정량에 대한 통계적 검정을 시행할 때, 최초로 오차항이 정규분포를 갖는다는 가정을 했다.
    • 오차항 $\sim$ 정규분포 $\to$ t 통계량 $\sim$ t분포 $\to$ t 검정 진행
    • 위에서 중간의 t통계량으로 넘어가는 부분에 대해서는
      1. $\hat{\beta_1}$의 분포는 오차항이 정규분포를 따르기 때문에 정규분포를 따르게 된다. (자세한 설명 4장 해당 부분 설명 참고)
      2. $\hat{\beta_1}$의 분포가 표준정규분포를 따를 때의 통계량에서 분모를 $sd(\hat{\beta_1})$에서 우리가 계산 가능한$se(\hat{\beta_1})$로 변경하고
      3. $\frac{Z}{\sqrt{X/d}}$라는 변수가 t분포를 따른다고 할 때 ($Z$가 표준정규분포를 따르고, $X$가 자유도가 $d$인 카이제곱분포를 따를 때)
      4. $\frac{\hat{\beta_1} - \beta_1}{se(\hat{\beta_1})} \sim t_{n-2}$가 된다. (자세한 설명은 6장 해당 부분 설명 참고)
  • 위에서 오차항이 정규분포를 따른다는 가정으로부터 모든 게 시작됐기 때문에, 만약 이 가정이 틀리면 우리는 제대로 된 검정을 할 수가 없다.
  • 그럼, 오차항이 정규분포를 갖는 다는 것은 어떻게 검정할 것인가? 바로, Jarque-Bera 검정이다.
    • 우리는 오차항 자체를 관측할수는 없으므로 최소제곱으로부터 나온 잔차를 가지고 작업한다.
  • 그러나, 오차항의 분포가 정규분포가 아니면 어떡할 것인가? 그래도 상관없다는 것을 ‘중심극한정리’가 알려준다.

7.5 중심극한정리

  • 어떤 분포든 동일한 모집단에서 숫자 2개, 10개, 100개를 무작위로 추출하여 평균값을 기록한다고 하자
    • 그럼 그 분포의 모양은 어떤 모양을 띌까?
    • 정답은 정규분포를 근사하게 된다는 것이다.
  • 카이, 푸아송 분포에서 n개 추출한 분포 그림에 대해 추가 예정
  • 결국, 중심극한정리란?
    • 모집단의 분포가 무엇이든 관계 없이
    • 무작위로 뽑은 많은 숫자의 평균을 구하면
    • 해당 평균의 표집분포가 정규분포에 가까워 진다는 것이다.
  • 중심극한 정리는 ‘모집단의 분포의 분산이 유한하다’면 성립하는 강력한 정리
  • 좀 더 엄밀히 말하면,
    • $X_1, \cdots, X_n$이 어떤 모집단에서 추출한 표본이고 (무작위로 뽑은 숫자들)
    • 그 모집단의 분산이 유한하다면
    • $n^{-1}\sum_{i=1}^{n}{X_i}$의 표집분포는 $n$이 커질수록 정규분포에 근사한다 (무작위 추출한 숫자들의 평균의 표집분포는 정규분포 근사)
    • 조금 더 엄밀히 하면,
      • $X_i$의 평균이 $\mu$이고 분산이 $\sigma^2$일 때, $\sqrt{n}(\bar{X} - \mu)/\sigma$의 분포는 $N(0,1)$에 가까워진다는 것
  • 큰 수의 법칙과 중심극한 정리를 한 문장으로 요약하면
    • 표본크기가 커지면 표본 평균은 모집단의 평균으로부터 크게 벗어날 확률이 사라지고(큰 수의 법칙), 표본 평균의 표집분포는 정규분포에 근사한다.(중심극한정리)

7.6 기본적인 중심극한정리의 증명

  • Kallenberg의 증명(1997) 추후 정리 예정

7.7 더 일반적인 중심극한정리의 증명

  • 오차간 독립성만 가정하고, 동일분산을 가정하지 않는 중심극한 정리의 경우, Lindeberg-Feller의 중심극한정리를 활용하면 되고 추후 정리 예정

7.8 중심극한정리와 오차항의 분포의 문제

  • 앞에서 우리는 오차항이 정규분포를 따르지 않으면, t 검정 통계량을 신뢰할 수 없는 문제에 봉착했다.
  • 그러나, 표본크기가 크다면 이 문제는 심각하지 않다.

$\hat{\beta_1} = \beta_1 + \frac{\sum_{i=1}^{n}{(x_i-\bar{x})u_i}}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}$

  • 위 식에서 우변 둘째항의 분자는 $\sum_{i=1}^{n}{(x_i-\bar{x})u_i}$ 로서, $u_1, \cdots, u_n$이 모두 확률적으로 서로 독립이라는 가정하에서, 독립된 확률변수들의 합이다.
  • 그러므로, 표본추출반복시행시 해당 항의 분포는 중심극한정리에 따라 정규분포에 점점 근접하게 된다.
  • 결국, 표본크기가 크면 우리는 오차항이 정규분포를 갖는다는 가정을 할 필요가 없고 걱정할 필요도 없게 된다.