계량경제학 강의 4-2(한치록)
Updated:
4.3 상상 속의 표본추출은 어떻게?
- 우리의 관심사는 ‘분포’로서 분포는
- 무슨 추정방법을 썼는지
- 모집단의 성격은 무엇인지
- 표본추출방식은 무엇인지에 따라 결정된다
- 회귀분석의 가정
- 설명변수들에 대한 가정
- 설명변수 표본값 고정: 설명변수 관측값들은 표본추출로 변하지 않는다
- 비특이성 가정
- 오차에 대한 가정 * 오차평균 0: 모든 $i$에서 $E(u_i) = 0$이다. * 등분산: 오차 분산 $var(u_i)$는 모든 $i$에서 동일하다. * 오차 간 독립: 옻차들은 서로 독립적으로 추출된다. * 정규분포: 오차들은 각각 정규분포를 갖는 모집단으로부터 추출된다.
- 설명변수들에 대한 가정
설명변수 표본값 고정의 가정
- 예를 들자면, 모집단은 20~49세까지 한국남자이며, $X$는 나이, $Y$는 순자산이라고 하자.
- 모집단으로 부터 추출된 100명의 개인들로 이루어진 표본이 있다.
- 표본 내 첫째 사람 나이는 45세, 둘째 사람 나이는 23세다.
- 상상 속에서 100명의 사람을 다시 관측하는 데 나이는 고정되어있다.
- 첫째 사람은 45세 집단에서 1명을 무작위로 선택한다는 뜻이다.
- 그렇기 때문에 설명변수는 결국, 확률변수가 아니다. (고정되어있기 때문)
- 그러나, $y$값은 변한다.
- $y_1 = \beta_0 + \beta_1x_1+u_1 $ 관계가 성립하며, $\beta_0+\beta_1x_1$은 변하지 않는 반면, $u_1$은 변동할 수 있기 때문이다.
- 즉, $u_1, y_1$은 표본추출시 마다 값이 달라지는 확률변수다.
- 사실, $u_1$을 관측할 수 없지만, $y_1$이 달라지는 걸 보면 $u_1$이 변하는 것은 분명하다.
- 이러한 가정은 현실성이 사실 없다. 대부분의 사회과학 분석에서는 우연히 표본을 뽑은 것 뿐이기 때문이다.
- 그러나, 이러한 가정은
- 분석을 쉽게 만들고 설명을 용이하게 하며,
- 이러한 가정을 가정하지 않고 표본추출을 반복할 때 결과와 기본적으로 차이 없는 경우가 있기 때문이다.
오차평균 0 가정
- $u_i$는 표본 추출을 할 때마다 변한다. 이유는 $Y$값이 계속 변하기 때문이다. (확률변수)
- 오차평균 0가정은 이 $u_i$값이 평균이 0인 모집단으로부터 추출된다고 가정한다.
- 오해하지 말자
- 오차평균0의 가정은 ‘모든 $i$에 대해 $E(u_i)=0$’ 즉, $E(u_1), E(u_2), \cdots, E(u_n)= 0 $임을 의미한다.
- 결국, 이 가정은 모집단에서 $E(uIX)=0$ 이라는 가정을 그대로 반영한다.
- 위 가정을 통해 우리는 모집단의 인과관계를 회귀분석을 통해 추정한다고 가정할 수 있었다
- 오차항의 평균값이 0이 아니어도 그 평균이 $X$에 의존하지 않으면 절편을 재정의 하여 오차평균을 0으로 만들 수 있다.
동일분산의 가정
- 동일분산의 가정은 모든 $u_i$의 분산이 서로 동일함을 의미한다.
- 오차평균0의 가정은 $Y$값들이 실선의 위 or 아래에 위치하느냐의 문제인 반면
- 동일분산은 그 흩어진 정도가 $X$값과 관계가 있냐는 문제다
오차간 독립의 가정
- 오차 간 독립의 가정: $u_1, u_2, \cdots, u_n$의 값들이 독립적으로 각각의 모집단 구획으로부터 추출된다고 가정하는 것
- 예를 들어 $u_1$의 값이 크니까 $u_2$의 값은 작게 추출하자와 같은 서로 관계가 있는 추출을 하지 않았다는 것
정규분포의 가정
- 정규분포에 상수를 더하거나 곱해도 정규분포다.
- 정규분포를 갖는 두 독립된 확률변수를 더해도 여전히 정규분포다
4.4 최소제곱 추정량의 평균
- 표본추출 반복시행 시 설명변수 표본값 고정, 비특이성, 오차평균0의 가정이 만족된다면, 최소제곱법에 따라 추정된 기울기와 절편의 추정값은 어떻게 변동할까?
- 표본이 무한히 반복추출될 때 나오는 무한히 많은 추정값들의 평균을 그 추정량의 평균이라 하므로
- $E(\hat{\beta_0}) = \beta_0$이고 $E(\hat{\beta_1}) = \beta_1$이 된다.
-
이러한 결과를 바로, 최소제곱 추정량은 ‘비편향적(unbiased)’라고 한다.
- 일단, 아래 식을 증명해보자
-
$\hat{\beta_1} = \beta_1 + \frac{\sum_{i=1}^{n}{(x_i-\bar{x})u_i}}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}$ (4.1)
- 위 식을 만들기 위해 최소제곱 추정량부터 시작해보자.
- $\hat{\beta_1} = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})y_i}}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}$
- 위 식에서 $y_i = \beta_0+\beta_1x_i+u_i$를 대입하면,
- $\hat{\beta_1} = \frac{\sum_{i=1}^{n}{(x_i-\bar{x})(\beta_0+\beta_1x_i+u_i)}}{\sum_{i=1}^{n}{(x_i-\bar{x})^2}}$가 된다. (4.2)
- 그런데, $\sum_{i=1}^{n}{(x_i-\bar{x})\beta_0} = \beta_0 \times \sum_{i=1}^{n}{(x_i-\bar{x})}=\beta_0 \times 0 = 0$
- 또한, $\sum_{i=1}^{n}{(x_i-\bar{x})x_i} = \sum_{i=1}^{n}{(x_i-\bar{x})x_i} - \sum_{i=1}^{n}{(x_i-\bar{x})\bar{x}} = \sum_{i=1}^{n}{(x_i-\bar{x})^2}$ 이므로
- 4.2 식에서 $\beta_0$ 항은 없어지고, $\beta_1$ 항은 앞으로 빠지게 되어 $u_i$항만 남아서 4.1 식이 나온다
- 결국, 표본 설명변수값 고정과 오창평균 0을 따로도록 표본추출 반복시행할 때 평균을 취하면,
- $E(\hat{\beta_1}) = \beta_1 + \frac{\sum_{i=1}^{n}{(x_i-\bar{x})E(u_i)}}{\sum_{i=1}^{n}(x_i-\bar{x})^2} = \beta_1 + 0 = \beta_1$
- 우변 평균시 $u_i$에만 평균을 취하는 건 표본추출 반속시행시 $\beta_1$의 값이 고정되어 있고
- 표본 설명변수값 고정으로 인해 $x_1, x_2, \cdots, x_n$이 확정된 값이기 때문이다.
- 또한, 오차평균 가정에 의해 분수로 되어있는 항은 0이 된다.
-
즉, 설명변수 표본값 고정 + 오차평균0이 성립하도록 표본 추출 무한반복시 $\hat{beta_1}$의 궁극적 평균은 참값, 즉 $\beta_1$과 동일하다.
- 어떤 추정량이 참값으로 부터 편향되지 않을 때 우리는 그 추정량이 평균적으로 맞다고 한다.
- 이때 ‘평균’은 표본추출 반복시행 시의 평균이다.