Sample Selection may be endogenous. To fix this idea, consider a two-stage process.
In the first stage, we have a pair , and in the second stage, this pair is either selected into sample or unobserved ( ).
Consider a very simple case, where,
Conditional mean for observed (selected) sample is:
If the second term is not 0, we have a selection bias.
Consider a latent variable for whether to select:
where
把这个当作一个 threshold 去理解,当 ,那么 individual 就会 select,反之就不会。因为我们永远都无法真正观测到 ,所以它就是 Latent Variable Model
is also considered as a Latent Variable Model:
where if , otherwise we could not observe . We also assume .
Try to estimate this…
For simplicity, we let .
By LIE,
- If , simply OLS from on can consistently estimate
- If , the model is
If we know , we can still consistently estimate and .
Estimation
We have two ways…
第 80 页给出两种方法:
方法 1:NLLS(非线性最小二乘)。 直接把 一起估计,最小化:
所有参数同时优化,一步到位。
方法 2:Heckman 两步法。 把问题拆开:
- 先用 probit 从 对 回归,得到 ,具体来说,回顾第75-76页的模型:,,。
- 这就是一个标准的Binary模型—— 是二元因变量(是否被选入样本), 是回归变量, 是待估参数。所以直接套用第28-31页学过的probit框架:
- 最大化对应的log-likelihood得到 。
- 拿到 后,你就能对每个观测计算 ,这个值变成第二步OLS中一个”已知的”回归变量。本质上,第一步的目的就是估计出选择机制,从而在第二步中修正选择偏差。
- 把 当作已知的回归变量,OLS 从 对 和这个变量回归,得到 和
两步法的优势是计算简单——每一步都是你熟悉的标准估计。代价是第二步的标准误不能直接用 OLS 默认输出,因为 本身有估计误差,这个不确定性需要被考虑进去(第 80 页最后一行强调的)。