metrics

Sample Selection may be endogenous. To fix this idea, consider a two-stage process.

In the first stage, we have a pair , and in the second stage, this pair is either selected into sample or unobserved ( ).

Consider a very simple case, where,

Conditional mean for observed (selected) sample is:

If the second term is not 0, we have a selection bias.

Consider a latent variable for whether to select:

where

把这个当作一个 threshold 去理解,当 ,那么 individual 就会 select,反之就不会。因为我们永远都无法真正观测到 ,所以它就是 Latent Variable Model

is also considered as a Latent Variable Model:

where if , otherwise we could not observe . We also assume .

Try to estimate this…

For simplicity, we let .

By LIE,

  • If , simply OLS from on can consistently estimate
  • If , the model is

If we know , we can still consistently estimate and .

Estimation

We have two ways…

第 80 页给出两种方法:

方法 1:NLLS(非线性最小二乘)。 直接把 一起估计,最小化:

所有参数同时优化,一步到位。

方法 2:Heckman 两步法。 把问题拆开:

  1. 先用 probit 从 回归,得到 ,具体来说,回顾第75-76页的模型:
  2. 这就是一个标准的Binary模型—— 是二元因变量(是否被选入样本), 是回归变量, 是待估参数。所以直接套用第28-31页学过的probit框架:
  3. 最大化对应的log-likelihood得到
  4. 拿到 后,你就能对每个观测计算 ,这个值变成第二步OLS中一个”已知的”回归变量。本质上,第一步的目的就是估计出选择机制,从而在第二步中修正选择偏差。
  5. 当作已知的回归变量,OLS 从 和这个变量回归,得到

两步法的优势是计算简单——每一步都是你熟悉的标准估计。代价是第二步的标准误不能直接用 OLS 默认输出,因为 本身有估计误差,这个不确定性需要被考虑进去(第 80 页最后一行强调的)。