metrics

We usually name the IV be .

A valid instrument should satisfy:

  • Instrument Relevance: (Easy to declare)
  • Instrument Exogeneity: (Hard to argue)

We then use 2-Stage Least Square (2SLS) to estimate this question.

  1. Regress endogeous regressor on , get
  2. Regress on

GPT

From GPT 4o:

核心问题:OLS 为什么失效?

在理想状态下,我们用 OLS 估计这样的模型:

要求 x 与 ε 不相关

但如果:

  • x 与 ε 有相关性(比如 x 受某个遗漏变量的影响,而这个变量也影响 y)
  • 或 x 本身受 y 的影响(同时性)
  • 或 x 测量有误

那么 OLS 就会失败,因为它把“ε 的一部分”当成了 x 的一部分,估计出来的 就偏了!


🪄 工具变量的直观比喻

🎻 比喻:看清因果的“望远镜”

想象你在看一个模糊的目标(x 对 y 的真实影响),但你眼前有雾(ε)。这时,你需要一个望远镜(工具变量 z),它:

  1. 看向 x 的方向(z 与 x 有强相关性)
  2. 不被雾气干扰(z 与 ε 无关)

这样,你通过 z 观察 x 的变化,从而间接地判断 x 对 y 的影响


📊 图解直观(文字版)

潜在真实关系:
    z → x → y
 
问题:
    ε ↔ x → y
 
我们无法直接用 x 回归 y,因为 x 与 ε 有关,导致偏误。
 
解决方案:
    使用 z 来“提取” x 中与 ε 无关的那部分,用来回归 y。

🧪 一个简单例子:教育对收入的影响

我们想估计:

收入=β⋅受教育年限+ε\text{收入} = \beta \cdot \text{受教育年限} + \varepsilon收入=β⋅受教育年限+ε

但问题是:

  • 教育程度可能受家庭背景影响
  • 家庭背景同时影响收入

所以教育年限(x)与误差项(ε)相关,OLS 不可靠。

🍀 好的工具变量:离家远近

研究发现:上大学离家远的人更可能选择上大学,但离家远本身不会直接影响收入。

于是,“离家远近”可以作为工具变量 z:

  • z 影响 x(教育程度)
  • z 不直接影响 y(收入),只通过 x 起作用

🧠 数学直觉

OLS 的问题:

IV 的解决方案:

找一个变量 ,使得:

  • : 与误差项无关(外生性)
  • 与解释变量相关(相关性)

通过 来构造一个“净化版”的 ,从而得到一致的估计。


2SLS 是怎么做的?

  1. 第一阶段:用 去预测

    x=πz+ux = \pi z + ux=πz+u

    得到预测值 x^\hat{x}x^

  2. 第二阶段:用 x^\hat{x}x^ 回归 y:

    y=βx^+残差y = \beta \hat{x} + \text{残差}y=βx^+残差

这样,x^\hat{x}x^ 是 x 的“干净版本”,不受 ε 污染。


✅ 小结:IV 的关键直觉

问题工具变量的作用
x 与 ε 有相关性工具变量帮助我们“避开” ε 的干扰
OLS 估计有偏IV 提供一致的估计
z 与 x 相关但与 ε 无关用 z 来“提纯” x
2SLS 实现两步法清除内生性影响

📌 一个口诀记忆工具变量:

“相关不相关”——

相关 要相关
不相关:z 与 ε 要不相关