We usually name the IV be .
A valid instrument should satisfy:
- Instrument Relevance: (Easy to declare)
- Instrument Exogeneity: (Hard to argue)
We then use 2-Stage Least Square (2SLS) to estimate this question.
- Regress endogeous regressor on , get
- Regress on
GPT
From GPT 4o:
核心问题:OLS 为什么失效?
在理想状态下,我们用 OLS 估计这样的模型:
要求 x 与 ε 不相关。
但如果:
- x 与 ε 有相关性(比如 x 受某个遗漏变量的影响,而这个变量也影响 y)
- 或 x 本身受 y 的影响(同时性)
- 或 x 测量有误
那么 OLS 就会失败,因为它把“ε 的一部分”当成了 x 的一部分,估计出来的 就偏了!
🪄 工具变量的直观比喻
🎻 比喻:看清因果的“望远镜”
想象你在看一个模糊的目标(x 对 y 的真实影响),但你眼前有雾(ε)。这时,你需要一个望远镜(工具变量 z),它:
- 能看向 x 的方向(z 与 x 有强相关性)
- 但不被雾气干扰(z 与 ε 无关)
这样,你通过 z 观察 x 的变化,从而间接地判断 x 对 y 的影响。
📊 图解直观(文字版)
潜在真实关系:
z → x → y
问题:
ε ↔ x → y
我们无法直接用 x 回归 y,因为 x 与 ε 有关,导致偏误。
解决方案:
使用 z 来“提取” x 中与 ε 无关的那部分,用来回归 y。🧪 一个简单例子:教育对收入的影响
我们想估计:
收入=β⋅受教育年限+ε\text{收入} = \beta \cdot \text{受教育年限} + \varepsilon收入=β⋅受教育年限+ε
但问题是:
- 教育程度可能受家庭背景影响
- 家庭背景同时影响收入
所以教育年限(x)与误差项(ε)相关,OLS 不可靠。
🍀 好的工具变量:离家远近
研究发现:上大学离家远的人更可能选择上大学,但离家远本身不会直接影响收入。
于是,“离家远近”可以作为工具变量 z:
- z 影响 x(教育程度)
- z 不直接影响 y(收入),只通过 x 起作用
🧠 数学直觉
OLS 的问题:
IV 的解决方案:
找一个变量 ,使得:
- : 与误差项无关(外生性)
- : 与解释变量相关(相关性)
通过 来构造一个“净化版”的 ,从而得到一致的估计。
2SLS 是怎么做的?
-
第一阶段:用 去预测 :
x=πz+ux = \pi z + ux=πz+u
得到预测值 x^\hat{x}x^
-
第二阶段:用 x^\hat{x}x^ 回归 y:
y=βx^+残差y = \beta \hat{x} + \text{残差}y=βx^+残差
这样,x^\hat{x}x^ 是 x 的“干净版本”,不受 ε 污染。
✅ 小结:IV 的关键直觉
| 问题 | 工具变量的作用 |
|---|---|
| x 与 ε 有相关性 | 工具变量帮助我们“避开” ε 的干扰 |
| OLS 估计有偏 | IV 提供一致的估计 |
| z 与 x 相关但与 ε 无关 | 用 z 来“提纯” x |
| 2SLS 实现 | 两步法清除内生性影响 |
📌 一个口诀记忆工具变量:
“相关不相关”——
相关: 与 要相关
不相关:z 与 ε 要不相关