Exam Information
Exam Format: Long-term paper (2 hours)
Paper Structure:
- Part 1: Taisuke Otsu (50 marks)
- Bootstrap, Causal Inference, Limited Dependent Variables, Machine Learning
- Part 2: Vassilis Hajivassiliou (50 marks)
- Topic 0, Time Series, Panel Data
Part 1: Taisuke Otsu
Topic 1: Bootstrap (自举法)
Key Concepts
Bootstrap (Bootstrap) 一种基于重采样的统计推断方法
直觉理解:通过从原始样本中有放回抽取大量"伪样本"(pseudo-samples),模拟统计量的抽样分布。这让我们能在不依赖强分布假设的情况下推断置信区间和标准误。
核心价值:当理论分布未知或样本量较小、非标准时,Bootstrap 提供了一种更可靠的方法进行推断。
Bootstrap 算法步骤
-
基本算法 (Pairs Bootstrap)
- 原始样本:
- 从 中有放回地随机抽取 个观测值,构成 Bootstrap 样本
- 对每个 Bootstrap 样本,计算估计量 (例如 OLS 估计量)
- 重复 次,得到
- 计算标准误:
-
置信区间 (CI) 构建
- 正态近似 CI:
- 百分位 CI: 其中 是 的分位数
- Percentile-t CI:比正态近似更精确,收敛速度 vs
Bootstrap 理论
Bootstrap CLT
- 条件:,
- 结论: 其中 (Bootstrap 估计的方差)
Bootstrap 一致性
- 条件: 其中 是样本经验分布
- 结论: 是 的一致估计量
应用
1. OLS 回归
- Bootstrap 样本:从 中有放回抽取
- 估计: 是 Bootstrap OLS 估计量
- 用途:构造参数的置信区间和标准误
2. GMM
- 重中心化时刻:
- Bootstrap 权重矩阵:
- 注意:需要使用 Recentered Bootstrap 以实现高阶精度的置信区间
题型模式
典型考题:
- 理论证明:证明 Bootstrap WLLN/CLT
- 计算题:计算 Bootstrap 标准误、置信区间
- 应用题:使用 Bootstrap 估计 ATE、LATE 或构建置信区间
PS1 Q3-4:理解 Bootstrap 的收敛性质,证明弱大数定律适用于 Bootstrap 样本
Topic 2: Causal Inference (因果推断)
Potential Outcomes Framework
潜在结果模型
- :如果受到处理的结果
- :如果没有受到处理的结果
- 观测结果:
核心识别问题: 无法识别,因为我们永远无法同时观察到同一个体在处理组和对照组的结果。
识别策略
1. Randomization (随机化)
- **假设: 处理分配与潜在结果独立
- 直觉:随机分配打破了处理与潜在结果的任何相关性,使得 成立
- 识别量:ATE(平均处理效应)
2. Conditional Independence (条件独立性, CI)
- 假设:
- 直觉:给定控制变量 ,处理变量 与潜在结果条件独立
- 识别量:
- 估计:(匹配估计量,条件期望差)
3. Inverse Propensity Score Weighting (逆概率加权)
- 倾向得分:
- 权重:(处理者权重 ,对照组权重 )
- 估计量:
4. Instrumental Variables (工具变量, IV)
- 设定:,, 为 IV
- 假设:,
- 识别条件: 且 (IV 相关性强)
- 2SLS 估计:
Difference-in-Differences (DID, 双差分)
DID 估计量
- 公式:
- 直觉:DID 消除了时间趋势和对照组的初始差异,分离出处理效应。前提是”平行趋势假设”(Parallel Trends Assumption)。
回归设定
- DID 参数:(处理效应)
Local Average Treatment Effect (LATE, 局部平均处理效应)
LATE 设定
- 四个类型:Never-taker, Complier, Always-taker, Defier
- 潜在状态:: 和 时处理状态
- LATE 定义:(Compliers 的平均处理效应)
识别条件
- Independence:
- Monotonicity: (工具变量增加处理概率的单调性)
- Exclusion Restriction: (工具变量只通过 影响处理)
Wald 估计量
- 公式:
- 还原:
LATE 捕捉的是工具变量引起的处理效应变化,适用于那些对工具变量有反应的个体。这个估计量不一定等于 ATE,但它是最容易识别的平均处理效应。
Topic 3: Limited Dependent Variables (受限因变量, LDV)
Binary Choice Models (二值选择模型)
Probit 模型
- 设定:,,
- 潜变量:
- 概率:
- 对数似然:
Logit 模型
- 设定:概率函数为 Logit:
- 对数似然:
- 优势:无 IIA 假设,且计算更简单
Logit 的优势在于它不需要独立无关选项假设(IIA),这在现实中更合理。
Ordered Models (有序模型)
Ordered Probit/Logit
- 设定:,
- 识别: 通过 MLE 估计
Censored Data (截尾数据)
Tobit 模型
- 潜变量:,
- 观测:
- 概率:
- 对数似然:基于这个概率分布构建
截尾发生在 时,OLS 会对小于零的观测值产生系统性偏差(因为 ),导致估计量 向零方向偏倚。
Censored LAD (绝对损失)
- 目标函数:
- 优势:只需要中位数假设 ,不需要正态性假设,估计量 一致收敛
Sample Selection Models (样本选择模型)
Heckman Selection Model
- 问题:样本不是随机抽取的,而是某些个体被排除的(例如只有高收入者参与调查)
- 设定:
- 选择方程:, 如果
- 结果方程:, 观测仅当 时
- 识别条件:,
- OLS 问题:在 的子样本中估计 会产生选择偏差
样本选择机制使得样本不再是总体的代表,简单的 OLS 估计不再有效。Heckman 两步法通过建模选择过程来校正这个偏差。
Topic 4: Machine Learning (机器学习)
Bias-Variance Trade-off (偏差-方差权衡)
增加更多变量可以减少偏差(模型更接近真实),但会增加方差(模型对训练数据过拟合)。
模型复杂度与预测误差
- 训练误差:
- 泛化误差:( 来自与训练分布不同的总体)
- 偏差-方差权衡:选择适当的模型复杂度
Ridge Regression (岭回归)
设定
- 目标: 其中 是岭参数
- 解:
- 性质: 有偏(shrinkage toward zero),方差更小
Ridge 通过惩罚大系数防止过拟合,适合 的高维情况。岭参数 通常通过交叉验证选择。
Lasso Regression (最小绝对收缩)
设定
- 目标:(注意是 -norm)
- 解:无显式解,使用优化算法(如坐标下降)
- 性质:稀疏性(sparse):许多 被压缩为零
Lasso 同时进行变量选择和系数收缩,特别适合当真实 本身稀疏时。 惩罚使得不重要的变量系数为零。
所以 Lasso 本质上是一种降维的方法,但是由于是显示解,是否代表着考试不会重点考察呢?(迷思)
High-Dimensional Inference (高维推断)
Lasso IV
- 第一步:对每个 用 Lasso 估计其与工具变量 的关系
- 第二步:用 Lasso 估计量 作为工具变量
- 第二步回归:
当工具变量 时,传统 IV 失效。Lasso 通过降维选择有效的工具变量,使得 IV 回归可行。
Partialling-Out Lasso
- 设定:,
- 第一步:用 Lasso 估计 对 和 的关系(去噪)
- 第二步:用 Lasso 估计 对 的关系(去噪)
- 最终回归:在去噪后的残差上估计
Partialling-out Lasso 通过分离变量选择步骤和估计步骤,使得 的估计量渐近正态且有效。
Part 2: Vassilis Hajivassiliou
Topic 0: Mathematical Background (数学背景)
Key Concepts (基本假设)
-
Weak Stationarity (弱平稳性)
- 定义:(常数),(仅依赖于间隔 )
- 数学表示:,其中 是平稳过程
-
Strict Stationarity (严平稳性)
- 定义:分布 不随时间变化(与 无关)
- 更强条件:严平稳性意味着弱平稳性且整个分布平稳(不依赖时间位置)
-
Ergodicity (各态历经性)
- 定义:样本均值收敛到总体均值:
- 意义:保证大数定律适用于时间序列样本
如果序列是非各态历经的(如带有永久初始条件 的随机游走),样本均值可能不收敛到总体均值,OLS 估计量会不一致。
- White Noise (白噪声)
- 定义: 满足 ,(序列不相关)
- 性质:白噪声是最简单的时间序列模型,是所有模型的基础。
Stochastic Processes (随机过程)
MA(q) Process (移动平均过程)
- 定义:
- 平稳性:总是平稳的,自相关在 阶后消失
- ACF 特征:自相关函数 \rho(h) = \frac{\lambda_1 \rho(h-1) + \cdots + \lambda_q \rho(h-q)}
AR(p) Process (自回归过程)
- 定义:
- 平稳条件:特征方程根 的所有根在单位圆内
- AR(1) 条件:
考点:如果 (单位根),过程有爆炸性(exponential growth),非平稳。这是单位根检验的核心。
Newey-West HAC (异方差-自相关一致标准误)
问题
- 当误差项存在自相关时,OLS 的标准误公式 不再有效
- 解决:Newey-West 估计量
Newey-West 公式
\hat{V}_{NW} = \hat{\sigma}^2 \left[ \sum_{t=1}^T X_t'X_t + \sum_{h=-H+1}^H \left(1+\frac{h}{H+1}\right)X_t'X_t\right] \right]^{-1}X'X'Y
其中 是同方差估计量, 是带宽参数, 是核函数。
PS4:计算 HAC 标准误,理解 Bartlett 核的作用是给远期干扰项赋予较小的权重。
Topic 1: Time Series Econometrics (时间序列计量)
ARIMA(p,d,q) Models
设定
- 差分方程:
- 平稳条件: 的所有根在单位圆内
- AR 部分:
单位根检验
- ADF 统计量:检验原假设 (存在单位根)
- 检验统计量:
- 临界值:取决于显著性水平和样本量
PS4:解释 ADF 统计量的极限分布,理解当原假设成立时统计量是标准正态分布。
ARMA(联合模型, 自回归移动平均)
VAR(Vector Autoregression, 向量自回归)
- 设定:,
- 矩阵形式:
- 含义:每个变量都是其自身和其他变量的滞后值的函数
Granger Causality (格兰杰因果性)
- 定义:如果包含 的滞后项能显著改善 的预测,则称 Granger causes 。
- 因果方向:Granger 因果性是单向的,从过去预测未来,而不是反向因果关系。
考点:Granger 因果性不等价于真实的因果关系,只是预测意义上的因果性。
Forecasting (预测)
预测准确度评估
- MSE (均方误差):
- MAD (平均绝对误差):
样本外预测 (Out-of-sample Forecasting)
- 概念:用历史数据预测未来值
- 滚动预测:使用滚动窗口(如最近 10 期)预测下一期
- 模型选择:根据信息准则(AIC, BIC)选择滞后阶数
Topic 3: Panel Data Econometrics (面板数据)
Data Structure (数据结构)
双索引表示
- 堆叠格式:
- 平衡面板:每个个体 的 相同
- 非平衡面板: 因人而异
滞后格式
- 快格式:
- 长格式:
静态面板模型
固定效应模型
- 设定:
- 含义: 是个体的固定效应(不随时间变化)
动态面板模型
一阶差分动态模型
- 设定:
- 平稳性条件:
GMM 估计量
- 目标:\bar{g}(\theta) = \frac{1}{N\sum_{i=1}^T g(y_{it}-\bar{y}_i, X_{it}, \theta)
估计方法比较
| 方法 | 一致性 | 渐近正态 | 计算复杂度 | 适用场景 |
|---|---|---|---|---|
| Pooled OLS | ❌ (若 ) | ❌ | 简单 | ❌ 短面板 |
| RE (随机效应) | ⚠️ (若 ,不一致) | ✅ | 简单 | ✅ 短面板 |
| FE (固定效应) | ✅ | ✅ | 较复杂 | ✅ 长面板 |
| FE-GMM | ✅ | ✅ | 简单 | ⚠️ (若 非正态) |
RE 方法利用了不同个体之间的变异信息,效率更高但前提是 (外生性)。FE 方法不需要这个假设,对短面板( 小)更适用。
Part 1 题型重点 (Otsu Exam Pattern Analysis)
Bootstrap 题型
-
理论证明:Bootstrap WLLN/CLT 的成立条件
- 证明
- 关键:需要验证 且
-
Bootstrap vs 渐近理论
- 比较两者在有限样本下的表现
- 解释为什么 Bootstrap 在某些情况下更准确(特别是非对称分布)
-
应用题:计算 Bootstrap CI 并与 asymptotic CI 比较
Causal Inference 题型
-
LATE 计算:给定工具变量 ,计算 Wald 估计量
- 需要计算 First Stage 的回归系数 和
-
DID 设定:建立回归
- 估计 作为处理效应
-
ATT vs ATE
- ATT:(处理组的平均效应)
- ATE:(总体平均效应)
- 考点:如果处理组和对照组不可比,ATT 可能与 ATE 不同
LDV 题型
-
Probit/Logit 估计
- 使用 MLE 估计 和 (或仅 )
- 计算边际效应:
-
Tobit 似然函数
- 最大化的目标函数
- 解决方法:需要数值优化
-
截尾 vs OLS 比较
- 展示 Tobit 估计量的偏差
- 解释为什么 OLS 估计向下偏倚
Machine Learning 题型
-
K 折交叉验证
- 目的:选择最优岭参数
- 计算:每个 的 CV 误差
-
Lasso 解路径
- 坐标下降的 KKT 条件
- 稀疏解的性质: 当 较小时
Time Series 题型
-
ARMA 识别
- 根据 ACF/PACF 判断过程类型
- 确定 和 的阶数
-
单位根检验
- 计算检验统计量
- 根据 MacKinnon 临界值做出决策
-
Newey-West HAC
- 给定 ,计算 Bartlett 核权重
- 构建 HAC 一致方差协方差矩阵
-
VAR 的简化
- 在特定约束下简化 VAR 估计
- 例如:施加系数约束
Panel Data 题型
-
FE vs RE
- Hausman 检验:比较固定效应和随机效应模型
- 解释检验统计量的构造
- 决策:根据 -value 和模型选择
-
动态面板
- Arellano-Bond 估计:加入滞后因变量作为工具
- 估计量的一致性证明
-
样本选择校正
- 处理 attrition 导致的非平衡样本
- 逆概率加权估计
Part 2 题型重点 (Hajivassiliou Exam Pattern Analysis)
Topic 0 题型
-
矩阵代数
- 向量微积分
- 分部积分技巧
-
OLS 理论
- 高斯-马尔可夫夫不等式
- 线性估计量的性质
-
最优化问题
- 拉格朗日乘子
- 目标函数凸性检查
Time Series 题型
-
平稳性检验
- ADF, PP, KPSS 检验
- 解释每种检验的原假设
-
ARIMA 模型设定
- Box-Jenkins 方法
- 识别和估计 ARMA 过程
-
VAR 估计
- Yule-Walker 方程
- 检验系统的稳定性
Panel Data 题型
-
固定效应估计
- 最小二乘虚拟变量法(LSDV)
- 组内变换(Within transformation)
-
随机效应估计
- GLS 方法
- 矩阵代数求解
- 方差分量模型
-
动态面板
- GMM 估计
- 处理初始条件和动态参数
考试策略
Part 1 (Otsu 部分)
-
Bootstrap 题型
- 证明时写清假设:iid 样本、有限方差、分布连续
- 步骤完整:先说明 Bootstrap 构造,再证明收敛性质
-
因果推断题型
- 先建立潜在结果框架
- 明确写出识别假设
- 推导估计量的表达式
-
LDV 题型
- Probit: 写出对数似然函数
- Tobit: 写出截断的观测机制
- 注意两类模型的不同假设
Part 2 (Hajivassiliou 部分)
-
Topic 0 题型
- 展示完整推导过程
- 标明每一步的数学逻辑
-
Time Series 题型
- 推导 ADF 检验统计量的极限分布
- 解释单位根检验的经济含义
-
Panel Data 题型
- 推导 Within transformation
- 证明 变换的性质(对称性等幂等)
- 比较 FE 和 RE 的渐近方差
常见考点速查 (Quick Reference)
统计量检验
| 检验 | 原假设 | 检验统计量 | 决策规则 | |||
|---|---|---|---|---|---|---|
| ADF | 单位根 | $ | t_{\text{ADF}} | > 1.96$ 时拒绝 | 若 ,更可能拒绝 | |
| PP | 单位根 | 检验 的零点 | 同 ADF | |||
| KPSS | 2 个单位根 | 和 | 两根都等于1 | |||
| J-Bera | 系统单根检验 | 与 PP 等价 |
估计方法
| 方法 | 公式/算法 | 适用条件 | 优缺点 | |------|----------|----------|----------|----------| | OLS | | 满秩,外生性 | 简单高效 | | 2SLS | | 外生 | 修正异方差 | 简单 | | GMM | | 最优加权 | 渐近正态 | | MLE | | 分布假设 | 窄面最有效 | | Bootstrap | | 无分布假设 | 稳健 |
因果推断
| 估计量 | 识别假设 | 适用条件 | |------|----------|----------|----------| | ATE | | 随机分配 | 简单 | | LATE | | 局部效应 | 单调性 + 排他性 | | Wald | | 工具变量有效性 | 2SLS/IV 替代 | | DID | | 平行趋势 | 假设验证 | | IV | | 外生性 | 不限制样本选择 |
高维推断
| 问题 | 解决方案 | |------|----------|----------|----------| | | Lasso 降维 + 岭回归 | 当预测变量多时有效 | | 样本选择 | 建模观测机制 + Heckman 两步法 | 处理选择性偏差 |
重要提示
考试时需要注意
-
Bootstrap 题型
- 区分 pairs bootstrap 和 residual bootstrap
- Percentile-t CI 需要 才能精确
- 注意偏差校正:
-
因果推断题型
- DID 需要”平行趋势假设”
- LATE 不等于 ATE(需要解释区别)
- Wald 估计量的正确还原
-
时间序列题型
- 单位根检验要明确检验的假设
- Newey-West 的 是截断参数
-
面板数据题型
- RE 需要 (外生性)
- Within 估计量 一致收敛
公式速查
核心公式
Otsu 部分
- Bootstrap 方差:
- Bootstrap 标准误:
Hajivassiliou 部分
- Within 变换: 是幂等矩阵
- Wald 检验:()是自由度
文档说明
文件结构:
EC484_Review.md
├── Part 1: Taisuke Otsu (75 marks)
├── Bootstrap
├── Causal Inference
├── Limited Dependent Variables
└── Machine Learning
└── Part 2: Vassilis Hajivassiliou (75 marks)
├── Topic 0 (Background)
├── Matrix Calculus
└── OLS Theory
├── Time Series
└── Panel Data
├── Data Structure
├── Fixed Effects
├── Dynamic Panels
└── Estimation Methods
└── Key Topics
内容特色:
- ✅ 中英文双语术语
- ✅ 直觉解释块
- ✅ 公式完整
- ✅ 题型分析
- ✅ 考试策略
- ✅ 速查表
使用方法:
- 按主题组织,按 Part 1 和 Part 2 分开
- 每个主题包含:核心概念、公式、直觉、应用、题型分析
- 使用 Obsidian callout 支持链接跳转
- 重点公式单独成块,方便快速复习
祝考试顺利!📚