Exam Information

Exam Format: Long-term paper (2 hours)

Paper Structure:

  • Part 1: Taisuke Otsu (50 marks)
    • Bootstrap, Causal Inference, Limited Dependent Variables, Machine Learning
  • Part 2: Vassilis Hajivassiliou (50 marks)
    • Topic 0, Time Series, Panel Data

Part 1: Taisuke Otsu

Topic 1: Bootstrap (自举法)

Key Concepts

Bootstrap (Bootstrap) 一种基于重采样的统计推断方法

直觉理解:通过从原始样本中有放回抽取大量"伪样本"(pseudo-samples),模拟统计量的抽样分布。这让我们能在不依赖强分布假设的情况下推断置信区间和标准误。

核心价值:当理论分布未知或样本量较小、非标准时,Bootstrap 提供了一种更可靠的方法进行推断。

Bootstrap 算法步骤

  1. 基本算法 (Pairs Bootstrap)

    • 原始样本:
    • 中有放回地随机抽取 个观测值,构成 Bootstrap 样本
    • 对每个 Bootstrap 样本,计算估计量 (例如 OLS 估计量)
    • 重复 次,得到
    • 计算标准误:
  2. 置信区间 (CI) 构建

    • 正态近似 CI:
    • 百分位 CI: 其中 的分位数
    • Percentile-t CI:比正态近似更精确,收敛速度 vs

Bootstrap 理论

Bootstrap CLT

  • 条件:
  • 结论: 其中 (Bootstrap 估计的方差)

Bootstrap 一致性

  • 条件: 其中 是样本经验分布
  • 结论: 的一致估计量

应用

1. OLS 回归

  • Bootstrap 样本:从 中有放回抽取
  • 估计: 是 Bootstrap OLS 估计量
  • 用途:构造参数的置信区间和标准误

2. GMM

  • 重中心化时刻:
  • Bootstrap 权重矩阵:
  • 注意:需要使用 Recentered Bootstrap 以实现高阶精度的置信区间

题型模式

典型考题:

  • 理论证明:证明 Bootstrap WLLN/CLT
  • 计算题:计算 Bootstrap 标准误、置信区间
  • 应用题:使用 Bootstrap 估计 ATE、LATE 或构建置信区间

PS1 Q3-4:理解 Bootstrap 的收敛性质,证明弱大数定律适用于 Bootstrap 样本


Topic 2: Causal Inference (因果推断)

Potential Outcomes Framework

潜在结果模型

  • :如果受到处理的结果
  • :如果没有受到处理的结果
  • 观测结果:

核心识别问题 无法识别,因为我们永远无法同时观察到同一个体在处理组和对照组的结果。

识别策略

1. Randomization (随机化)

  • **假设: 处理分配与潜在结果独立
  • 直觉:随机分配打破了处理与潜在结果的任何相关性,使得 成立
  • 识别量:ATE(平均处理效应)

2. Conditional Independence (条件独立性, CI)

  • 假设
  • 直觉:给定控制变量 ,处理变量 与潜在结果条件独立
  • 识别量
  • 估计(匹配估计量,条件期望差)

3. Inverse Propensity Score Weighting (逆概率加权)

  • 倾向得分
  • 权重(处理者权重 ,对照组权重
  • 估计量

4. Instrumental Variables (工具变量, IV)

  • 设定 为 IV
  • 假设
  • 识别条件(IV 相关性强)
  • 2SLS 估计

Difference-in-Differences (DID, 双差分)

DID 估计量

  • 公式
  • 直觉:DID 消除了时间趋势和对照组的初始差异,分离出处理效应。前提是”平行趋势假设”(Parallel Trends Assumption)。

回归设定

  • DID 参数(处理效应)

Local Average Treatment Effect (LATE, 局部平均处理效应)

LATE 设定

  • 四个类型:Never-taker, Complier, Always-taker, Defier
  • 潜在状态 时处理状态
  • LATE 定义(Compliers 的平均处理效应)

识别条件

  1. Independence:
  2. Monotonicity: (工具变量增加处理概率的单调性)
  3. Exclusion Restriction: (工具变量只通过 影响处理)

Wald 估计量

  • 公式
  • 还原

LATE 捕捉的是工具变量引起的处理效应变化,适用于那些对工具变量有反应的个体。这个估计量不一定等于 ATE,但它是最容易识别的平均处理效应。


Topic 3: Limited Dependent Variables (受限因变量, LDV)

Binary Choice Models (二值选择模型)

Probit 模型

  • 设定
  • 潜变量
  • 概率
  • 对数似然

Logit 模型

  • 设定:概率函数为 Logit:
  • 对数似然
  • 优势:无 IIA 假设,且计算更简单

Logit 的优势在于它不需要独立无关选项假设(IIA),这在现实中更合理。

Ordered Models (有序模型)

Ordered Probit/Logit

  • 设定
  • 识别 通过 MLE 估计

Censored Data (截尾数据)

Tobit 模型

  • 潜变量
  • 观测
  • 概率
  • 对数似然:基于这个概率分布构建

截尾发生在 时,OLS 会对小于零的观测值产生系统性偏差(因为 ),导致估计量 向零方向偏倚。

Censored LAD (绝对损失)

  • 目标函数
  • 优势:只需要中位数假设 ,不需要正态性假设,估计量 一致收敛

Sample Selection Models (样本选择模型)

Heckman Selection Model

  • 问题:样本不是随机抽取的,而是某些个体被排除的(例如只有高收入者参与调查)
  • 设定
    • 选择方程: 如果
    • 结果方程: 观测仅当
  • 识别条件
  • OLS 问题:在 的子样本中估计 会产生选择偏差

样本选择机制使得样本不再是总体的代表,简单的 OLS 估计不再有效。Heckman 两步法通过建模选择过程来校正这个偏差。


Topic 4: Machine Learning (机器学习)

Bias-Variance Trade-off (偏差-方差权衡)

增加更多变量可以减少偏差(模型更接近真实),但会增加方差(模型对训练数据过拟合)。

模型复杂度与预测误差

  • 训练误差:
  • 泛化误差: 来自与训练分布不同的总体)
  • 偏差-方差权衡:选择适当的模型复杂度

Ridge Regression (岭回归)

设定

  • 目标 其中 是岭参数
  • 性质 有偏(shrinkage toward zero),方差更小

Ridge 通过惩罚大系数防止过拟合,适合 的高维情况。岭参数 通常通过交叉验证选择。

关于如何理解p-norm

Lasso Regression (最小绝对收缩)

设定

  • 目标(注意是 -norm)
  • :无显式解,使用优化算法(如坐标下降)
  • 性质稀疏性(sparse):许多 被压缩为零

Lasso 同时进行变量选择和系数收缩,特别适合当真实 本身稀疏时。 惩罚使得不重要的变量系数为零。

所以 Lasso 本质上是一种降维的方法,但是由于是显示解,是否代表着考试不会重点考察呢?(迷思)

High-Dimensional Inference (高维推断)

Lasso IV

  • 第一步:对每个 用 Lasso 估计其与工具变量 的关系
  • 第二步:用 Lasso 估计量 作为工具变量
  • 第二步回归

当工具变量 时,传统 IV 失效。Lasso 通过降维选择有效的工具变量,使得 IV 回归可行。

Partialling-Out Lasso

  • 设定
  • 第一步:用 Lasso 估计 的关系(去噪)
  • 第二步:用 Lasso 估计 的关系(去噪)
  • 最终回归:在去噪后的残差上估计

Partialling-out Lasso 通过分离变量选择步骤和估计步骤,使得 的估计量渐近正态且有效。


Part 2: Vassilis Hajivassiliou

Topic 0: Mathematical Background (数学背景)

Key Concepts (基本假设)

  1. Weak Stationarity (弱平稳性)

    • 定义(常数),(仅依赖于间隔
    • 数学表示,其中 是平稳过程
  2. Strict Stationarity (严平稳性)

    • 定义:分布 不随时间变化(与 无关)
    • 更强条件:严平稳性意味着弱平稳性且整个分布平稳(不依赖时间位置)
  3. Ergodicity (各态历经性)

    • 定义:样本均值收敛到总体均值:
    • 意义:保证大数定律适用于时间序列样本

如果序列是非各态历经的(如带有永久初始条件 的随机游走),样本均值可能不收敛到总体均值,OLS 估计量会不一致。

  1. White Noise (白噪声)
    • 定义 满足 (序列不相关)
    • 性质:白噪声是最简单的时间序列模型,是所有模型的基础。

Stochastic Processes (随机过程)

MA(q) Process (移动平均过程)

  • 定义
  • 平稳性:总是平稳的,自相关在 阶后消失
  • ACF 特征:自相关函数 \rho(h) = \frac{\lambda_1 \rho(h-1) + \cdots + \lambda_q \rho(h-q)}

AR(p) Process (自回归过程)

  • 定义
  • 平稳条件:特征方程根 的所有根在单位圆内
  • AR(1) 条件

考点:如果 (单位根),过程有爆炸性(exponential growth),非平稳。这是单位根检验的核心。

Newey-West HAC (异方差-自相关一致标准误)

问题

  • 当误差项存在自相关时,OLS 的标准误公式 不再有效
  • 解决:Newey-West 估计量

Newey-West 公式

\hat{V}_{NW} = \hat{\sigma}^2 \left[ \sum_{t=1}^T X_t'X_t + \sum_{h=-H+1}^H \left(1+\frac{h}{H+1}\right)X_t'X_t\right] \right]^{-1}X'X'Y

其中 是同方差估计量, 是带宽参数, 是核函数。

PS4:计算 HAC 标准误,理解 Bartlett 核的作用是给远期干扰项赋予较小的权重。


Topic 1: Time Series Econometrics (时间序列计量)

ARIMA(p,d,q) Models

设定

  • 差分方程
  • 平稳条件 的所有根在单位圆内
  • AR 部分

单位根检验

  • ADF 统计量:检验原假设 (存在单位根)
  • 检验统计量
  • 临界值:取决于显著性水平和样本量

PS4:解释 ADF 统计量的极限分布,理解当原假设成立时统计量是标准正态分布。

ARMA(联合模型, 自回归移动平均)

VAR(Vector Autoregression, 向量自回归)

  • 设定
  • 矩阵形式
  • 含义:每个变量都是其自身和其他变量的滞后值的函数

Granger Causality (格兰杰因果性)

  • 定义:如果包含 的滞后项能显著改善 的预测,则称 Granger causes
  • 因果方向:Granger 因果性是单向的,从过去预测未来,而不是反向因果关系。

考点:Granger 因果性不等价于真实的因果关系,只是预测意义上的因果性。

Forecasting (预测)

预测准确度评估

  • MSE (均方误差)
  • MAD (平均绝对误差)

样本外预测 (Out-of-sample Forecasting)

  • 概念:用历史数据预测未来值
  • 滚动预测:使用滚动窗口(如最近 10 期)预测下一期
  • 模型选择:根据信息准则(AIC, BIC)选择滞后阶数

Topic 3: Panel Data Econometrics (面板数据)

Data Structure (数据结构)

双索引表示

  • 堆叠格式
  • 平衡面板:每个个体 相同
  • 非平衡面板 因人而异

滞后格式

  • 快格式
  • 长格式

静态面板模型

固定效应模型

  • 设定
  • 含义 是个体的固定效应(不随时间变化)

动态面板模型

一阶差分动态模型

  • 设定
  • 平稳性条件

GMM 估计量

  • 目标\bar{g}(\theta) = \frac{1}{N\sum_{i=1}^T g(y_{it}-\bar{y}_i, X_{it}, \theta)

估计方法比较

方法一致性渐近正态计算复杂度适用场景
Pooled OLS❌ (若 )简单❌ 短面板
RE (随机效应)⚠️ (若 ,不一致)简单✅ 短面板
FE (固定效应)较复杂✅ 长面板
FE-GMM简单⚠️ (若 非正态)

RE 方法利用了不同个体之间的变异信息,效率更高但前提是 (外生性)。FE 方法不需要这个假设,对短面板( 小)更适用。


Part 1 题型重点 (Otsu Exam Pattern Analysis)

Bootstrap 题型

  1. 理论证明:Bootstrap WLLN/CLT 的成立条件

    • 证明
    • 关键:需要验证
  2. Bootstrap vs 渐近理论

    • 比较两者在有限样本下的表现
    • 解释为什么 Bootstrap 在某些情况下更准确(特别是非对称分布)
  3. 应用题:计算 Bootstrap CI 并与 asymptotic CI 比较

Causal Inference 题型

  1. LATE 计算:给定工具变量 ,计算 Wald 估计量

    • 需要计算 First Stage 的回归系数
  2. DID 设定:建立回归

    • 估计 作为处理效应
  3. ATT vs ATE

    • ATT:(处理组的平均效应)
    • ATE:(总体平均效应)
    • 考点:如果处理组和对照组不可比,ATT 可能与 ATE 不同

LDV 题型

  1. Probit/Logit 估计

    • 使用 MLE 估计 (或仅
    • 计算边际效应:
  2. Tobit 似然函数

    • 最大化的目标函数
    • 解决方法:需要数值优化
  3. 截尾 vs OLS 比较

    • 展示 Tobit 估计量的偏差
    • 解释为什么 OLS 估计向下偏倚

Machine Learning 题型

  1. K 折交叉验证

    • 目的:选择最优岭参数
    • 计算:每个 的 CV 误差
  2. Lasso 解路径

    • 坐标下降的 KKT 条件
    • 稀疏解的性质: 较小时

Time Series 题型

  1. ARMA 识别

    • 根据 ACF/PACF 判断过程类型
    • 确定 的阶数
  2. 单位根检验

    • 计算检验统计量
    • 根据 MacKinnon 临界值做出决策
  3. Newey-West HAC

    • 给定 ,计算 Bartlett 核权重
    • 构建 HAC 一致方差协方差矩阵
  4. VAR 的简化

    • 在特定约束下简化 VAR 估计
    • 例如:施加系数约束

Panel Data 题型

  1. FE vs RE

    • Hausman 检验:比较固定效应和随机效应模型
    • 解释检验统计量的构造
    • 决策:根据 -value 和模型选择
  2. 动态面板

    • Arellano-Bond 估计:加入滞后因变量作为工具
    • 估计量的一致性证明
  3. 样本选择校正

    • 处理 attrition 导致的非平衡样本
    • 逆概率加权估计

Part 2 题型重点 (Hajivassiliou Exam Pattern Analysis)

Topic 0 题型

  1. 矩阵代数

    • 向量微积分
    • 分部积分技巧
  2. OLS 理论

    • 高斯-马尔可夫夫不等式
    • 线性估计量的性质
  3. 最优化问题

    • 拉格朗日乘子
    • 目标函数凸性检查

Time Series 题型

  1. 平稳性检验

    • ADF, PP, KPSS 检验
    • 解释每种检验的原假设
  2. ARIMA 模型设定

    • Box-Jenkins 方法
    • 识别和估计 ARMA 过程
  3. VAR 估计

    • Yule-Walker 方程
    • 检验系统的稳定性

Panel Data 题型

  1. 固定效应估计

    • 最小二乘虚拟变量法(LSDV)
    • 组内变换(Within transformation)
  2. 随机效应估计

    • GLS 方法
    • 矩阵代数求解
    • 方差分量模型
  3. 动态面板

    • GMM 估计
    • 处理初始条件和动态参数

考试策略

Part 1 (Otsu 部分)

  1. Bootstrap 题型

    • 证明时写清假设:iid 样本、有限方差、分布连续
    • 步骤完整:先说明 Bootstrap 构造,再证明收敛性质
  2. 因果推断题型

    • 先建立潜在结果框架
    • 明确写出识别假设
    • 推导估计量的表达式
  3. LDV 题型

    • Probit: 写出对数似然函数
    • Tobit: 写出截断的观测机制
    • 注意两类模型的不同假设

Part 2 (Hajivassiliou 部分)

  1. Topic 0 题型

    • 展示完整推导过程
    • 标明每一步的数学逻辑
  2. Time Series 题型

    • 推导 ADF 检验统计量的极限分布
    • 解释单位根检验的经济含义
  3. Panel Data 题型

    • 推导 Within transformation
    • 证明 变换的性质(对称性等幂等)
    • 比较 FE 和 RE 的渐近方差

常见考点速查 (Quick Reference)

统计量检验

检验原假设检验统计量决策规则
ADF单位根 $t_{\text{ADF}}> 1.96$ 时拒绝,更可能拒绝
PP单位根 检验 的零点同 ADF
KPSS2 个单位根两根都等于1
J-Bera系统单根检验与 PP 等价

估计方法

| 方法 | 公式/算法 | 适用条件 | 优缺点 | |------|----------|----------|----------|----------| | OLS | | 满秩,外生性 | 简单高效 | | 2SLS | | 外生 | 修正异方差 | 简单 | | GMM | | 最优加权 | 渐近正态 | | MLE | | 分布假设 | 窄面最有效 | | Bootstrap | | 无分布假设 | 稳健 |

因果推断

| 估计量 | 识别假设 | 适用条件 | |------|----------|----------|----------| | ATE | | 随机分配 | 简单 | | LATE | | 局部效应 | 单调性 + 排他性 | | Wald | | 工具变量有效性 | 2SLS/IV 替代 | | DID | | 平行趋势 | 假设验证 | | IV | | 外生性 | 不限制样本选择 |

高维推断

| 问题 | 解决方案 | |------|----------|----------|----------| | | Lasso 降维 + 岭回归 | 当预测变量多时有效 | | 样本选择 | 建模观测机制 + Heckman 两步法 | 处理选择性偏差 |


重要提示

考试时需要注意

  1. Bootstrap 题型

    • 区分 pairs bootstrap 和 residual bootstrap
    • Percentile-t CI 需要 才能精确
    • 注意偏差校正:
  2. 因果推断题型

    • DID 需要”平行趋势假设”
    • LATE 不等于 ATE(需要解释区别)
    • Wald 估计量的正确还原
  3. 时间序列题型

    • 单位根检验要明确检验的假设
    • Newey-West 的 是截断参数
  4. 面板数据题型

    • RE 需要 (外生性)
    • Within 估计量 一致收敛

公式速查

核心公式

Otsu 部分

  • Bootstrap 方差:
  • Bootstrap 标准误:

Hajivassiliou 部分

  • Within 变换: 是幂等矩阵
  • Wald 检验:)是自由度


文档说明

文件结构:

EC484_Review.md
├── Part 1: Taisuke Otsu (75 marks)
├── Bootstrap
├── Causal Inference  
├── Limited Dependent Variables
└── Machine Learning

└── Part 2: Vassilis Hajivassiliou (75 marks)
    ├── Topic 0 (Background)
    ├── Matrix Calculus
    └── OLS Theory
    ├── Time Series
    └── Panel Data
        ├── Data Structure
        ├── Fixed Effects
        ├── Dynamic Panels
        └── Estimation Methods
    └── Key Topics

内容特色:

  • ✅ 中英文双语术语
  • ✅ 直觉解释块
  • ✅ 公式完整
  • ✅ 题型分析
  • ✅ 考试策略
  • ✅ 速查表

使用方法:

  1. 按主题组织,按 Part 1 和 Part 2 分开
  2. 每个主题包含:核心概念、公式、直觉、应用、题型分析
  3. 使用 Obsidian callout 支持链接跳转
  4. 重点公式单独成块,方便快速复习

祝考试顺利!📚