Exam Information

Exam Format: Long-term paper (2 hours)

Paper Structure:

Part 1: Taisuke Otsu (50 marks)
- Bootstrap, Causal Inference, Limited Dependent Variables, Machine Learning
Part 2: Vassilis Hajivassiliou (50 marks)
- Topic 0, Time Series, Panel Data

Part 1: Taisuke Otsu

Topic 1: Bootstrap (自举法)

Key Concepts

Bootstrap (Bootstrap) 一种基于重采样的统计推断方法

直觉理解：通过从原始样本中有放回抽取大量"伪样本"(pseudo-samples)，模拟统计量的抽样分布。这让我们能在不依赖强分布假设的情况下推断置信区间和标准误。

核心价值：当理论分布未知或样本量较小、非标准时，Bootstrap 提供了一种更可靠的方法进行推断。

Bootstrap 算法步骤

基本算法 (Pairs Bootstrap)
- 原始样本： ${(Y_{i}, X_{i}), i = 1, \dots, n}$
- 从 ${1, \dots, n}$ 中有放回地随机抽取 $n$ 个观测值，构成 Bootstrap 样本
- 对每个 Bootstrap 样本，计算估计量 $\hat{θ}_{b}^{*}$ （例如 OLS 估计量）
- 重复 $B$ 次，得到 ${\hat{θ}_{1}^{*}, \dots, \hat{θ}_{B}^{*}}$
- 计算标准误： $s_{boot}^{2} = \frac{1}{B - 1} \sum_{b = 1}^{B} (\hat{θ}_{b}^{*} - \overset{ˉ}{\hat{θ}}^{*})^{2}$
置信区间 (CI) 构建
- 正态近似 CI： $C^{nb} = [\hat{θ} - z_{1 - α /2} s_{boot}^{*}, \hat{θ} + z_{1 - α /2} s_{boot}^{*}]$
- 百分位 CI： $C^{p c} = [q_{α /2}^{*}, q_{1 - α /2}^{*}]$ 其中 $q^{*}$ 是 ${\hat{θ}^{*}$ 的分位数
- Percentile-t CI：比正态近似更精确，收敛速度 $O (n^{- 3})$ vs $O (n^{- 1/2})$

Bootstrap 理论

Bootstrap CLT

条件： $E [∣ Z ∣^{2}] < \infty$ ， $n (\hat{θ}^{*} - θ) d N (0, V)$
结论： $n (\hat{θ}^{*} - θ) d N (0, V)$ 其中 $V = E [g (Z) \cdot Z^{'}$ （Bootstrap 估计的方差）

Bootstrap 一致性

条件： $G_{n}^{*} (u) \to G (u)$ 其中 $G_{n}^{*}$ 是样本经验分布
结论： $G_{n}^{*}$ 是 $G_{0}$ 的一致估计量

应用

1. OLS 回归

Bootstrap 样本：从 $(Y_{i}, X_{i})$ 中有放回抽取
估计： $\hat{β}_{boot}^{*}$ 是 Bootstrap OLS 估计量
用途：构造参数的置信区间和标准误

2. GMM

重中心化时刻： $\overset{g}{ˉ} (\hat{θ}) = \frac{1}{n} \sum_{i = 1}^{n} g (Z_{i}, \hat{θ})$
Bootstrap 权重矩阵： $\hat{Ω} = \frac{1}{n} \sum_{i = 1}^{n} g (Z_{i}, \hat{θ}) g (Z_{i}, \hat{θ})^{'}$
注意：需要使用 Recentered Bootstrap 以实现高阶精度的置信区间

题型模式

典型考题：

理论证明：证明 Bootstrap WLLN/CLT
计算题：计算 Bootstrap 标准误、置信区间
应用题：使用 Bootstrap 估计 ATE、LATE 或构建置信区间

PS1 Q3-4：理解 Bootstrap 的收敛性质，证明弱大数定律适用于 Bootstrap 样本

Topic 2: Causal Inference (因果推断)

Potential Outcomes Framework

潜在结果模型

$Y_{1}$ ：如果受到处理的结果
$Y_{0}$ ：如果没有受到处理的结果
观测结果： $Y = W \cdot Y_{1} + (1 - W) \cdot Y_{0}$

核心识别问题： $E [Y_{1} - Y_{0}]$ 无法识别，因为我们永远无法同时观察到同一个体在处理组和对照组的结果。

识别策略

1. Randomization (随机化)

**假设： $(R)$ 处理分配与潜在结果独立
直觉：随机分配打破了处理与潜在结果的任何相关性，使得 $E [Y_{1} - Y_{0} ∣ W, X] = E [Y_{1} - Y_{0} ∣ X]$ 成立
识别量：ATE（平均处理效应） $= E [Y_{1} - Y_{0}] = E [Y_{1}] - E [Y_{0}]$

2. Conditional Independence (条件独立性, CI)

假设： ${(Y_{0}, Y_{1}), X} ⊥ W$
直觉：给定控制变量 $X$ ，处理变量 $W$ 与潜在结果条件独立
识别量： $θ (x) = E [Y_{1} - Y_{0} ∣ X = x]$
估计： $\hat{θ} (x) = \frac{1}{n _{0}} \sum_{i : W_{i} = 1} Y_{i} - \frac{1}{n _{1}} \sum_{i : W_{i} = 0} Y_{i}$ （匹配估计量，条件期望差）

3. Inverse Propensity Score Weighting (逆概率加权)

倾向得分： $p (X) = P [W = 1∣ X = x]$
权重： $w_{i} = \frac{p ( X _{i} )}{1 - p ( X _{i} )}$ （处理者权重 $1/ p$ ，对照组权重 $1/ (1 - p)$ ）
估计量： $\hat{θ}_{IPS} = \sum_{i = 1}^{n} w_{i} Y_{i}$

4. Instrumental Variables (工具变量, IV)

设定： $Y = D θ + Xβ + ϵ$ ， $D = Z γ + V$ ， $Z$ 为 IV
假设： $E [ϵ ∣ Z, X, V] = 0$ ， $C o v (Z, ϵ) = 0$
识别条件： $C o v (Z, X) \neq = 0$ 且 $γ \neq = 0$ （IV 相关性强）
2SLS 估计： $\hat{θ}_{2 S L S} = \frac{E [ Z ^{'} Y ]}{E [ Z ^{'} X ]}$

Difference-in-Differences (DID, 双差分)

DID 估计量

公式： $\hat{θ}_{DID} = (\overset{ˉ}{Y}_{T, treated}^{P os t} - \overset{ˉ}{Y}_{T, treated}^{P re}) - (\overset{ˉ}{Y}_{C, treated}^{P os t} - \overset{ˉ}{Y}_{C, treated}^{P re})$
直觉：DID 消除了时间趋势和对照组的初始差异，分离出处理效应。前提是”平行趋势假设”(Parallel Trends Assumption)。

回归设定

$Y_{i t} = β_{0} + β_{1} Treated_{i t} \cdot Post_{t} + β_{2} Treated_{i t} \cdot Post + β_{3} Treated_{i t} \cdot Post + u_{i t} + λ_{t} + α_{i}$
DID 参数： $β_{1}$ （处理效应）

Local Average Treatment Effect (LATE, 局部平均处理效应)

LATE 设定

四个类型：Never-taker, Complier, Always-taker, Defier
潜在状态： $(W_{0}, W_{1})$ ： $Z = 0$ 和 $Z = 1$ 时处理状态
LATE 定义： $θ_{LATE} = E [Y_{1} - Y_{0} ∣ W_{1} > W_{0}]$ （Compliers 的平均处理效应）

识别条件

Independence: $(Y_{0}, Y_{1}, W_{0}, W_{1}) ⊥ Z$
Monotonicity: $P [W_{1} \geq W_{0} ∣ Z] \geq P [W_{1} \geq W_{0} ∣ Z]$ （工具变量增加处理概率的单调性）
Exclusion Restriction: $P [W_{1} = 1∣ Z = 1, W_{0} = 0] = P [W_{1} = 1∣ Z, W_{0} = 1] \geq P [W_{1} = 1∣ Z]$ （工具变量只通过 $W_{1}$ 影响处理）

Wald 估计量

公式： $\hat{θ}_{LATE} = \frac{Y ˉ _{Z = 1} - Y ˉ _{Z = 1}}{W ˉ _{Z = 1} - W ˉ _{Z = 0}} \overset{ˉ}{W}_{Z = 1} - \overset{ˉ}{W}_{Z = 1}$
还原： $\hat{θ}_{LATE} = \frac{Y ˉ _{Complier} - Y ˉ _{Non-complier}}{W ˉ _{Complier} - W ˉ _{Non-complier}}$

LATE 捕捉的是工具变量引起的处理效应变化，适用于那些对工具变量有反应的个体。这个估计量不一定等于 ATE，但它是最容易识别的平均处理效应。

Topic 3: Limited Dependent Variables (受限因变量, LDV)

Binary Choice Models (二值选择模型)

Probit 模型

设定： $Y = I {X^{'} β > 0}$ ， $Y^{*} = X^{'} β + ϵ$ ， $ϵ \sim N (0, 1)$
潜变量： $Y^{*} = X^{'} β + ϵ$
概率： $P [Y = 1∣ X = x] = Φ (X^{'} β)$
对数似然： $ℓ (β) = \sum_{i = 1}^{n} [Y_{i} lo g Φ (X_{i}^{'} β) + (1 - Y_{i}) lo g (1 - Φ (X_{i}^{'} β))]$

Logit 模型

设定：概率函数为 Logit： $P [Y = 1∣ X = x] = \frac{e x p ( X ^{'} β )}{1 + e x p ( X ^{'} β )}$
对数似然： $ℓ (β) = \sum_{i = 1}^{n} [Y_{i} X_{i}^{'} β - lo g (1 + exp (X_{i}^{'} β))]$
优势：无 IIA 假设，且计算更简单

Logit 的优势在于它不需要独立无关选项假设(IIA)，这在现实中更合理。

Ordered Models (有序模型)

Ordered Probit/Logit

设定： $U^{*} = X^{'} β + ϵ$ ， $Y = ⎩ ⎨ ⎧ 12 ⋮ if U^{*} \leq α_{1} if α_{1} < U^{*} \leq α_{2} k + 1 if α_{k} < U^{*} \leq α_{k + 1}$
识别： $β, α_{1}, \dots, α_{k}$ 通过 MLE 估计

Censored Data (截尾数据)

Tobit 模型

潜变量： $Y^{*} = X^{'} β + ϵ$ ， $ϵ \sim N (0, σ^{2})$
观测： $Y = max {0, Y^{*}}$
概率： $P [Y = y ∣ X = x] = {Φ (- X^{'} β / σ) \frac{1}{σ} ϕ ((y - X^{'} β) / σ) y > 0 y = 0$
对数似然：基于这个概率分布构建

截尾发生在 $Y^{*} \leq 0$ 时，OLS 会对小于零的观测值产生系统性偏差（因为 $E [Y ∣ X = x] \neq = E [Y^{*} ∣ X = x] = X^{'} β$ ），导致估计量 $\hat{β}$ 向零方向偏倚。

Censored LAD (绝对损失)

目标函数： $Q_{n} (β) = \sum_{i = 1}^{n} ∣ Y_{i} - max {0, X_{i}^{'} β} ∣$
优势：只需要中位数假设 $Med [ϵ ∣ X] = 0$ ，不需要正态性假设，估计量 $n$ 一致收敛

Sample Selection Models (样本选择模型)

Heckman Selection Model

问题：样本不是随机抽取的，而是某些个体被排除的（例如只有高收入者参与调查）
设定：
- 选择方程： $D = Z^{'} γ + u$ ， $D = 1$ 如果 $Z^{'} γ + u > 0$
- 结果方程： $Y = X^{'} β + α D + ϵ$ ， $Y$ 观测仅当 $D = 1$ 时
识别条件： $E [ϵ ∣ X, Z] = 0$ ， $Cov (ϵ, u) = 0$
OLS 问题：在 $D = 1$ 的子样本中估计 $β$ 会产生选择偏差

样本选择机制使得样本不再是总体的代表，简单的 OLS 估计不再有效。Heckman 两步法通过建模选择过程来校正这个偏差。

Topic 4: Machine Learning (机器学习)

Bias-Variance Trade-off (偏差-方差权衡)

增加更多变量可以减少偏差（模型更接近真实），但会增加方差（模型对训练数据过拟合）。

模型复杂度与预测误差

训练误差： $Err_{train} = E [(Y - \hat{f}_{train} (X))^{2}]$
泛化误差： $Err_{test} = E [(Y - \hat{f}_{test} (X))^{2}]$ （ $X$ 来自与训练分布不同的总体）
偏差-方差权衡：选择适当的模型复杂度

Ridge Regression (岭回归)

设定

目标： $min_{β} ∥ β ∥_{2}^{2} + λ ∥ β ∥_{2}$ 其中 $λ > 0$ 是岭参数
解： $\hat{β}_{R} = (X^{'} X + λ I_{p})^{- 1} X^{'} Y$
性质： $\hat{β}_{R}$ 有偏（shrinkage toward zero），方差更小

Ridge 通过惩罚大系数防止过拟合，适合 $p > n$ 的高维情况。岭参数 $λ$ 通常通过交叉验证选择。

关于如何理解p-norm

Lasso Regression (最小绝对收缩)

设定

目标： $min_{β} ∥ β ∥_{2} + λ ∥ β ∥_{1}$ （注意是 $l_{1}$ -norm）
解：无显式解，使用优化算法（如坐标下降）
性质：稀疏性（sparse）：许多 $\hat{β}_{L, j}$ 被压缩为零

Lasso 同时进行变量选择和系数收缩，特别适合当真实 $β$ 本身稀疏时。 $l_{1}$ 惩罚使得不重要的变量系数为零。

所以 Lasso 本质上是一种降维的方法，但是由于是显示解，是否代表着考试不会重点考察呢？（迷思）

High-Dimensional Inference (高维推断)

Lasso IV

第一步：对每个 $X_{j}$ 用 Lasso 估计其与工具变量 $Z$ 的关系
第二步：用 Lasso 估计量 $\hat{X}_{L}$ 作为工具变量
第二步回归： $\hat{β}_{LIV} = (\hat{X}_{L}^{'} \hat{X}_{L})^{- 1} \hat{X}_{L}^{'} Y$

当工具变量 $p ≫ n$ 时，传统 IV 失效。Lasso 通过降维选择有效的工具变量，使得 IV 回归可行。

Partialling-Out Lasso

设定： $Y = D θ + X^{'} β + ϵ$ ， $D = Z^{'} γ + u$
第一步：用 Lasso 估计 $Y$ 对 $X$ 和 $Z$ 的关系（去噪）
第二步：用 Lasso 估计 $D$ 对 $Z$ 的关系（去噪）
最终回归：在去噪后的残差上估计 $θ$

Partialling-out Lasso 通过分离变量选择步骤和估计步骤，使得 $θ$ 的估计量渐近正态且有效。

Part 2: Vassilis Hajivassiliou

Topic 0: Mathematical Background (数学背景)

Key Concepts (基本假设)

Weak Stationarity (弱平稳性)
- 定义： $E [Y_{t}] = μ$ （常数）， $Cov (Y_{t + h}, Y_{t}) = γ (h)$ （仅依赖于间隔 $h$ ）
- 数学表示： $Y_{t} = μ + η_{t}$ ，其中 $η_{t}$ 是平稳过程
Strict Stationarity (严平稳性)
- 定义：分布 $f (Y_{t})$ 不随时间变化（与 $t$ 无关）
- 更强条件：严平稳性意味着弱平稳性且整个分布平稳（不依赖时间位置）
Ergodicity (各态历经性)
- 定义：样本均值收敛到总体均值： $\overset{ˉ}{Y} p E [Y_{t}]$
- 意义：保证大数定律适用于时间序列样本

如果序列是非各态历经的（如带有永久初始条件 $W_{0}$ 的随机游走），样本均值可能不收敛到总体均值，OLS 估计量会不一致。

White Noise (白噪声)
- 定义： ${ϵ_{t}}$ 满足 $E [ϵ_{t}] = 0$ ， $Cov (ϵ_{t + h}, ϵ_{t}) = 0$ （序列不相关）
- 性质：白噪声是最简单的时间序列模型，是所有模型的基础。

Stochastic Processes (随机过程)

MA(q) Process (移动平均过程)

定义： $Y_{t} = ϵ_{t} + λ_{1} ϵ_{t - 1} + \dots + λ_{q} ϵ_{t - q}$
平稳性：总是平稳的，自相关在 $q$ 阶后消失
ACF 特征：自相关函数 $\rho(h) = \frac{\lambda_1 \rho(h-1) + \cdots + \lambda_q \rho(h-q)}$

AR(p) Process (自回归过程)

定义： $Y_{t} = γ_{1} Y_{t - 1} + \dots + γ_{p} Y_{t - p} + ϵ_{t}$
平稳条件：特征方程根 $1 - γ_{1} z - \dots - γ_{p} z^{p}$ 的所有根在单位圆内
AR(1) 条件： $∣ γ_{1} ∣ < 1$

考点：如果 $∣ γ_{1} ∣ = 1$ （单位根），过程有爆炸性（exponential growth），非平稳。这是单位根检验的核心。

Newey-West HAC (异方差-自相关一致标准误)

问题

当误差项存在自相关时，OLS 的标准误公式 $\hat{V} = \overset{σ}{^}^{2} (X^{'} X)^{- 1} X^{'} Y$ 不再有效
解决：Newey-West 估计量

Newey-West 公式

$\hat{V}_{NW} = \hat{\sigma}^2 \left[ \sum_{t=1}^T X_t'X_t + \sum_{h=-H+1}^H \left(1+\frac{h}{H+1}\right)X_t'X_t\right] \right]^{-1}X'X'Y$

其中 $\overset{σ}{^}^{2}$ 是同方差估计量， $H = 1 + \frac{2}{3}$ 是带宽参数， $K (H)$ 是核函数。

PS4：计算 HAC 标准误，理解 Bartlett 核的作用是给远期干扰项赋予较小的权重。

Topic 1: Time Series Econometrics (时间序列计量)

ARIMA(p,d,q) Models

设定

差分方程： $Δ^{p} Y_{t} = (1 - \sum_{j = 1}^{p} Δ^{j} Y_{t - j}) + ϵ_{t}$
平稳条件： $Δ^{p} (z) = 1 - \sum_{j = 1}^{p} Δ^{j} z^{j}$ 的所有根在单位圆内
AR 部分： $Φ^{p} (z) = 1 - \sum_{j = 1}^{p} Δ^{j} z^{- j}$

单位根检验

ADF 统计量：检验原假设 $H_{0} : ρ = 1$ （存在单位根）
检验统计量： $t_{ADF} = \frac{ρ ^ - 1}{Var ( ρ ^ - 1 )}$
临界值：取决于显著性水平和样本量

PS4：解释 ADF 统计量的极限分布，理解当原假设成立时统计量是标准正态分布。

ARMA(联合模型, 自回归移动平均)

VAR(Vector Autoregression, 向量自回归)

设定： $Y_{t} = \sum_{j = 1}^{p} B_{j} Y_{t - j} + ϵ_{t}$ ， $Y_{t} \in R^{k}$
矩阵形式： $Y_{t} = B Y_{t - 1} + ϵ_{t}$
含义：每个变量都是其自身和其他变量的滞后值的函数

Granger Causality (格兰杰因果性)

定义：如果包含 $X_{t - 1}, \dots, X_{t - k}$ 的滞后项能显著改善 $Y_{t}$ 的预测，则称 $X$ Granger causes $Y$ 。
因果方向：Granger 因果性是单向的，从过去预测未来，而不是反向因果关系。

考点：Granger 因果性不等价于真实的因果关系，只是预测意义上的因果性。

Forecasting (预测)

预测准确度评估

MSE (均方误差)： $MSE = \frac{1}{n} \sum_{t = 1}^{T} (Y_{t + h} - \hat{Y}_{t + h ∣ X_{t}})^{2}$
MAD (平均绝对误差)： $MAD = \frac{1}{n} \sum_{t = 1}^{T} ∣ Y_{t + h} - \hat{Y}_{t + h ∣ X_{t}} ∣$

样本外预测 (Out-of-sample Forecasting)

概念：用历史数据预测未来值
滚动预测：使用滚动窗口（如最近 10 期）预测下一期
模型选择：根据信息准则（AIC, BIC）选择滞后阶数

Topic 3: Panel Data Econometrics (面板数据)

Data Structure (数据结构)

双索引表示

堆叠格式： $(y_{1}, \dots, y_{S}, x_{1}, \dots, x_{S})^{T} \cdot β + ϵ$
平衡面板：每个个体 $i$ 的 $T_{i}$ 相同
非平衡面板： $T_{i}$ 因人而异

滞后格式

快格式： ${y_{i t}}_{i = 1, t = 1}^{N \times 1}$
长格式： ${y_{i t}}_{i = 1}^{N \times T_{i}}$

静态面板模型

固定效应模型

设定： $y_{i t} = α_{i} + X_{i t}^{'} β + ϵ_{i t} + u_{i}$
含义： $α_{i}$ 是个体的固定效应（不随时间变化）

动态面板模型

一阶差分动态模型

设定： $y_{i t} = δ y_{i, t - 1} + ρ y_{i, t - 1} + X_{i t}^{'} β + Δ ϵ_{i t}$
平稳性条件： $∣ ρ ∣ < 1$

GMM 估计量

目标： $\bar{g}(\theta) = \frac{1}{N\sum_{i=1}^T g(y_{it}-\bar{y}_i, X_{it}, \theta)$

估计方法比较

方法	一致性	渐近正态	计算复杂度	适用场景
Pooled OLS	❌ (若 $E [α_{i} X] \neq = 0$ )	❌	简单	❌ 短面板
RE (随机效应)	⚠️ (若 $E [α_{i} X] \neq = 0$ ，不一致)	✅	简单	✅ 短面板
FE (固定效应)	✅	✅	较复杂	✅ 长面板
FE-GMM	✅	✅	简单	⚠️ (若 $α$ 非正态)

RE 方法利用了不同个体之间的变异信息，效率更高但前提是 $E [α_{i} X] = 0$ （外生性）。FE 方法不需要这个假设，对短面板（ $T$ 小）更适用。

Part 1 题型重点 (Otsu Exam Pattern Analysis)

Bootstrap 题型

理论证明：Bootstrap WLLN/CLT 的成立条件
- 证明 $n (\overset{ˉ}{\hat{θ}}^{*} - θ) d N (0, V)$
- 关键：需要验证 $E [g (Z)^{2}] < \infty$ 且 $E [g (Z)] = 0$
Bootstrap vs 渐近理论
- 比较两者在有限样本下的表现
- 解释为什么 Bootstrap 在某些情况下更准确（特别是非对称分布）
应用题：计算 Bootstrap CI 并与 asymptotic CI 比较

Causal Inference 题型

LATE 计算：给定工具变量 $Z$ ，计算 Wald 估计量
- 需要计算 First Stage 的回归系数 $\hat{Γ}$ 和 $\overset{π}{^}$
DID 设定：建立回归 $Y = β_{0} Treated \times Post + β_{1} Treated \times Post + \dots$
- 估计 $β_{1}$ 作为处理效应
ATT vs ATE
- ATT： $E [Y_{1} - Y_{0} ∣ Treated = 1, Post = 1]$ （处理组的平均效应）
- ATE： $E [Y_{1} - Y_{0}]$ （总体平均效应）
- 考点：如果处理组和对照组不可比，ATT 可能与 ATE 不同

LDV 题型

Probit/Logit 估计
- 使用 MLE 估计 $β$ 和 $σ$ （或仅 $β$ ）
- 计算边际效应： $\frac{\partial P [ Y = 1∣ X = x ]}{\partial x} = g (X^{'} β)$
Tobit 似然函数
- 最大化的目标函数
- 解决方法：需要数值优化
截尾 vs OLS 比较
- 展示 Tobit 估计量的偏差
- 解释为什么 OLS 估计向下偏倚

Machine Learning 题型

K 折交叉验证
- 目的：选择最优岭参数 $λ$
- 计算：每个 $λ$ 的 CV 误差
Lasso 解路径
- 坐标下降的 KKT 条件
- 稀疏解的性质： $\hat{β}_{L, j} = 0$ 当 $∣ X_{ij} ∣$ 较小时

Time Series 题型

ARMA 识别
- 根据 ACF/PACF 判断过程类型
- 确定 $p$ 和 $q$ 的阶数
单位根检验
- 计算检验统计量
- 根据 MacKinnon 临界值做出决策
Newey-West HAC
- 给定 $H$ ，计算 Bartlett 核权重
- 构建 HAC 一致方差协方差矩阵
VAR 的简化
- 在特定约束下简化 VAR 估计
- 例如：施加系数约束

Panel Data 题型

FE vs RE
- Hausman 检验：比较固定效应和随机效应模型
- 解释检验统计量的构造
- 决策：根据 $p$ -value 和模型选择
动态面板
- Arellano-Bond 估计：加入滞后因变量作为工具
- 估计量的一致性证明
样本选择校正
- 处理 attrition 导致的非平衡样本
- 逆概率加权估计

Part 2 题型重点 (Hajivassiliou Exam Pattern Analysis)

Topic 0 题型

矩阵代数
- 向量微积分
- 分部积分技巧
OLS 理论
- 高斯-马尔可夫夫不等式
- 线性估计量的性质
最优化问题
- 拉格朗日乘子
- 目标函数凸性检查

Time Series 题型

平稳性检验
- ADF, PP, KPSS 检验
- 解释每种检验的原假设
ARIMA 模型设定
- Box-Jenkins 方法
- 识别和估计 ARMA 过程
VAR 估计
- Yule-Walker 方程
- 检验系统的稳定性

Panel Data 题型

固定效应估计
- 最小二乘虚拟变量法（LSDV）
- 组内变换（Within transformation）
随机效应估计
- GLS 方法
- 矩阵代数求解
- 方差分量模型
动态面板
- GMM 估计
- 处理初始条件和动态参数

考试策略

Part 1 (Otsu 部分)

Bootstrap 题型
- 证明时写清假设：iid 样本、有限方差、分布连续
- 步骤完整：先说明 Bootstrap 构造，再证明收敛性质
因果推断题型
- 先建立潜在结果框架
- 明确写出识别假设
- 推导估计量的表达式
LDV 题型
- Probit: 写出对数似然函数
- Tobit: 写出截断的观测机制
- 注意两类模型的不同假设

Part 2 (Hajivassiliou 部分)

Topic 0 题型
- 展示完整推导过程
- 标明每一步的数学逻辑
Time Series 题型
- 推导 ADF 检验统计量的极限分布
- 解释单位根检验的经济含义
Panel Data 题型
- 推导 Within transformation
- 证明 $Q$ 变换的性质（对称性等幂等）
- 比较 FE 和 RE 的渐近方差

常见考点速查 (Quick Reference)

统计量检验

检验	原假设	检验统计量	决策规则
ADF	单位根 $ρ = 1$	$t_{ADF}$	$	t_{\text{ADF}}	> 1.96$ 时拒绝	若 $τ < 0$ ，更可能拒绝
PP	单位根 $ρ = 1$	$t_{PP}$	检验 $ϕ (z)$ 的零点	同 ADF
KPSS	2 个单位根	$ϕ_{1} (z)$ 和 $ϕ_{2} (z)$	两根都等于1	$ϕ (1) ϕ (2) = 0$
J-Bera	系统单根检验	$π (z)$	$ϕ (1) π (2) = 0$	与 PP 等价

估计方法

| 方法 | 公式/算法 | 适用条件 | 优缺点 | |------|----------|----------|----------|----------| | OLS | $(X^{'} X)^{- 1} X^{'} Y$ | $X$ 满秩，外生性 | 简单高效 | | 2SLS | $E [Z^{'} ϵ ∣ X] = 0$ | $X$ 外生 | 修正异方差 | 简单 | | GMM | $\hat{θ} = ar g min ∥ g (θ) ∥ W^{2}$ | 最优加权 | 渐近正态 | | MLE | $max_{θ} \prod f (y ∣ θ)$ | 分布假设 | 窄面最有效 | | Bootstrap | $\frac{1}{B} \sum (\hat{θ}_{b} - \overset{ˉ}{θ})^{2}$ | 无分布假设 | 稳健 |

因果推断

| 估计量 | 识别假设 | 适用条件 | |------|----------|----------|----------| | ATE | $E [Y_{1} - Y_{0} ∣ W]$ | 随机分配 | 简单 | | LATE | $E [Y_{1} - Y_{0} ∣ W_{1} > W_{0}]$ | 局部效应 | 单调性 + 排他性 | | Wald | $\frac{Y ˉ _{Z = 1} - Y ˉ _{Z = 1}}{W ˉ _{Z = 1} - W ˉ _{Z = 0}}$ | 工具变量有效性 | 2SLS/IV 替代 | | DID | $Δ \overset{ˉ}{Y}_{T, C}^{P os t} - Δ \overset{ˉ}{Y}_{C}^{P re}$ | 平行趋势 | 假设验证 | | IV | $E [Z^{'} D] = 0, Cov (Z, D) \neq = 0$ | 外生性 | 不限制样本选择 |

高维推断

| 问题 | 解决方案 | |------|----------|----------|----------| | $p ≫ n$ | Lasso 降维 + 岭回归 | 当预测变量多时有效 | | 样本选择 | 建模观测机制 + Heckman 两步法 | 处理选择性偏差 |

重要提示

考试时需要注意

Bootstrap 题型
- 区分 pairs bootstrap 和 residual bootstrap
- Percentile-t CI 需要 $B \geq 1000$ 才能精确
- 注意偏差校正： $\hat{θ}_{bias-corrected} = 2 \hat{θ}^{*} - \hat{θ}$
因果推断题型
- DID 需要”平行趋势假设”
- LATE 不等于 ATE（需要解释区别）
- Wald 估计量的正确还原
时间序列题型
- 单位根检验要明确检验的假设
- Newey-West 的 $K (H)$ 是截断参数
面板数据题型
- RE 需要 $E [α_{i} X] = 0$ （外生性）
- Within 估计量 $n$ 一致收敛

公式速查

核心公式

Otsu 部分

Bootstrap 方差： $\hat{V}_{boot} = \frac{1}{B - 1} \sum_{b = 1}^{B} (\hat{θ}_{b} - \overset{ˉ}{\hat{θ}})^{2}$
Bootstrap 标准误： $s_{boot} = \hat{V}_{boot}$

Hajivassiliou 部分

Within 变换： $Q = I_{N} - X (X \otimes) D$ 是幂等矩阵
Wald 检验： $J = N \cdot K + k_{z}$ （ $N \cdot k_{z}$ ）是自由度

文档说明

文件结构：

EC484_Review.md
├── Part 1: Taisuke Otsu (75 marks)
├── Bootstrap
├── Causal Inference  
├── Limited Dependent Variables
└── Machine Learning

└── Part 2: Vassilis Hajivassiliou (75 marks)
    ├── Topic 0 (Background)
    ├── Matrix Calculus
    └── OLS Theory
    ├── Time Series
    └── Panel Data
        ├── Data Structure
        ├── Fixed Effects
        ├── Dynamic Panels
        └── Estimation Methods
    └── Key Topics

内容特色：

✅ 中英文双语术语
✅ 直觉解释块
✅ 公式完整
✅ 题型分析
✅ 考试策略
✅ 速查表

使用方法：

按主题组织，按 Part 1 和 Part 2 分开
每个主题包含：核心概念、公式、直觉、应用、题型分析
使用 Obsidian callout 支持链接跳转
重点公式单独成块，方便快速复习

祝考试顺利！📚

August's Digital Garden

EC484 Review Notes

Exam Information

Part 1: Taisuke Otsu

Topic 1: Bootstrap (自举法)

Key Concepts

Bootstrap 算法步骤

Bootstrap 理论

应用

1. OLS 回归

2. GMM

题型模式

Topic 2: Causal Inference (因果推断)

Potential Outcomes Framework

识别策略

1. Randomization (随机化)

2. Conditional Independence (条件独立性, CI)

3. Inverse Propensity Score Weighting (逆概率加权)

4. Instrumental Variables (工具变量, IV)

Difference-in-Differences (DID, 双差分)

DID 估计量

回归设定

Local Average Treatment Effect (LATE, 局部平均处理效应)

LATE 设定

识别条件

Wald 估计量

Topic 3: Limited Dependent Variables (受限因变量, LDV)

Binary Choice Models (二值选择模型)

Probit 模型

Logit 模型

Ordered Models (有序模型)

Ordered Probit/Logit

Censored Data (截尾数据)

Tobit 模型

Censored LAD (绝对损失)

Sample Selection Models (样本选择模型)

Heckman Selection Model

Topic 4: Machine Learning (机器学习)

Bias-Variance Trade-off (偏差-方差权衡)

模型复杂度与预测误差

Ridge Regression (岭回归)

设定

Lasso Regression (最小绝对收缩)

设定

High-Dimensional Inference (高维推断)

Lasso IV

Partialling-Out Lasso

Part 2: Vassilis Hajivassiliou

Topic 0: Mathematical Background (数学背景)

Key Concepts (基本假设)

Stochastic Processes (随机过程)

MA(q) Process (移动平均过程)

AR(p) Process (自回归过程)

Newey-West HAC (异方差-自相关一致标准误)

问题

Newey-West 公式

Topic 1: Time Series Econometrics (时间序列计量)

ARIMA(p,d,q) Models

设定

单位根检验

ARMA(联合模型, 自回归移动平均)

VAR(Vector Autoregression, 向量自回归)

Granger Causality (格兰杰因果性)

Forecasting (预测)

预测准确度评估

样本外预测 (Out-of-sample Forecasting)

Topic 3: Panel Data Econometrics (面板数据)

Data Structure (数据结构)

双索引表示

滞后格式

静态面板模型

固定效应模型

动态面板模型

一阶差分动态模型

GMM 估计量

估计方法比较

Part 1 题型重点 (Otsu Exam Pattern Analysis)

Bootstrap 题型

Causal Inference 题型

LDV 题型