EC484 Machine Learning

主要是汇总一些 EC484 Machine 课件的一些笔记和感悟。题目来源更多是 Problem Set 6 Q2.

Post Selection Inference

设定中是两个模型：

M_{1} M_{2} : Y = X_{1} β_{1} + X_{2} β_{2} + e : Y = X_{1} β_{1} + e

where $(X_{1} X_{2}) \sim N ((00), (1 ρ ρ 1))$ and $e \sim N (0, 1)$

其中一个做法就是，我们先对 $β_{2} = 0$ 做一个 t test （用 $M_{1}$ ）如果拒绝原假设，则我们就用 $M_{1}$ 跑回归，反之则用 $M_{2}$ 。But when $ρ$ is large and $β_{2}$ takes intermediate values, converge is severely distorted.

An example:

假设你研究教育( $X_{1}$ )对工资( $Y$ )的影响， $X_{2}$ 是工作经验，且教育和经验高度相关（ $ρ$ 大，比如受教育多的人往往工作经验少）。

场景： 真实世界中 $β_{2}$ （经验的效应）不大不小，处于”模糊地带”。

你拿到一份数据，做 t 检验：

如果这份数据碰巧让经验看起来不显著：你选 $M_{2}$ ，丢掉经验。但因为教育和经验高度相关，丢掉经验会让 $\hat{β}_{1}$ 偏大（遗漏变量偏误方向）。这种情况下你的 $\hat{β}_{1}$ 倾向于高估。
如果这份数据碰巧让经验看起来显著：你选 $M_{1}$ ，保留经验。这种情况下 $\hat{β}_{1}$ 没有遗漏偏误。

问题在于：你选哪个模型本身就取决于数据的随机波动。最终 $\hat{β}_{1}$ 的实际分布是两种情况的混合，但你构造置信区间时用的是单一模型下的标准误——完全忽略了”选模型”这一步引入的额外不确定性。所以 95% 的置信区间实际覆盖率远低于 95%。

See t test.

The right way to conduct the inference should be Partialling-out Lasso

August's Digital Garden

EC484 Machine Learning

Post Selection Inference

Graph View

Backlinks