Econometrics

我的想法

横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。和 Time-Series Analysis 有区别,

比如相同时间内不同公司的收入(同一指标),就是在同一时间点上比较不同个体(这里是不同地区)的数据。

比如我们用同一个时间截面上 2351 个 PUMA 地区的数据,比较不同地区的 、税率和气候。这就是 cross-sectional analysis。

它的核心局限是无法区分因果关系和相关关系。因为你只观察到一个时间点的快照,无法知道是 导致了 ,还是 导致了 ,还是有某个遗漏变量同时驱动了两者。

这正是讲稿中提到 t_pinc 正系数时的问题——我们观察到高所得税州工资也高,但无法判断是高税率导致高工资(不合理),还是高工资导致高税率(累进税制下更可能),还是某个第三因素(如沿海大城市的产业结构)同时推高了两者。

与之对比的是面板数据(panel data)分析,即追踪同一批个体在多个时间点的变化。你在 EC423 和dissertation 研究中使用的 difference-in-differences 方法就是利用面板数据的时间维度来建立因果推断——观察政策变化前后同一地区的变化,而不是在同一时间比较不同地区。

Reference