我的想法
横截面数据是在同一时间,不同统计单位相同统计指标组成的数据列。和 Time-Series Analysis 有区别,
比如相同时间内不同公司的收入(同一指标),就是在同一时间点上比较不同个体(这里是不同地区)的数据。
比如我们用同一个时间截面上 2351 个 PUMA 地区的数据,比较不同地区的 、税率和气候。这就是 cross-sectional analysis。
它的核心局限是无法区分因果关系和相关关系。因为你只观察到一个时间点的快照,无法知道是 导致了 ,还是 导致了 ,还是有某个遗漏变量同时驱动了两者。
这正是讲稿中提到 t_pinc 正系数时的问题——我们观察到高所得税州工资也高,但无法判断是高税率导致高工资(不合理),还是高工资导致高税率(累进税制下更可能),还是某个第三因素(如沿海大城市的产业结构)同时推高了两者。
与之对比的是面板数据(panel data)分析,即追踪同一批个体在多个时间点的变化。你在 EC423 和dissertation 研究中使用的 difference-in-differences 方法就是利用面板数据的时间维度来建立因果推断——观察政策变化前后同一地区的变化,而不是在同一时间比较不同地区。
Reference
- 【面板数据1/面板数据的定义、时间序列数据、横截面数据、面板数据的优点和缺点】 https://www.bilibili.com/video/BV1Kg411o7ot?vd_source=b29ec883c6f3ba1823bb0b57c6b943e1