Done List

完成 EC487 Pset 5
完成了 Stata Code
去卓希家拿了箱子

Tomorrow To Do

上午开会，然后系统学习 Labour
下午开会
晚上系统学习计量，尝试完成作业

今日杂谈

会议准备笔记 — 2026.02.26

一、重点结果发现

Main Regression

最强结果：g62（退耕还林补贴）

All 样本 Joint p = 0.0015，三套样本均显著
beta3 < 0，beta4 > 0，符号方向符合理论预期
Winsorized 和非线性形式下均显著，结果稳健
Village FE 和 County FE 结果高度一致

subsidy（净政府补贴）有条件显著

Winsorized 版本 joint F 不显著（p=0.19）
Ln(1+x)、IHS、Dummy 版本在 All 样本下 p ≈ 0.02
beta4 在 All 样本 Winsorized 版 p = 0.086（边际显著）

g61（救灾救济与养老金）边际显著

All 和 Resi≥350 样本 p ≈ 0.07–0.08
beta3 负、beta4 正，方向一致

g2（集体收入）不显著

所有规格 joint p > 0.28
理论上可解释：集体收入与普通话能力关系弱于政府补贴

g2 政府

Balancing Test

变量	All	Resi≥350	Resi≥180	说明
num_children	p=0.274 ✓	p=0.467 ✓	p=0.393 ✓	完全通过
childmale	p=0.020 ✗	p=0.081 ~	p=0.319 ✓	严格样本下消失
huzhu_age	p=0.034 ✗	p=0.046 ✗	p=0.037 ✗	机械相关，可解释
huzhu_edu	p=0.000 ✗	p=0.004 ✗	p=0.002 ✗	需讨论

地理 FE 探究（Village / County / 片区）对 huzhu_edu 完全无改善，说明问题来自 birth_year × language affinity 交互维度本身。

好消息（可以直接说）

num_children 完全通过，三套样本 p 值均在 0.27 以上，说明家庭孩子数量在断点附近没有系统性变化，这是最干净的预定特征。

childmale 在严格样本下消失，Resi≥350 时 p=0.08，Resi≥180 时 p=0.32，说明加上在家天数限制之后孩子性别的问题基本解决了。这是一个正面信号，支持使用更严格样本作为主样本。

需要向导师解释的

huzhu_age 显著但可解释。户主年龄和孩子出生年份天然高度相关——1974年生的孩子，父母必然在某个年龄段生育的。这种相关是数据结构本身决定的，不是识别策略失效的证据。建议请导师确认这个解释在论文里是否充分。

需要向导师寻求指导的【最重要】

huzhu_edu 在所有规格下高度显著（p < 0.001），而且换地理 FE 完全没有改善。这说明问题不是地区人口结构差异造成的，而是 birth_year × language affinity 这个交互维度本身存在系统性关联。

具体来说，户主教育程度在不同出生队列和不同语言亲近度地区之间存在系统性差异，这可能意味着语言亲近度高的地区本身教育水平就更高，而且这种差异随出生队列变化。

需要向导师提的问题是：这个结果是否构成对识别策略的实质威胁？有没有可以在论文中论证的解释方向？

二、需要向导师汇报的潜在问题

问题1：huzhu_edu 在所有规格下显著【最重要】

换村/县/片区 FE 均无改善
是否构成对识别策略的实质威胁？
可能的解释方向：教育本身随出生队列系统性变化，与语言亲近度相关

问题2：huzhu_age 显著的机械相关

户主年龄与孩子出生年份天然高度相关
论文中可直接说明这是机械相关，不构成识别威胁
需导师确认这个解释是否被审稿人接受

问题3：Cutoff 年份确认

代码用 1974 / 1983
Slide 上写的是 Sep.1973 / Sep.1982
需导师确认使用哪个

问题4：Density Test 图像拟合线弯曲

当前拟合线仍是曲线（包含 year2 平方项）
参考代码用线性项，应去掉 year2
需确认导师偏好哪种设定

问题5：han（汉族）变量缺失

household_v2 中 a11 缺失率超过 50%
目前 balancing test 未包含汉族指标
需导师决策：是否需要补全或直接说明排除

问题6：父亲生育年龄无上限约束

预定特征数据集中母亲年龄差限制 14–45 岁，父亲只有下限 14
是否需要对称处理？

三、数据清洗已修正项（供汇报）

修正项	原错误	已修正
在家天数变量	用户主 ind6	改用孩子 ind6
在家天数阈值	360 天	改为 350 天
标准化顺序	先均值再标准化	先各自标准化再取均值
变量命名	age / ind7_w	改为 huzhu_age / huzhu_edu
年龄差筛选	只有下限 ≥14	新增上限 ≤100

四、TODO

第三次 Meeting 前 Todo

近期

补充描述性统计表（Summary Statistics）
确认 balancing test 是否需要加入 individual_pre_variablev2 中的 num_sibling

August's Digital Garden

2026-02-25