Done List
- 完成 EC487 Pset 5
- 完成了 Stata Code
- 去卓希家拿了箱子
Tomorrow To Do
- 上午开会,然后系统学习 Labour
- 下午开会
- 晚上系统学习计量,尝试完成作业
今日杂谈
会议准备笔记 — 2026.02.26
一、重点结果发现
Main Regression
最强结果:g62(退耕还林补贴)
- All 样本 Joint p = 0.0015,三套样本均显著
- beta3 < 0,beta4 > 0,符号方向符合理论预期
- Winsorized 和非线性形式下均显著,结果稳健
- Village FE 和 County FE 结果高度一致
subsidy(净政府补贴)有条件显著
- Winsorized 版本 joint F 不显著(p=0.19)
- Ln(1+x)、IHS、Dummy 版本在 All 样本下 p ≈ 0.02
- beta4 在 All 样本 Winsorized 版 p = 0.086(边际显著)
g61(救灾救济与养老金)边际显著
- All 和 Resi≥350 样本 p ≈ 0.07–0.08
- beta3 负、beta4 正,方向一致
g2(集体收入)不显著
- 所有规格 joint p > 0.28
- 理论上可解释:集体收入与普通话能力关系弱于政府补贴
g2 政府
Balancing Test
| 变量 | All | Resi≥350 | Resi≥180 | 说明 |
|---|---|---|---|---|
| num_children | p=0.274 ✓ | p=0.467 ✓ | p=0.393 ✓ | 完全通过 |
| childmale | p=0.020 ✗ | p=0.081 ~ | p=0.319 ✓ | 严格样本下消失 |
| huzhu_age | p=0.034 ✗ | p=0.046 ✗ | p=0.037 ✗ | 机械相关,可解释 |
| huzhu_edu | p=0.000 ✗ | p=0.004 ✗ | p=0.002 ✗ | 需讨论 |
地理 FE 探究(Village / County / 片区)对 huzhu_edu 完全无改善,说明问题来自 birth_year × language affinity 交互维度本身。
好消息(可以直接说)
num_children 完全通过,三套样本 p 值均在 0.27 以上,说明家庭孩子数量在断点附近没有系统性变化,这是最干净的预定特征。
childmale 在严格样本下消失,Resi≥350 时 p=0.08,Resi≥180 时 p=0.32,说明加上在家天数限制之后孩子性别的问题基本解决了。这是一个正面信号,支持使用更严格样本作为主样本。
需要向导师解释的
huzhu_age 显著但可解释。户主年龄和孩子出生年份天然高度相关——1974年生的孩子,父母必然在某个年龄段生育的。这种相关是数据结构本身决定的,不是识别策略失效的证据。建议请导师确认这个解释在论文里是否充分。
需要向导师寻求指导的【最重要】
huzhu_edu 在所有规格下高度显著(p < 0.001),而且换地理 FE 完全没有改善。这说明问题不是地区人口结构差异造成的,而是 birth_year × language affinity 这个交互维度本身存在系统性关联。
具体来说,户主教育程度在不同出生队列和不同语言亲近度地区之间存在系统性差异,这可能意味着语言亲近度高的地区本身教育水平就更高,而且这种差异随出生队列变化。
需要向导师提的问题是:这个结果是否构成对识别策略的实质威胁?有没有可以在论文中论证的解释方向?
二、需要向导师汇报的潜在问题
问题1:huzhu_edu 在所有规格下显著【最重要】
- 换村/县/片区 FE 均无改善
- 是否构成对识别策略的实质威胁?
- 可能的解释方向:教育本身随出生队列系统性变化,与语言亲近度相关
问题2:huzhu_age 显著的机械相关
- 户主年龄与孩子出生年份天然高度相关
- 论文中可直接说明这是机械相关,不构成识别威胁
- 需导师确认这个解释是否被审稿人接受
问题3:Cutoff 年份确认
- 代码用 1974 / 1983
- Slide 上写的是 Sep.1973 / Sep.1982
- 需导师确认使用哪个
问题4:Density Test 图像拟合线弯曲
- 当前拟合线仍是曲线(包含 year2 平方项)
- 参考代码用线性项,应去掉 year2
- 需确认导师偏好哪种设定
问题5:han(汉族)变量缺失
- household_v2 中 a11 缺失率超过 50%
- 目前 balancing test 未包含汉族指标
- 需导师决策:是否需要补全或直接说明排除
问题6:父亲生育年龄无上限约束
- 预定特征数据集中母亲年龄差限制 14–45 岁,父亲只有下限 14
- 是否需要对称处理?
三、数据清洗已修正项(供汇报)
| 修正项 | 原错误 | 已修正 |
|---|---|---|
| 在家天数变量 | 用户主 ind6 | 改用孩子 ind6 |
| 在家天数阈值 | 360 天 | 改为 350 天 |
| 标准化顺序 | 先均值再标准化 | 先各自标准化再取均值 |
| 变量命名 | age / ind7_w | 改为 huzhu_age / huzhu_edu |
| 年龄差筛选 | 只有下限 ≥14 | 新增上限 ≤100 |
四、TODO
第三次 Meeting 前 Todo
-
样本
-
确认>= 350 和 >= 180 的 sample size
-
Balance Test
-
只使用 measurement 2 以及先 mean 再 standardize
-
加上是否是汉族,是否有兄弟姐妹
-
只控制 village square standard cluster at village error
-
加 child_age 和 child_age2
-
Density Test(less important)
-
collapse 的时候的逻辑问题修改
-
单独的 birth high 跑一个图像出来
-
03-04 05-08 年回归
-
Main Regression
-
只 control village FE
-
Report
-
报告里展示每一个变量的 distribution graph 和一些描述性统计(包括之前的样本情况)
近期
- 补充描述性统计表(Summary Statistics)
- 生成 Exposure 折线图
- 确认 balancing test 是否需要加入 individual_pre_variablev2 中的 num_sibling
待讨论
- g2(集体收入)不显著是否需要在论文中专门讨论
- 是否需要补充 First Stage 图表
- Balancing test 是否应该同时控制 childage2(目前主回归有,balancing test 没有)
五、当前文件清单
| 文件 | 状态 |
|---|---|
| data_clean_v2.do | ✅ 最终版 |
| main_regression.do | ✅ 最终版 |
| balancing_test.do | ✅ 最终版 |
| density_test_graph.do | ⚠️ year2 待修正 |
| household_clean_all.dta | ✅ N=91,825 |
| household_clean_Resi350.dta | ✅ N=60,554 |
| household_clean_Resi180.dta | ✅ N=68,663 |
| individual_pre_variablev2.dta | ✅ N=84,388 |
| Table_subsidy/g61/g62/g2.tex | ✅ 已生成 |
| Table_balancing.tex | ✅ 已生成 |
| Table_main_FErobust.tex | ✅ 已生成 |
| density_diff_s1/2/3.png | ⚠️ 拟合线待修正 |