结构估计实操全攻略:从"知道原理"到"条件反射"
第一部分:六大方法的"快速画像"
在深入之前,先给你一张"速查表",建立第一印象:
| 方法 | 一句话定位 | 直觉口诀 |
|---|---|---|
| MLE | 找到让观察数据"最可能发生"的参数 | “数据分布我全知道” |
| GMM | 让理论矩和样本矩尽量接近 | “虽然分布不清楚,但我知道一些等式应该成立” |
| SMM | 模拟一堆假数据,让假数据的统计量接近真数据 | “似然写不出来,但我能模拟” |
| 间接推断 | 先用简单模型拟合真数据,再模拟数据让简单模型给出相似结果 | “我借一个’翻译器'” |
| CCP 两步法 | 先估计选择概率,再利用概率反推价值函数 | “动态问题,静态解法” |
| 贝叶斯法 | 用先验+数据=后验,不断更新信念 | “我对参数有猜测,数据来修正” |
第二部分:方法详解与场景匹配
方法一:最大似然估计(MLE)
核心思想
类比:你是一个老师,学生交了一份答卷(数据)。你有很多套出题规则(不同参数值),你要找到"最可能出这份答卷"的那套规则。
数学表达:
$$\hat{\theta}_{MLE} = \arg\max_{\theta} \sum_{i=1}^{N} \ln f(y_i | x_i, \theta)$$其中 $f(\cdot)$ 是数据的概率密度函数(似然函数)。
适用条件(条件反射触发器)
当你遇到以下情况时,想到 MLE:
- ✅ 能写出完整的似然函数(知道数据的分布形式)
- ✅ 模型相对简单,没有复杂的积分或求和
- ✅ 数据生成过程清晰,从选择到结果的映射明确
- ✅ 样本量较大,保证渐近性质成立
场景一:离散选择模型——城市交通方式选择
现实背景:北京市交通委想知道居民为什么选择地铁/公交/开车。
数据:
- 个体特征:收入 $inc_i$、年龄 $age_i$、是否有车 $car_i$
- 选项特征:时间 $time_{ij}$、费用 $cost_{ij}$(j=1,2,3 代表三种方式)
- 观察到的选择:$y_i \in \{1, 2, 3\}$
模型设定(随机效用模型):
个体 i 选择方式 j 的效用:
$$U_{ij} = \beta_1 \cdot time_{ij} + \beta_2 \cdot cost_{ij} + \gamma_1 \cdot inc_i \cdot \mathbf{1}(j=开车) + \varepsilon_{ij}$$假设 $\varepsilon_{ij}$ 服从第一类极值分布(Gumbel 分布),则选择概率为著名的Logit 模型:
$$P(y_i = j | x_i, \theta) = \frac{\exp(V_{ij})}{\sum_{k=1}^{3} \exp(V_{ik})}$$其中 $V_{ij} = \beta_1 \cdot time_{ij} + \beta_2 \cdot cost_{ij} + ...$
I. 结构参数(代表偏好和制约)
| 参数 | 名称 | 经济含义 | 符号 | 来源 |
|---|---|---|---|---|
| $\beta_1$ | 时间的边际效用 | 多花 1 分钟时间,效用下降多少 | 结构 | 数据中时间变异估计 |
| $\beta_2$ | 费用的边际效用 | 多花 ¥1,效用下降多少 | 结构 | 数据中价格变异估计 |
| $\gamma_1$ | 收入对驾车的影响 | 收入每增加 1 倍,驾车吸引力增加多少 | 结构 | 收入-选择相关性估计 |
| $\gamma_2$ | 有车对驾车的影响 | 有车相比无车,驾车吸引力增加多少 | 结构 | 有车无车选择差异估计 |
具体例子:
- 早上 8 点,王先生有车,收入 ¥8000/月,从家到公司:
- 地铁:40 分钟,¥2
- 开车:30 分钟,¥10(油+停车)
- 他选择地铁
- 同日,李女士有车,收入 ¥3000/月:
- 地铁:40 分钟,¥2
- 开车:30 分钟,¥10
- 她选择开车
从这个对比,我们推断:
- $\gamma_1 > 0$(高收入人群更不愿意开车——反直觉!需要加解释)
- 或者,模型遗漏了变量(如王先生没有驾照,但数据里有)
如何估计? 从数据中的变异:
- 当不同出发地有不同的出行时间时,时间变异帮助识别$\beta_1$
- 当不同路线有不同的票价时,价格变异帮助识别$\beta_2$
- 当同样家庭不同成员有不同收入时,收入变异帮助识别$\gamma_1$
数据来源:
|
|
识别的两大来源:
| 识别来源 | 提供的变异 | 识别的参数 |
|---|---|---|
| 个体间变异 | 不同人对同一路线的选择不同 | $\beta_1, \beta_2, \gamma_1, \gamma_2$ |
| 选择集内变异 | 同一人的不同出行有不同的时间/费用 | $\beta_1, \beta_2$ |
似然函数:
$$\mathcal{L}(\theta) = \prod_{i=1}^{N} \prod_{j=1}^{3} P(y_i = j | x_i, \theta)^{\mathbf{1}(y_i = j)}$$对数似然:
$$\ln \mathcal{L}(\theta) = \sum_{i=1}^{N} \sum_{j=1}^{3} \mathbf{1}(y_i = j) \cdot \ln P(y_i = j | x_i, \theta)$$操作步骤:
- 设定参数初始值 $\theta^{(0)}$
- 对每个观测计算选择概率 $P_{ij}$
- 计算对数似然
- 用数值优化(如牛顿-拉夫森法)找到使对数似然最大的 $\hat{\theta}$
- 用 Hessian 矩阵的逆计算标准误
陷阱与注意:
- 全局最优 vs 局部最优:多用几个不同初始值
- 分离问题:如果某个变量完全预测了结果(比如有车的人 100%开车),参数会趋向无穷
- IIA 问题:Logit 模型假设"无关选项独立性",可能不现实(需要考虑 Nested Logit 或 Mixed Logit)
估计过程步骤
第一步:数据整理和变量构造
从原始数据构造每个选择集:
|
|
第二步:设定似然函数
$$\ln L = \sum_{i=1}^{N} \sum_{t=1}^{T_i} \ln P(y_{it} = j | X_{it}; \theta)$$其中对于选择 2 的观测:
$$\ln P(y_{it} = 2 | X_{it}; \theta) = V_{i2} - \ln \left( e^{V_{i1}} + e^{V_{i2}} + e^{V_{i3}} \right)$$第三步:参数初始化
|
|
第四步:数值优化
使用 BFGS 或牛顿法:
|
|
第五步:计算标准误
$$\text{Var}(\hat{\theta}) = \left( -\frac{\partial^2 \ln L}{\partial \theta \partial \theta'} \right)^{-1}$$为什么要选 MLE?
| 问题 | 答案 |
|---|---|
| 为什么不用线性概率模型? | Y 是离散的({0,1}),线性概率会预测概率<0 或>1 |
| 为什么要建模概率而不是直接预测选择? | 我们想要的不只是预测,而是理解参数(结构参数) |
| 为什么 MLE 而不是 GMM? | 我们有完整的模型(随机效用模型),知道误差分布(Gumbel),MLE 更有效 |
| 为什么 MLE 而不是 SMM? | 这不是"似然写不出来"的情况,反而我们能直接写出 |
场景二:生存分析——企业存活时间
现实背景:你想研究初创企业为什么有的活 3 年就倒闭,有的能活 20 年。
代理人问题:一个企业存活多长时间,取决于什么?
经济学视角:企业每期面临倒闭风险,风险取决于企业特征和经济环境。
数据:
- 企业特征:初始资本 $K_0$、行业 $ind$、创始人学历 $edu$
- 观察到的存活时间 $T_i$
- 是否右删失(调查结束时还活着)$c_i$
模型设定(Weibull 生存模型):
假设存活时间的风险函数为:
$$h(t) = \alpha \gamma t^{\gamma - 1} \exp(X'\beta)$$含义:在时刻 t,给定企业特征 X,存活到 t 的企业在下一个时刻倒闭的(条件)概率。
生存函数为:
$$S(t) = \exp\left( -\alpha t^{\gamma} \exp(X'\beta) \right)$$企业存活超过 t 时刻的概率。
结构参数
| 参数 | 名称 | 经济含义 | 约束 |
|---|---|---|---|
| $\beta_K$ | 初始资本的生存效应 | 初始资本每增加 ¥100 万,存活概率如何变化 | 应为正 |
| $\beta_{ind}$ | 行业效应 | 科技行业企业比传统行业更容易存活吗 | 行业异质性 |
| $\beta_{edu}$ | 创始人教育的生存效应 | 高学历创始人的企业更容易存活吗 | 应为正 |
| $\alpha$ | 尺度参数 | 控制基础风险水平 | 正数 |
| $\gamma$ | 形状参数 | 控制风险是否随时间增加 | $\gamma>1$:增加, $\gamma=1$:常数, $\gamma<1$:减少 |
数据来源**:
|
|
关键特点:删失信息
这是生存分析的核心难点:
- 2010 年注册,2015 年倒闭的企业 → 完整观测 T=5 年
- 2010 年注册,2023 年仍存活的企业 → 删失观测 T≥13 年
如果忽视删失会怎样?
|
|
识别策略:
| 变异来源 | 如何帮助识别参数 |
|---|---|
| 初始资本的变异 | 比较资本 ¥200 万 vs ¥500 万的企业生存曲线,识别$\beta_K$ |
| 行业变异 | 比较不同行业的生存曲线,识别$\beta_{ind}$ |
| 时间变异 | 用删失信息和完整观测,识别$\gamma$(风险随时间的变化) |
似然函数:
对于观测到死亡的企业,贡献密度 $f(T_i)$;对于右删失的,贡献 $S(T_i)$:
$$\mathcal{L} = \prod_{i=1}^{N} \left[ f(T_i) \right]^{1-c_i} \left[ S(T_i) \right]^{c_i}$$$$= \prod_{i=1}^{N} \left[ h(T_i) S(T_i) \right]^{1-c_i} \left[ S(T_i) \right]^{c_i}$$$$= \prod_{i=1}^{N} h(T_i)^{1-c_i} S(T_i)$$为什么 MLE 适合这里:
- 分布假设明确(Weibull)
- 能写出完整似然
- 删失信息可以自然纳入
估计过程
第一步:数据整理
|
|
第二步:似然函数
对于已倒闭企业(δ=1),贡献密度:
$$f(T_i) = h(T_i) S(T_i) = \alpha \gamma T_i^{\gamma-1} \exp(X_i'\beta) \cdot \exp(-\alpha T_i^\gamma \exp(X_i'\beta))$$对于删失企业(δ=0),贡献生存概率:
$$S(T_i) = \exp(-\alpha T_i^\gamma \exp(X_i'\beta))$$总似然:
$$L = \prod_{i: \delta_i=1} f(T_i) \times \prod_{i: \delta_i=0} S(T_i)$$第三步:对数似然
$$\ln L = \sum_{i=1}^{N} \left\{ \delta_i [\ln \alpha + \ln \gamma + (\gamma-1) \ln T_i + X_i'\beta] - \alpha T_i^\gamma \exp(X_i'\beta) \right\}$$第四步:数值最大化
|
|
第五步:检验模型设定
验证 Weibull 假设:
- 画 Kaplan-Meier 生存曲线(非参数)
- 叠加参数模型的生存曲线
- 如果不匹配 → 考虑其他分布
方法二:广义矩估计(GMM)
核心思想
类比:你去菜市场买西瓜,但不能切开看。你用了三个"测试":
- 拍一拍听声音(矩条件 1)
- 看瓜纹间距(矩条件 2)
- 掂一掂重量(矩条件 3)
你要找一个"成熟度参数",使得理论上的声音、纹路、重量和你实际观察到的尽量一致。
数学表达:
设有 L 个矩条件:
$$E[g(y_i, x_i, \theta_0)] = 0$$GMM 估计量:
$$\hat{\theta}_{GMM} = \arg\min_{\theta} \left[ \frac{1}{N} \sum_{i=1}^{N} g(y_i, x_i, \theta) \right]' W \left[ \frac{1}{N} \sum_{i=1}^{N} g(y_i, x_i, \theta) \right]$$其中 $W$ 是权重矩阵。
适用条件(条件反射触发器)
当你遇到以下情况时,想到 GMM:
- ✅ 似然函数难以写出或计算复杂
- ✅ 但理论给出了一些矩条件(如 Euler 方程、正交条件)
- ✅ 有工具变量可用
- ✅ 矩条件数 ≥ 参数数(可识别)
- ✅ 可能存在异方差或序列相关
场景三:家庭消费与储蓄行为——跨期替代弹性估计
现实背景:央行想知道居民对利率变化的敏感度,以便制定货币政策。
代理人问题:一个家庭在多个时期进行消费和储蓄决策,目标是最大化生涯效用。
最优化问题:
$$\max E_0 \sum_{t=0}^{\infty} \beta^t u(C_t)$$约束条件:
$$A_{t+1} = (1 + r_t) A_t + Y_t - C_t$$(每期财富 = 上期财富加利息 + 收入 - 消费)
一阶条件(Euler 方程):
消费者在消费和储蓄间无差异:
$$u'(C_t) = \beta (1 + r_{t+1}) E_t[u'(C_{t+1})]$$经济含义:
- 左边:今天少消费 ¥1 的成本(给出的边际效用)
- 右边:存这 ¥1 一年,明年消费更多的收益(折现的未来边际效用增加)
数据:
- 家庭消费 $C_t$(来自消费者支出调查)
- 实际利率 $r_t$(银行存款利率 - 通胀)
- 收入、年龄等控制变量 $Z_t$
消费者最大化:
$$\max E_0 \sum_{t=0}^{\infty} \beta^t u(C_t)$$Euler 方程(一阶条件):
$$u'(C_t) = \beta (1 + r_{t+1}) E_t[u'(C_{t+1})]$$假设 CRRA 效用 $u(C) = \frac{C^{1-\sigma}}{1-\sigma}$,取对数并整理:
$$\ln C_{t+1} - \ln C_t = \alpha + \frac{1}{\sigma} \ln(1 + r_{t+1}) + \varepsilon_{t+1}$$其中 $\sigma$ 是相对风险厌恶系数(也是跨期替代弹性的倒数)。
结构参数
| 参数 | 名称 | 经济含义 | 如何识别 |
|---|---|---|---|
| $\sigma$ | 相对风险厌恶系数 | 消费增加 1%,边际效用下降百分之几 | 消费增长与利率的协方差 |
| $\beta$ | 贴现因子 | 家庭有多"急不可耐"($\beta$小 = 很急) | 消费增长的期望 |
问题:$\varepsilon_{t+1}$ 与 $r_{t+1}$ 可能相关(期望误差,但条件于 t 期信息)
GMM 矩条件:这里我们不估计似然函数,而是利用 Euler 方程给出的矩条件:
$$E_t[\varepsilon_{t+1}] = 0$$这意味着:$\varepsilon_{t+1}$ 与任何 t 期可观测变量都无关:
$$E[Z_t \cdot \varepsilon_{t+1}] = 0$$样本等价物:
$$\frac{1}{T} \sum_{t=1}^{T} Z_t \cdot \varepsilon_{t+1}(\theta) \approx 0$$可选的工具变量 $Z_t$:
- 滞后消费增长 $\Delta \ln C_t$
- 滞后利率 $r_t$
- 收入增长 $\Delta \ln Y_t$
- 年龄、教育等不随时间快速变化的特征
- 宏观变量:失业率、通胀等
操作步骤:
第一步:定义矩函数
$$g_i(\theta) = Z_i \otimes \left( \Delta \ln C_{i,t+1} - \alpha - \frac{1}{\sigma} \ln(1 + r_{i,t+1}) \right)$$第二步:两步 GMM
- 第一步用单位权重矩阵 $W^{(1)} = I$,得到初始估计 $\hat{\theta}^{(1)}$
- 用 $\hat{\theta}^{(1)}$ 计算最优权重矩阵: $$\hat{W}^{opt} = \left[ \frac{1}{N} \sum_{i=1}^{N} \hat{g}_i \hat{g}_i' \right]^{-1}$$
- 第二步用 $\hat{W}^{opt}$ 重新估计
第三步:过度识别检验(Hansen J 检验)
$$J = N \cdot \bar{g}' \hat{W}^{opt} \bar{g} \xrightarrow{d} \chi^2(L - K)$$其中 L 是矩条件数,K 是参数数。如果 J 统计量显著,说明模型设定可能有问题。
数据来源:
|
|
识别策略:
利率变异是关键!
- 2008 年金融危机:利率下降 → 如果消费也下降,意味着$\sigma$高
- 2015 年加息周期:利率上升 → 观察消费增长如何变化
具体例子:
|
|
数据预处理
|
|
选择矩
选定 L 个工具变量,构造 L 个矩条件:
$$m_l(\theta) = E[Z_{tl} \cdot (Δln C_{t+1} - \alpha - \frac{1}{\sigma} \ln(1+r_{t+1}))]$$常见选择(保守起见,通常选 3-5 个):
- $Z_{t1} = 1$(常数:Δln C 的均值)
- $Z_{t2} = \ln(1+r_t)$(滞后利率)
- $Z_{t3} = Δ\ln Y_t$(收入增长)
- $Z_{t4} = Δ\ln C_t$(滞后消费增长)
GMM
第一步:用恒等权重 $W^{(1)} = I$
$$\hat{\theta}^{(1)} = \arg\min_{\theta} \bar{g}(\theta)' I \bar{g}(\theta)$$其中 $\bar{g}(\theta) = \frac{1}{NT} \sum_{i,t} Z_t \cdot \varepsilon_{it}(\theta)$
第二步:计算最优权重
$$\hat{W} = \left[\frac{1}{NT} \sum_{i,t} \hat{\varepsilon}_{it} Z_t Z_t' \hat{\varepsilon}_{it} \right]^{-1}$$用最优权重重新估计:
$$\hat{\theta}_{GMM} = \arg\min_{\theta} \bar{g}(\theta)' \hat{W} \bar{g}(\theta)$$第四步:Hansen J 检验(过度识别检验)
$$J = NT \cdot \bar{g}(\hat{\theta})' \hat{W} \bar{g}(\hat{\theta}) \sim \chi^2(L - K)$$其中 L=4 个矩,K=2 个参数($\alpha, \sigma$),所以 J ~ χ²(2)
- 如果 J < 5.99(5% 临界值),说明模型在过度识别约束下无法拒绝
- 如果 J > 5.99,说明模型存在误设(比如 Euler 方程不成立)
陷阱与注意:
- 弱工具变量:如果工具变量与内生变量相关性弱,估计会不稳定
- 过多矩条件:矩条件太多可能导致有限样本偏差
- 序列相关:如果误差存在序列相关,需要用 HAC 标准误
实用技巧:选择矩条件时,问自己"这个变量在经济学上为什么应该与误差无关?"
结果解读
假设真实估计结果:
|
|
场景四:资产定价——GMM 估计消费 CAPM
现实背景:你是一个金融经济学家,想检验"高消费波动风险的资产应该有更高回报"。
代理人问题:资产如何定价?什么风险应该被补偿?
经济学理论:消费者是总体资产的持有者。资产定价应该反映其对消费风险的贡献。
数据:
- 资产超额收益 $R^e_{t+1}$ (多个资产)
- 消费增长 $\Delta c_{t+1}$
- 无风险利率 $r_f$
理论模型(Hansen-Singleton 1982):
资产定价 Euler 方程:
$$E_t\left[ \beta \left( \frac{C_{t+1}}{C_t} \right)^{-\gamma} (1 + R_{i,t+1}) \right] = 1$$对于超额收益:
$$E_t\left[ \beta \left( \frac{C_{t+1}}{C_t} \right)^{-\gamma} R^e_{i,t+1} \right] = 0$$结构参数
| 参数 | 名称 | 经济含义 |
|---|---|---|
| $\gamma$ | 相对风险厌恶系数 | 消费风险的"价格"——消费不确定性越高,风险溢价越大 |
| $\beta$ | 贴现因子 | 未来的权重——$\beta$越小,越看重现在 |
矩条件:每个资产给出一个条件,还可以用工具变量扩展:
$$E\left[ Z_t \cdot \left( \beta \left( \frac{C_{t+1}}{C_t} \right)^{-\gamma} R^e_{i,t+1} \right) \right] = 0$$过程略,这个简单……
这里 GMM 的优势:
- 多个资产可以联合估计
- 可以检验模型设定(过度识别检验)
- 不需要假设收益率的具体分布
方法三:模拟矩估计(SMM)
核心思想
类比:你想知道一个工厂的生产参数,但生产过程太复杂,无法直接观察。于是你建了一个"虚拟工厂"(模拟模型),调整虚拟工厂的参数,直到它生产的产品统计特征和真实工厂一样。
数学表达:
设真实数据的矩为 $\hat{m}^{data} = \frac{1}{N} \sum_{i=1}^{N} m(y_i^{data})$
模拟数据的矩为 $\hat{m}^{sim}(\theta) = \frac{1}{S} \sum_{s=1}^{S} m(y_s^{sim}(\theta))$
SMM 估计:
$$\hat{\theta}_{SMM} = \arg\min_{\theta} \left[ \hat{m}^{data} - \hat{m}^{sim}(\theta) \right]' W \left[ \hat{m}^{data} - \hat{m}^{sim}(\theta) \right]$$适用条件(条件反射触发器)
当你遇到以下情况时,想到 SMM:
- ✅ 似然函数无法解析写出(涉及高维积分、复杂动态等)
- ✅ 但模型可以模拟(给定参数能生成数据)
- ✅ 有明确的目标矩可以匹配
- ✅ 数据量足够支持多次模拟
场景五:劳动力市场搜索匹配模型
现实背景:你想研究失业保险对求职行为的影响。传统简约式回归只能告诉你"失业保险与失业时长正相关",但无法回答"如果把保险金提高 10%,失业时长会增加多少?"
代理人问题:失业工人每期决定是否接受工作 offer。
模型架构(McCall 搜索模型):
状态:工人的失业状态,面临的工资 offer 分布
决策:给定 offer $w$,接受或继续搜索?
数据:
- 失业时长 $T_i$
- 失业保险替代率 $b_i$(保险金/原工资)
- 个人特征 $X_i$(教育、年龄、行业)
- 再就业工资 $w_i$
模型设定(McCall 搜索模型):
失业工人每期可以:
- 接受当前工作 offer,获得工资 $w$,永久就业
- 拒绝,继续搜索,获得失业保险 $b$
Bellman 方程:
$$V^U = b + \beta E\left[ \max(V^E(w'), V^U) \right]$$其中 $V^E(w) = \frac{w}{1-\beta}$(假设接受后永久就业)
保留工资(关键变量):使工人在接受和拒绝间无差异的工资
$$w^* = (1-\beta) V^U$$决策规则:如果 $w \geq w^*$,接受;否则拒绝。
失业时长分布:给定保留工资,失业工人每个月接受 offer 的概率为:
$$p = \Pr(w \geq w^*) = 1 - F(w^*)$$失业时长的累积分布函数 CDF:
$$G(T) = 1 - (1-p)^T$$即,失业时长服从几何分布。
结构参数
| 参数 | 名称 | 经济含义 | 如何识别 |
|---|---|---|---|
| $\beta$ | 贴现因子 | 工人多看重未来 | 保留工资随失业保险的变化 |
| $\mu$ | 工资分布均值 | 平均市场工资水平 | 再就业工资 |
| $\sigma$ | 工资分布标差 | 市场工资不确定性 | 失业时长的变异 |
问题:给定参数 $(\beta, b, F(w))$,我们可以计算 $w^*$ 并模拟失业时长。但似然函数涉及复杂的积分,难以直接写出。
数据
|
|
关键识别思想:
失业保险改革提供了自然实验。
背景:2014 年中国调整失业保险(某些地区提高替代率)
识别逻辑:
- 受改革影响地区 A:替代率从 30% → 40%
- 不受影响地区 B:替代率保持 30%
如果我们观察到:
- 地区 A 的平均失业时长从 2 个月 → 2.5 个月
- 地区 B 的平均失业时长保持 2 个月
结论:失业保险替代率提高 0.1 个百分点 → 失业时长增加 0.5 个月
这是如何帮助我们识别 $\beta$ 的?
在模型中:
$$\frac{\partial w^*}{\partial b} = (1-\beta)$$如果替代率提高导致保留工资上升幅度大 → $\beta$ 高(未来权重大)
在这个例子中,$b$ 增加 ¥300,$w^*$ 增加多少?
- 如果$w^*$增加 ¥300 → $\beta$ 接近 1(完全前向看)
- 如果$w^*$增加 ¥100 → $\beta$ 接近 0.67(更多后向看)
SMM 操作步骤:
第一步:选择要匹配的矩
这些矩应该对参数敏感且经济上有意义:
| 矩 | 定义 | 经济意义 |
|---|---|---|
| $m_1$ | 平均失业时长 | 市场厚度和工资分布 |
| $m_2$ | 失业时长的标准差 | 工资风险和搜索难度 |
| $m_3$ | 再就业工资的均值 | 工资分布参数 |
| $m_4$ | 再就业工资的分位数 | 工资分布形状 |
| $m_5$ | 失业保险替代率与失业时长的相关性 | $\beta$ 的度量 |
第二步:从真实数据计算这些矩
$$\hat{m}^{data} = (12.3个月, 5.6, ¥8000, 0.25, 0.72)$$第三步:给定参数 $\theta = (\beta, \mu_w, \sigma_w)$,模拟模型
|
|
第四步:从模拟数据计算矩
$$\hat{m}^{sim}(\theta) = (m_1^{sim}, m_2^{sim}, m_3^{sim}, m_4^{sim}, m_5^{sim})$$第五步:最小化距离
$$\hat{\theta}_{SMM} = \arg\min_{\theta} \left[ \hat{m}^{data} - \hat{m}^{sim}(\theta) \right]' W \left[ \hat{m}^{data} - \hat{m}^{sim}(\theta) \right]$$第六步:计算标准误
需要考虑模拟误差,标准误公式调整为:
$$\text{Var}(\hat{\theta}) = \frac{1+1/S}{N} (\nabla m' W \nabla m)^{-1} \nabla m' W \Omega W \nabla m (\nabla m' W \nabla m)^{-1}$$其中 S 是模拟次数,$1/S$ 项是模拟噪声的校正。
第七步:敏感性分析
检查参数的识别强度:
|
|
陷阱与注意:
- 模拟次数不够:S 太小会引入过多模拟误差。经验法则:S ≥ 10N
- 目标函数不光滑:模拟引入的随机性可能导致优化困难
- 解决:固定随机数种子、使用平滑模拟器
- 矩的选择:
- 太少:识别不充分
- 太多:计算负担重,且可能过拟合模拟噪声
- 矩对参数的敏感性:如果某个矩对所有参数都不敏感,它只会增加噪声
实用技巧:做"敏感性图"——固定其他参数,变化一个参数,看每个矩如何变化。这帮助你理解识别来源。
场景六:企业动态——进入、退出与投资(重点)
现实背景:产业政策制定者想知道:如果提高进入壁垒(如加大环保要求),对行业结构有什么长期影响?
代理人问题:一个企业每期决定投资多少,目标是最大化企业价值。
状态变量:
- 企业的资本存量 $K_t$
- 企业的生产率 $\phi_t$(随机波动)
决策变量:投资 $I_t$
值函数:
$$V(K_t, \phi_t) = \max_{I_t} \left\{ \pi(K_t, \phi_t) - I_t - C(I_t, K_t) + \beta E[V(K_{t+1}, \phi_{t+1})] \right\}$$其中:
- $\pi(K_t, \phi_t) = \phi_t K_t^\alpha - w L_t$ 是当期利润(生产函数减工资)
- $C(I_t, K_t) = \frac{\psi}{2}(I_t/K_t)^2 K_t$ 是调整成本
- $K_{t+1} = (1-\delta) K_t + I_t$ 是资本演化
关键:调整成本参数 $\psi$
- $\psi = 0$:投资完全灵活(Jorgenson 模型)
- $\psi > 0$:投资成本(企业不能立刻改变资本)
- $\psi$ 越大,企业的投资行为越缓慢、越平滑
数据:
- 企业面板:资本 $K_{it}$、产出 $Y_{it}$、投资 $I_{it}$
- 进入退出记录
- 行业层面:企业数量、集中度
模型设定(Hopenhayn 型动态竞争模型):
现有企业每期:
- 观察生产率冲击 $\phi_{it}$
- 决定投资 $I_{it}$,形成下期资本 $K_{i,t+1}$
- 决定是否退出(如果价值 < 退出成本)
潜在进入者:
- 支付进入成本 $c_e$,抽取初始生产率
- 比较进入价值与成本
均衡条件:进入利润为零,市场出清。
结构参数
| 参数 | 名称 | 经济含义 | 重要性 |
|---|---|---|---|
| $\psi$ | 调整成本参数 | 企业改变生产规模有多难 | 最重要:对投资平滑性关键 |
| $\alpha$ | 资本的产出弹性 | 资本每增加 1%,产出增加多少% | 识别资本的生产力 |
| $\delta$ | 资本折旧率 | 资本每年贬值多少% | 识别企业更新需求 |
| $\rho$ | 生产率过程的自相关 | 生产率波动的持久性 | 识别不确定性 |
| $\sigma_\phi$ | 生产率冲击的标差 | 生产率冲击有多大 | 识别不确定性 |
外部设定
某些参数来自外部数据或假设:
| 参数 | 值 | 来源 |
|---|---|---|
| $\delta$ | 0.05 | 国民经济核算年报 |
| $\beta$ | 0.95 | 标准假设(无风险利率~5%) |
| 工资 $w$ | 数据 | 直接观察 |
数据来源
|
|
识别策略
| 参数 | 识别来源 | 变异 |
|---|---|---|
| $\alpha$ | 生产函数估计(OLS 或 GMM) | 不同企业的产出/资本比率 |
| $\delta$ | 资本衡量(资本存量普查) | 折旧官方数据 |
| $\rho, \sigma_\phi$ | 生产率的时间序列性质 | 同一企业多年的生产率变化 |
| $\psi$ | 投资对生产率的反应性 | 关键:当 φ 上升时,投资增加多少? |
最关键的识别:为什么 $\psi$ 能被识别?
在模型中,最优投资遵循"加速器"原理:
$$I_t = f(K_t, \phi_t; \psi)$$如果 $\psi$ 大,这个函数很平缓(投资变化缓慢);如果 $\psi$ 小,函数很陡峭(投资快速反应)。
从数据看投资与生产率的协方差:
- 在高 $\psi$ 经济中,$\text{Cov}(\Delta I_t, \Delta \phi_t)$ 低(投资平滑)
- 在低 $\psi$ 经济中,$\text{Cov}(\Delta I_t, \Delta \phi_t)$ 高(投资灵活)
为什么 SMM:
- 涉及企业动态决策、进入退出、市场均衡
- 似然函数几乎不可能写出
- 但给定参数,可以模拟整个行业的演化
识别过程
第一步:定义要匹配的矩
|
|
这些矩对参数的敏感性:
| 矩 | 对 $\psi$ 的敏感性 | 对 $\rho$ 的敏感性 | 对 $\sigma_\phi$ 的敏感性 |
|---|---|---|---|
| $m_1$ (平均投资率) | 低 | 中 | 中 |
| $m_2$ (投资波动) | 高 | 高 | 高 |
| $m_3$ (投资-生产率相关) | 高 | 低 | 低 |
| $m_4$ (生产率自相关) | 低 | 高 | 低 |
关键:$m_2$ 和 $m_3$ 主要驱动 $\psi$ 的识别
匹配的矩:
- 企业规模分布(20 分位数、50 分位数、80 分位数)
- 年进入率、退出率
- 资本投资率的均值和方差
- 企业年龄与规模的关系
第二步:模拟企业动态
|
|
第三步:计算模拟矩
|
|
第四步:目标函数
$$\hat{\theta} = \arg\min_{(\psi, \rho, \sigma_\phi)} ||m^{data} - m^{sim}(\theta)||_W$$方法四:间接推断(Indirect Inference)(重点)
核心思想
类比:你想估计一个人的性格参数(内向/外向程度),但没法直接测量。于是你设计了一个简单的"社交测试"(辅助模型):记录他在 party 上和多少人说话。
- 用真实数据跑一遍这个测试,得到结果 $\hat{\beta}^{data}$
- 模拟不同性格参数的人去 party,跑同样的测试,得到 $\hat{\beta}^{sim}(\theta)$
- 找到让 $\hat{\beta}^{sim}(\theta) = \hat{\beta}^{data}$ 的性格参数
数学表达:
设辅助模型为 $A(y, \beta)$,真实数据得到 $\hat{\beta}^{data}$,模拟数据得到 $\hat{\beta}^{sim}(\theta)$:
$$\hat{\theta}_{II} = \arg\min_{\theta} \left[ \hat{\beta}^{data} - \hat{\beta}^{sim}(\theta) \right]' W \left[ \hat{\beta}^{data} - \hat{\beta}^{sim}(\theta) \right]$$与 SMM 的区别
| SMM | 间接推断 | |
|---|---|---|
| 匹配什么 | 数据的矩(均值、方差等) | 辅助模型的参数 |
| 辅助模型 | 不需要 | 需要选择 |
| 矩的选择 | 研究者主观选择 | 通过辅助模型隐含选择 |
| 优势 | 直观、矩有经济含义 | 辅助模型可以捕捉复杂特征 |
适用条件(条件反射触发器)
当你遇到以下情况时,想到间接推断:
- ✅ 结构模型复杂,但存在自然的简化描述方式
- ✅ 辅助模型估计快速稳定
- ✅ 辅助模型能捕捉数据的关键特征
- ✅ 想让估计对模型某些设定不敏感
场景七:宏观 DSGE 模型估计
现实背景:央行想用一个动态随机一般均衡(DSGE)模型来分析货币政策效果。
三方程新凯恩斯(NK)DSGE 模型:
IS 曲线(产出方程):
$$\tilde{y}_t = E_t[\tilde{y}_{t+1}] - \sigma^{-1}(i_t - E_t[\pi_{t+1}] - r^n_t) + u_t^y$$菲利普斯曲线(通胀方程):
$$\pi_t = \beta E_t[\pi_{t+1}] + \kappa \tilde{y}_t + u_t^\pi$$泰勒规则(政策方程):
$$i_t = \rho_i i_{t-1} + (1-\rho_i)[\phi_\pi \pi_t + \phi_y \tilde{y}_t] + u_t^i$$其中:
- $\tilde{y}_t$ = 产出缺口(产出与潜在产出之差)
- $\pi_t$ = 通胀率
- $i_t$ = 名义利率
- $r^n_t$ = 自然利率(对数形式的冲击)
- $u_t$ = 各类冲击(需求、供给、政策)
问题:
- DSGE 模型有几十个方程、几十个参数
- 直接 MLE 需要求解状态空间形式,计算 Kalman 滤波
- 模型可能误设,直接 MLE 会把误设"硬拟合"到数据
结构参数
| 参数 | 名称 | 经济含义 | 范围 |
|---|---|---|---|
| $\sigma$ | 跨期替代弹性 | 实际利率上升,家庭将消费延后多少 | 0.5-3 |
| $\kappa$ | 菲利普斯曲线斜率 | 产出每增加 1%,通胀增加多少 | 0.01-0.05 |
| $\beta$ | 贴现因子 | 家庭看重未来的程度 | 0.95-0.99 |
| $\rho_i$ | 利率平滑 | 央行的利率决策有多"粘性" | 0.7-0.95 |
| $\phi_\pi$ | 通胀反应 | 通胀每升高 1%,央行加息多少 | >1(泰勒原则) |
| $\phi_y$ | 产出反应 | 产出缺口每增加 1%,央行加息多少 | 0.1-0.5 |
间接推断思路:
辅助模型:向量自回归 VAR(p)
$$Y_t = A_1 Y_{t-1} + ... + A_p Y_{t-p} + \varepsilon_t$$其中 $Y_t$ 包括产出增长、通胀、利率等宏观变量。
步骤:
-
选择辅助模型 真实数据 → 估计 VAR → 得到 $\hat{A}^{data}$(脉冲响应函数)采用向量自回归(VAR):
$$Y_t = A_1 Y_{t-1} + A_2 Y_{t-2} + \varepsilon_t$$其中 $Y_t = (\tilde{y}_t, \pi_t, i_t)'$,假设 VAR(2)。用 OLS 估计 $\hat{A}_1^{data}, \hat{A}_2^{data}$,计算脉冲响应函数(IRF)。脉冲响应函数:如果通胀冲击+1%,接下来 4 个季度产出如何变化?
- $\text{IRF}_{y,\pi}(0) = 0$(当期不反应,因为有粘性)
- $\text{IRF}_{y,\pi}(1) = 0.3\%$(1 期后产出增加 0.3%)
- …
- $\text{IRF}_{y,\pi}(8) = -0.2\%$(8 期后产出转为负)
-
DSGE 模型 → 给定结构参数 $\theta$,求解模型 → 模拟数据 → 估计 VAR → 得到 $\hat{A}^{sim}(\theta)$
1 2 3 4 5 6 7 8 9 10 111. 用perturbation方法求解模型 → 得到状态空间:Y_t = f(Y_{t-1}, ε_t; θ) 2. 模拟T个时期的数据 Y_t^sim(θ) for t=1,...,T 3. 对模拟数据估计相同的VAR → 得到 Â_1^sim(θ), Â_2^sim(θ) 4. 计算模拟的脉冲响应函数 IRF^sim(θ) -
匹配:找 $\theta$ 使得 $\hat{A}^{sim}(\theta) \approx \hat{A}^{data}$
为什么用 VAR 作为辅助模型:
- VAR 估计简单快速
- VAR 的脉冲响应函数是政策分析的核心
- 即使 DSGE 有误设,我们仍能匹配 VAR 揭示的动态特征
“有限信息"视角:间接推断只要求模型能复制辅助模型捕捉的特征,而非完美拟合所有数据。
场景八:离散选择动态规划——如何简化复杂问题
现实背景:你研究女性的劳动参与决策,这是一个动态问题(今天工作会影响未来人力资本)。
结构模型:复杂的动态规划问题
辅助模型:简化的 probit/logit 模型
$$P(work_t = 1) = \Phi(\gamma_0 + \gamma_1 \cdot child + \gamma_2 \cdot wage + \gamma_3 \cdot work_{t-1})$$匹配的参数:
- $\gamma_1$:孩子对劳动参与的影响
- $\gamma_3$:状态依赖(上期工作对本期的影响)
好处:即使结构模型复杂,辅助模型仍能快速估计。
方法五:CCP 两步法(条件选择概率法)
核心思想
类比:想象你在观察一个棋手下棋。第一步,你统计他在各种局面下的实际走法概率(条件选择概率)。第二步,你用这些概率反推他的评估函数——他认为哪些局面更有价值。
核心洞见(Hotz-Miller 反演):在离散选择动态规划中,选择概率和价值函数有一一对应关系:
$$V_j(s) - V_k(s) = \ln P_j(s) - \ln P_k(s) + \text{常数}$$(假设误差服从极值分布)
这意味着:如果我们知道选择概率,就知道了价值函数的差异,不需要解完整的动态规划!
适用条件(条件反射触发器)
当你遇到以下情况时,想到 CCP 两步法:
- ✅ 离散选择动态规划模型
- ✅ 选择集有限且可观测
- ✅ 状态空间可以离散化或较小
- ✅ 有足够数据估计条件选择概率
- ✅ 标准嵌套固定点方法太慢
场景九:公交车引擎更换决策(Rust 1987 的经典例子)
现实背景:公交公司的经理要决定何时更换老旧引擎。更换太早浪费钱,太晚会抛锚。
状态变量:引擎累计里程 $x_t$
选择:$d_t \in \{0: 继续用, 1: 更换\}$
即时收益:
- 继续用:$u(x_t, 0) = -c(x_t)$(维护成本,随里程增加)
- 更换:$u(x_t, 1) = -RC + \varepsilon$(固定更换成本)
状态转移:
- 如果不更换:$x_{t+1} = x_t + \Delta x$(里程增加)
- 如果更换:$x_{t+1} = 0$(里程归零)
Bellman 方程:
$$V(x, \varepsilon) = \max_{d \in \{0,1\}} \left\{ u(x, d, \varepsilon_d) + \beta E[V(x', \varepsilon')] \right\}$$传统方法(嵌套固定点)的问题:
- 每次评估似然,都要解一遍动态规划
- 如果状态空间大,计算量爆炸
CCP 两步法操作:
第一步:非参数估计条件选择概率
对每个里程区间 $x$,计算更换的经验概率:
$$\hat{P}_1(x) = \frac{\text{在里程} x \text{选择更换的次数}}{\text{在里程} x \text{的总观测次数}}$$第二步:利用 Hotz-Miller 反演估计结构参数
选择概率与选择特定价值函数的关系:
$$v_d(x) = u(x, d) + \beta E[V(x')]$$利用极值分布的性质:
$$V(x) = E_\varepsilon[\max_d\{v_d(x) + \varepsilon_d\}] = \ln \sum_d \exp(v_d(x)) + \gamma$$其中 $\gamma$ 是 Euler 常数。
关键公式(Hotz-Miller 引理):
$$v_1(x) - v_0(x) = \ln P_1(x) - \ln P_0(x)$$因此:
$$u(x, 1) - u(x, 0) + \beta E[V(0) - V(x')] = \ln \frac{\hat{P}_1(x)}{\hat{P}_0(x)}$$代入 $u$ 的函数形式,可以直接估计结构参数 $(\theta, RC)$。
实践中的技巧:
- 平滑选择概率:如果某些状态观测很少,$\hat{P}$ 会很不稳定。可以用参数模型(如 logit)平滑。
- 前向模拟:用估计的选择概率模拟未来路径,计算延续价值。
- 迭代 CCP:用估计的参数更新选择概率,再重新估计(Aguirregabiria & Mira)。
陷阱:
- 第一步概率估计偏差会传导到第二步
- 状态空间太大时,仍然有计算困难
场景十:动态产业组织——企业进入退出
现实背景:你研究电商平台上商家的进入和退出决策。
状态变量:
- 企业自身特征:经验 $e_{it}$、规模 $s_{it}$
- 市场状态:竞争对手数量 $n_t$、总需求 $D_t$
选择:$d_{it} \in \{退出, 留下\}$(现有企业);$a_t \in \{进入, 不进入\}$(潜在进入者)
CCP 方法优势:
- 市场上可能有上百家企业同时决策
- 传统方法需要计算所有可能的企业组合——维数诅咒
- CCP 方法只需估计"一般企业"的选择概率
具体应用(Bajari, Benkard, Levin 2007):
- 估计单个企业的选择概率 $\hat{P}(d|s)$
- 用这些概率模拟行业演化
- 匹配模拟与真实数据的动态特征
方法六:贝叶斯估计
核心思想
类比:你是一个医生,要诊断病人是否得了某种罕见病。
- 先验:人群中只有 0.1%的人得这种病($P(病) = 0.001$)
- 数据:病人检测呈阳性(假设检测准确率 90%)
- 后验:综合先验和数据,更新对"病人真的得病"的信念
注意:即使检测阳性,得病概率也只有 0.9%!这就是贝叶斯思维的力量。
数学表达(贝叶斯定理):
$$p(\theta | Y) = \frac{p(Y | \theta) \cdot p(\theta)}{p(Y)} \propto p(Y | \theta) \cdot p(\theta)$$- $p(\theta)$:先验分布——估计前对参数的信念
- $p(Y|\theta)$:似然函数——给定参数,数据出现的概率
- $p(\theta|Y)$:后验分布——看到数据后,对参数的更新信念
适用条件(条件反射触发器)
当你遇到以下情况时,想到贝叶斯:
- ✅ 有合理的先验信息(来自前人研究、专家意见、理论约束)
- ✅ 样本量较小,纯粹依赖数据不稳定
- ✅ 想量化参数的不确定性(不只要点估计)
- ✅ 模型比较和选择是重要目标
- ✅ 参数有自然约束(如必须为正、在某区间内)
场景十一:DSGE 模型的贝叶斯估计
现实背景:你要估计一个新凯恩斯 DSGE 模型来分析货币政策。
模型(简化版三方程 NK 模型):
IS 曲线:
$$\tilde{y}_t = E_t[\tilde{y}_{t+1}] - \sigma^{-1}(i_t - E_t[\pi_{t+1}] - r^n) + \varepsilon_t^y$$菲利普斯曲线:
$$\pi_t = \beta E_t[\pi_{t+1}] + \kappa \tilde{y}_t + \varepsilon_t^\pi$$泰勒规则:
$$i_t = \rho_i i_{t-1} + (1-\rho_i)[\phi_\pi \pi_t + \phi_y \tilde{y}_t] + \varepsilon_t^i$$待估计参数:$\theta = (\beta, \sigma, \kappa, \rho_i, \phi_\pi, \phi_y, ...)$
为什么用贝叶斯:
- 参数多:典型 DSGE 有 20-50 个参数,纯 MLE 可能不稳定
- 有先验知识:$\beta$ 应该在 0.99 左右,$\phi_\pi > 1$(泰勒原则)
- 政策分析需要不确定性量化:政策建议应该考虑参数不确定性
先验设定示例:
| 参数 | 先验分布 | 理由 |
|---|---|---|
| $\beta$ | Beta(0.99, 0.02) | 贴现因子接近 1 |
| $\sigma$ | Gamma(1.5, 0.5) | 跨期替代弹性为正 |
| $\phi_\pi$ | Normal(1.5, 0.25) | 泰勒原则建议>1 |
操作步骤:
第一步:状态空间表示
将 DSGE 模型写成状态空间形式:
$$s_t = A(\theta) s_{t-1} + B(\theta) \varepsilon_t$$$$y_t = C(\theta) s_t + u_t$$
第二步:计算似然(卡尔曼滤波)
给定参数 $\theta$ 和数据 $\{y_t\}$,用卡尔曼滤波计算似然 $p(Y|\theta)$。
第三步:后验抽样(MCMC)
使用 Metropolis-Hastings 算法或其变体:
|
|
第四步:后验分析
- 后验均值、中位数作为点估计
- 后验分位数作为可信区间
- 参数的联合后验用于分析参数间关系
模型比较:贝叶斯方法可以自然地比较模型
$$\text{贝叶斯因子} = \frac{p(Y | M_1)}{p(Y | M_2)} = \frac{\int p(Y|\theta_1, M_1) p(\theta_1|M_1) d\theta_1}{\int p(Y|\theta_2, M_2) p(\theta_2|M_2) d\theta_2}$$这自动实现了"奥卡姆剃刀”——在拟合和复杂度间权衡。
场景十二:面板数据中的个体异质性
现实背景:你研究企业创新投入,认为不同企业有不同的"创新偏好",但这个偏好不可直接观测。
分层模型:
$$R\&D_{it} = \alpha_i + \beta X_{it} + \varepsilon_{it}$$$$\alpha_i \sim N(\mu_\alpha, \sigma_\alpha^2)$$
贝叶斯方法的优势:
- 自然处理随机效应
- 可以估计 $\sigma_\alpha$(企业间异质性程度)
- 可以"借力"——数据少的企业借助整体信息
后验预测:对于观测少的企业,其 $\alpha_i$ 的后验会向总体均值 $\mu_\alpha$ “收缩”——这是贝叶斯估计的自动正则化。
第三部分:选择方法的"决策树"
现在让我们把所有方法整合成一个决策流程图:
|
|
第四部分:建立"条件反射"的速记口诀
为了帮你在面对具体问题时快速反应,这里提供一套"条件反射"口诀:
MLE 口诀
“分布全知道,似然能写好”
触发条件:
- 看到 Probit/Logit/Tobit 等经典模型
- 看到"假设误差服从 XX 分布"
- 数据相对干净,模型相对简单
GMM 口诀
“分布不确定,矩条件撑门面”
触发条件:
- 看到 Euler 方程、资产定价方程、正交条件
- 看到工具变量、滞后变量作为排除限制
- 担心分布误设,想要稳健估计
SMM 口诀
“似然写不出,模拟来帮助”
触发条件:
- 模型有复杂的积分、期望
- 模型有异质性代理人、不完全市场
- 可以模拟但无法解析求解
间接推断口诀
“结构太复杂,简约来搭桥”
触发条件:
- 有自然的降维工具(如 VAR、回归)
- 关心的是可以被简化模型捕捉的特征
- 想对模型误设有一定稳健性
CCP 口诀
“动态离散选,概率先估完”
触发条件:
- 动态离散选择问题
- 状态可观测、选择集有限
- 嵌套固定点方法太慢
贝叶斯口诀
“先验有话说,后验来融合”
触发条件:
- 有明确的先验信息
- 样本较小
- 需要完整的后验分布
- 要做模型比较
第五部分:常见陷阱与诊断方法
陷阱一:识别问题
症状:估计结果对初始值敏感,标准误巨大,参数怪异
诊断:
- 画参数的 profile likelihood/目标函数图
- 做敏感性分析
- 检查 Hessian 矩阵是否接近奇异
解决:
- 增加数据变异
- 固定部分参数
- 添加约束或先验
陷阱二:计算问题
症状:优化不收敛,不同算法给出不同结果
诊断:
- 检查目标函数是否光滑
- 打印迭代过程
- 尝试多个起始点
解决:
- 对 SMM:固定随机种子,增加模拟次数
- 使用更稳健的优化算法
- 重参数化(如估计 log(σ)而非 σ)
陷阱三:误设问题
症状:拟合看起来好,但反事实预测不合理
诊断:
- 过度识别检验(GMM 的 J 检验)
- 样本外验证
- 检查模型隐含的其他矩
解决:
- 放松假设
- 使用更稳健的方法(如间接推断)
- 明确报告模型局限
第六部分:一个完整示例
让我们用一个完整的例子把所有内容串起来:
研究问题:大学生专业选择
现实意义:教育部想知道如何通过信息政策影响学生选专业
数据:
- 高考成绩、家庭背景、高中所在地
- 选择的专业(理工/商科/人文)
- 毕业后收入(只观察已毕业的)
模型:学生最大化期望效用
$$\max_j E[U_j] = E[wage_j | X] - \alpha \cdot (difficulty_j - ability_i) + \varepsilon_j$$挑战:
- 收入只对毕业生观察,存在选择偏差
- 学生的"能力"不可直接观测
- 专业"难度"与"收益"可能相关
选择方法的思考过程:
| 方法 | 可行性 | 问题 |
|---|---|---|
| MLE | 需要假设 $\varepsilon$ 分布 | 可以用 Nested Logit |
| GMM | 需要工具变量 | 可用高中所在地作 IV |
| SMM | 需要模拟能力分布 | 可行但需要更多假设 |
| CCP | 不是动态问题 | 不适用 |
| 贝叶斯 | 可以放先验在能力分布上 | 适合处理异质性 |
最终选择:MLE + 控制函数法处理选择偏差
这只是一个思考框架,实际选择取决于具体细节和研究者偏好。
第七部分:进阶阅读路线图
如果你想深入学习,这是推荐的路线:
入门:
- Kenneth Train, Discrete Choice Methods with Simulation
- Cameron & Trivedi, Microeconometrics
GMM:
- Hansen (1982), Econometrica
- Hayashi, Econometrics, Chapter 3
SMM/间接推断:
- McFadden (1989), Econometrica
- Gourieroux, Monfort & Renault (1993)
CCP:
- Hotz & Miller (1993), Review of Economic Studies
- Aguirregabiria & Mira (2010), Journal of Econometrics (综述)
贝叶斯:
- An & Schorfheide (2007), Econometric Reviews(DSGE 应用)
- Geweke, Contemporary Bayesian Econometrics
结语:从"知道"到"会用"的最后一步
最重要的建议:动手做一遍。
选择一个你熟悉的经济问题,先用最简单的方法(如 MLE)实现一遍,再尝试用另一种方法(如 SMM)重新做。比较结果,理解差异。
记住:没有"最好的"方法,只有"最适合的"方法。好的结构估计者,是能够根据问题的特点、数据的局限、计算的可行性,灵活选择和组合方法的人。
现在,你已经有了完整的地图。剩下的,就是开始你的探索之旅了。
祝研究顺利!
找矩的"直觉和技巧"
6.1 常见的"矩的来源"
|
|
6.2 “矩很多"但"参数很少"怎么办?
|
|
6.3 “矩很少"但"参数很多"怎么办?
|
|
6.4 如何检查你找的矩条件是否正确?
|
|
实战速查表
这是你最后应该反复看的表格:
7.1 按问题类型的矩条件速查表
|
|
7.2 按数据维度的矩条件速查表
|
|
7.3 按参数类型的矩条件速查表
|
|