厂商当下的决策如何同时受制于“未来的预期”和“对手的反应”

深度解析：实证产业组织中的动态博弈

1. 理论动机与直觉

核心问题：跨期权衡与策略互动的“双重奏”

这篇综述所覆盖的文献试图解决一个极具挑战性的核心权衡：厂商当下的决策如何同时受制于“未来的预期”和“对手的反应”？

在静态模型中，厂商只关心今天赚多少钱；在垄断动态模型中，厂商只关心自己未来的增长。但在动态博弈中，厂商在每一期都要考虑：

我为什么要亏本进入市场？ 因为我预期未来能通过“干中学”降低成本，或者把对手挤出去（跨期权衡）。
我为什么不敢轻易降价？ 因为我怕引发对手未来的报复性价格战（策略互动）。

建模缺口：填补“静态博弈”与“单人动态”之间的鸿沟

在 Ericson-Pakes (EP) 框架成熟之前，实证 IO 存在两个断层：

静态寡头模型 (如 Berry-Levinsohn-Pakes): 处理了竞争，但假设世界是静止的，无法解释进入、退出、R&D 投资、产能积累等改变市场结构的决策。
单人动态模型 (如 Rust): 处理了前瞻性行为，但假设价格过程或竞争环境是外生的（Exogenous），忽略了厂商行为对市场结构的反馈。

作者引入此框架的目的，就是为了内生化市场结构（Market Structure）的演变。我们要回答：为什么有的市场是双寡头，有的是垄断？这是厂商长期动态博弈的均衡产物。

直觉叙述：市场演化的“马尔可夫”

想象一个行业（比如航空或零售），每一家公司在每一期都要做一个决定（比如“是否新开航线”）。

状态依赖 (State Dependence): 你今天的决定受限于昨天的遗产（比如你手里有多少飞机，对手占了多少坑位）。
信念 (Beliefs): 你在做决定时，不仅看当期的利润表，还要看“剧本”——即你通过观察历史数据形成的对对手行为的理性预期（比如“如果我进入，对手有 30% 的概率会打价格战”）。
均衡 (Equilibrium): 当所有人都极其聪明，每个人对未来的预判都与最终实际发生的概率一致时，市场就达到了动态均衡。

2. 模型解剖

这是 EP 框架的标准骨架，ACR (2021) 在 Section 2 中对其进行了标准化定义。

模型组件	符号表示	经济学含义
玩家 (Players)	$i \in \{1, ..., N\}$	市场中的潜在或在位厂商。
公共状态 (Public State)	$\mathbf{x}_t$	所有人都知道的市场盘面。例如：每个厂商的在位状态、产能、质量、累计销量，以及宏观需求冲击。
私人冲击 (Private Shock)	$\varepsilon_{it}$	只有厂商自己知道的随机因素。例如：经理的心情、临时的机器故障、特殊的废料价值。这对计量识别至关重要（它平滑了概率）。
行动 (Actions)	$a_{it}$	厂商的控制变量。离散（进入/退出/技术升级）或连续（价格/投资额）。
即时收益 (Flow Payoff)	$\pi_i(a_{it}, \mathbf{a}_{-it}, \mathbf{x}_t) + \varepsilon_{it}(a_{it})$	今天的利润。由当期市场竞争状态决定的可变利润减去固定成本/投资成本。
状态转移 (Transition)	$\mathbf{x}_{t+1}=p(\mathbf{x}_t, \mathbf{a}_t)$	马尔可夫性质
价值函数 (Value Function)	$V_i(\mathbf{x}_t, \varepsilon_{it})$	厂商在最优决策下的终身预期贴现利润。

3. 推导复现

这是你最关心的部分：从数据到参数的逆向工程。作为博士生，你要明白我们不是在“解”模型来预测未来，而是在用模型“解释”数据。

Q1: 文章要估计哪些参数 ($\theta$)？

我们需要估计的是结构性参数 (Structural Parameters)，主要分为三类：

利润函数参数 ($\theta_{\pi}$):
- 固定成本 (Fixed Costs): 只要在市场上就要花的钱。
- 进入/退出成本 (Entry/Scrap Value): 改变状态的“门槛费”。
- 竞争系数 (Competition Effect): 对手多一个，我的利润降多少？
转移概率参数 ($\theta_f$): 比如 R&D 成功的概率，或者外生需求演变的自回归系数（这部分通常直接从数据统计得出，不需要复杂估计）。
贴现因子 ($\beta$): 厂商有多看重未来。注意： 在动态离散博弈中，$\beta$ 通常很难识别，实证中往往直接校准为 0.95 或 0.99。

Q2: 既然模型这么复杂，怎么把参数求出来？（参数空间 vs 数据空间）

这里有两种主要流派，ACR 重点讨论了更适合教学和复现的 CCP (Conditional Choice Probability) 方法（又称 Two-Step Method）。

详见 CCP 法

逻辑推导（粗略教学）：

第一步：从数据映射到“预期” (The Data $\to$ Beliefs)

直觉： 在求解动态规划时，最难的是算 $E[V(\mathbf{x}_{t+1})]$，因为这取决于对手未来会怎么做。但在均衡状态下，厂商对对手的信念应该等于对手的实际行动概率。
操作：
- 数据： 你有一张面板数据表，包含 $(i, t, \mathbf{x}_{it}, a_{it})$。
- 做法： 别管结构模型，直接跑一个 Flexible Logit 或 Probit 回归（或者简单的频率统计）。
- 得到： 条件选择概率 (CCPs)，记为 $\hat{P}(a_{it} | \mathbf{x}_t)$。比如，“当市场上有 3 个对手时，厂商 $i$ 选择进入的概率是 15%”。
- 意义： 这就是厂商眼中的“世界运行规律”。我们用数据中的频率代替了复杂的积分计算。

第二步：从“预期”映射到参数 (Beliefs $\to$ Parameters)

直觉： 既然我们知道了厂商在各种状态下“实际上”会怎么选（$\hat{P}$），我们就可以反推他们的价值函数长什么样。
关键公式 (Hotz-Miller Inversion): 在 Logit 假设下，行动概率的比率直接揭示了价值的差异：
$$\ln(P(a=1|\mathbf{x})) - \ln(P(a=0|\mathbf{x})) = V(a=1, \mathbf{x}) - V(a=0, \mathbf{x})$$
这意味着：如果你看到某人在某种状态下以 99% 的概率选择进入，那说明“进入”比“不进入”的价值（Value Difference）极高。
估计： 我们构建一个矩条件（Moment Condition）或似然函数。我们要找一组参数 $\theta$，使得：
$$\text{模型预测的价值差}(\theta, \hat{P}) \approx \text{数据隐含的价值差}(\hat{P})$$
或者更直观地：找一组成本参数，使得在这个成本结构下，厂商最优决策的概率正好就是我们在第一步里算出来的 $\hat{P}$。

Q3: 为什么选这种结构估计方法？

计算负担： 传统的 NFXP (Nested Fixed Point) 方法需要对每一个尝试的参数值重新解一遍动态博弈均衡（不动点）。博弈可能有成千上万个状态，这在计算上几乎是不可能的。
多重均衡： 动态博弈往往有多个均衡。NFXP 要求模型有唯一解，否则无法写出似然函数。CCP 方法巧妙地避开了这个问题——因为它假设数据是由现实中实际发生的那个均衡生成的，我们只需要对那一个均衡进行合理化（Rationalize），而不需要解出所有可能的均衡。

详见方法比较

4. 识别策略

这是博士生在审稿时上最容易被攻击的点：“你凭什么说这是竞争效应，而不是需求冲击？”

问题： 如果我们看到两个厂商同时退出了市场，是因为他们互相厮杀太惨烈（竞争效应），还是因为这个市场本身就没需求（市场效应）？
ACR 强调的识别条件 (Exclusion Restrictions): 我们需要一个变量，它影响状态转移，但不直接进入当期利润（或者反之）。
- 例子： 你的前期资产存量。它决定了你未来的成本结构（状态转移），但一旦你决定了今天的产量，前期资产本身并不直接决定今天的市场价格（那是当期产量决定的）。
- 利用这种跨期的限制，结合 $\beta$ 的设定，我们可以把当期利润参数从未来预期价值中剥离出来。

5. 核心陷阱与前沿

当你复现或做自己研究时，需警惕：

无法观测的异质性 (Unobserved Heterogeneity):
- 陷阱： 如果某些市场一直有很多厂商，可能不是因为进出门槛低，而是因为那个市场有个大家都知道但你（计量学家）不知道的“好运气” ($\xi_m$)。
- 后果： 如果忽略这个，你会严重高估进入概率，或者低估竞争效应。
- 解决： 使用 Finite Mixture Models 或固定效应方法（虽然在动态非线性模型中加固定效应非常难，ACR 讨论了最新的偏差校正方法）。
状态空间爆炸 (Curse of Dimensionality):
- 陷阱： 只要厂商数量增加，状态空间呈指数级增长。
- 前沿： Oblivious Equilibrium (Weintraub et al., 2008)。假设厂商是“短视”的，只关心行业平均状态，而不关心每一个具体的竞争对手是谁。这大大简化了状态空间，让分析几十个厂商的行业成为可能。