中训练 - maigewan标题

2025年的AI赛道正经历一场范式革命，从参数竞赛转向Agent任务能力的实战检验。Meta最新研究《Agent Learning via Early Experience》提出的’中训练’范式，通过’早期经验’和’自我反思’机制，正在解决智能体训练中最棘手的反馈匮乏问题。本文将深度解析这一突破性技术如何重构Agent训练路径，以及它为何能令7亿参数的小模型击败十倍规模的对手。

在 2025 年的 AI 赛道上，风向已经发生了根本性的逆转。行业巨头们不再执着于单纯的参数跑分，而是将目光投向了 Agent（智能体）的任务完成能力。从 xAI 到 Anthropic，大家都在追逐同一个圣杯：如何让 AI 自主完成复杂的长程任务。

然而，现实与理想之间存在巨大的鸿沟。除了编程辅助等少数领域，通用 Agent 在真实业务场景中的落地应用依然寥寥无几。

Meta 在 2025 年 10 月发布的最新论文《Agent Learning via Early Experience》或许为打破这一僵局提供了新的思路。这篇文章提出了一种介于预训练和后训练之间的“中训练”（Mid-training）范式，试图解决 Agent 训练中最大的瓶颈——反馈机制的匮乏 。

一、当前困局：两条“瘸腿”的主流路径

要理解 Meta 的新解法，首先需要复盘当前 Agent 训练面临的核心痛点。目前主流的 Agent 后训练方法主要有两种，但它们在面对真实世界的复杂任务时，都存在难以克服的“昂贵代价” 。

1. 模仿学习（SFT）：知其然，不知其所以然

第一种路径是监督微调（SFT），即模仿学习。这种方法类似于让学生死记硬背标准答案，Agent 模仿人类专家的操作轨迹。

局限性： 这种反馈是静态的。它只告诉模型“应该做什么”，却从不教它“如果不这么做会有什么后果” 。

后果： 模型无法建立行为与结果之间的因果联系，泛化能力极差。一旦遇到训练数据之外的边缘情况，Agent 就会因为缺乏对环境的理解而束手无策。

2. 强化学习（RL）：依赖完美的“上帝视角”

第二种路径是强化学习，依赖环境反馈的奖励（Reward）信号进行试错。

局限性： RL 极其依赖清晰、即时且可验证的奖励信号。但在网页浏览、多步工具调用等真实场景中，奖励往往是缺失、稀疏或极度延迟的。

后果： 在缺乏成熟模拟器和标准化重置机制的真实环境中，RL 训练不仅低效，而且极不稳定。

这就导致了一个尴尬的行业现状：简单的方法（SFT）不够强，强大的方法（RL）在落地时用不了 。

二、破局之道：“中训练”与早期经验

Meta 提出的“中训练”范式，核心在于利用“早期经验”（Early Experience）来搭建一座桥梁。

核心洞察：无需奖励的“自监督”

Meta 的研究人员认为，即便没有外部奖励，Agent 自身与环境交互产生的状态变化，本身就是一种极具价值的监督信号。与其依赖昂贵的专家数据或稀缺的奖励信号，不如让 Agent 先去“试错”。通过观察“如果我这样做，环境会发生什么变化”，Agent 可以低成本地习得世界的运行规律。

为了实现这一理念，论文设计了两种具体的训练策略：

策略一：隐式世界建模 (Implicit World Modeling， IWM)

这是一种让 Agent 学习预测未来的机制。

训练逻辑： 在专家轨迹的每一个节点，让 Agent 生成多种备选动作，并在环境中执行，记录下这些动作带来的真实后果。
能力构建： 模型并非直接学习“动作”，而是学习“当前状态+动作 -> 未来状态”的预测能力。
实际意义： Agent 开始理解操作的后果。例如在文件管理任务中，它通过尝试明白 rm 命令是删除而不是移动，从而建立起因果认知。

策略二：自我反思 (Self-Reflection， SR)

这是一种让 Agent 学习“专家思维”的机制。

训练逻辑： 利用强大的 LLM 作为“教练”，对比专家动作和 Agent 的备选动作，生成详细的解释。
能力构建： 训练 Agent 在决策前先生成“反思内心独白”，解释为什么专家的选择在权衡效率、约束条件后是最优解。
实际意义： 将简单的“输入-输出”映射转化为“输入-推理-输出”的深度思考模式。例如在购物场景中，Agent 能学会不仅要考虑颜色偏好，还要同时通过预算限制来筛选商品。

三、效果验证：小参数量也能跑赢大模型

“早期经验”范式的有效性在多个维度的测试中得到了验证。

性能提升： 在涵盖网页浏览、工具使用等 8 个多样化环境的测试中，该方法比传统模仿学习的成功率平均提升了 9.6% 。
泛化与潜力： 在未见过的任务上，表现提升了 9.4%；且作为强化学习的初始化阶段，它能让后续的 RL 训练最终性能提升最多 6.4% 。

更值得关注的是参数效率。实验显示，通过这种自我递归和反思训练，一个仅 7 亿（700M）参数的小模型，在某些任务上甚至能超越参数量大其十几倍的模型。这表明，通过优化训练深度，我们能挖掘出模型中大量“冗余参数”的潜力。

四、理论支撑：通用 Agent 必须拥有“世界模型”

Meta 的这项工程创新，实际上与 Google DeepMind 在 2025 年 ICML 上发表的理论研究《General agents contain world models》遥相呼应。

DeepMind 的研究证明：任何能够处理多步骤复杂任务的 Agent，其内部必须拥有一个精确的“世界模型” 。

传统的模仿学习之所以脆弱，是因为它只学到了浅层的行为映射，而没有建立对环境运行规律的理解。
Meta 的“早期经验”本质上是在补课。它迫使 Agent 在正式决策前，先建立起对“因果”和“未来”的预测模型。

五、行业启示：三段式训练与 Scaling Law 的新方向

这篇文章对 AI 产品经理和研发人员有两个重要的启示：

1. 训练范式的重构：从二段式到三段式

未来的 Agent 训练流程可能会演变为标准的“三段式” ：

预训练 (Pre-training)： 学习语言与基础知识。
中训练 (Mid-training)： 通过“早期经验”建立因果模型，理解世界运行规律。
后训练 (Post-training)： 在具体任务中优化策略。这种循序渐进的路径，可能是通往通用 Agent 的必经之路。

2. Test Time Compute 的前置化

GPTo1 开启了 Test Time Compute（测试时计算）的新时代，即通过增加推理时的计算深度来换取智能。Meta 的研究表明，这种“深度”可以前置到训练阶段。通过隐式世界建模和自我反思，我们实际上是在让模型在训练期就进行大量的“思维演练” 。

这预示着一种新的 Scaling Law：与其无休止地堆砌参数，不如通过更高效的训练机制（如中训练），激活模型中沉睡的神经元，追求参数效率的极致。

总结： AI Agent 的竞争已不再是单纯的数据量或模型规模的比拼。Meta 的“中训练”范式告诉我们，让 Agent 学会“观察后果”和“反思差异”，或许比单纯的喂养数据更为关键。对于从应用层切入的开发者而言，构建低成本的环境交互反馈机制，将是提升 Agent 实战能力的核心壁垒。

本文由 @静观AI 原创发布于人人都是产品经理。未经作者许可，禁止转载

题图来自Unsplash，基于CC0协议

分类：中训练

告别“刷榜”时代：Meta 新范式重构 AI Agent 的“中训练”机制

一、当前困局：两条“瘸腿”的主流路径

1. 模仿学习（SFT）：知其然，不知其所以然

2. 强化学习（RL）：依赖完美的“上帝视角”

二、破局之道：“中训练”与早期经验

核心洞察：无需奖励的“自监督”

三、效果验证：小参数量也能跑赢大模型

四、理论支撑：通用 Agent 必须拥有“世界模型”

五、行业启示：三段式训练与 Scaling Law 的新方向

1. 训练范式的重构：从二段式到三段式

2. Test Time Compute 的前置化

分类： 中训练

告别“刷榜”时代：Meta 新范式重构 AI Agent 的“中训练”机制

一、当前困局：两条“瘸腿”的主流路径

1. 模仿学习（SFT）：知其然，不知其所以然

2. 强化学习（RL）：依赖完美的“上帝视角”

二、破局之道：“中训练”与早期经验

核心洞察：无需奖励的“自监督”

三、 效果验证：小参数量也能跑赢大模型

四、理论支撑：通用 Agent 必须拥有“世界模型”

五、行业启示：三段式训练与 Scaling Law 的新方向

1. 训练范式的重构：从二段式到三段式

2. Test Time Compute 的前置化

分类：中训练

三、效果验证：小参数量也能跑赢大模型