分类: 中训练

通过WPeMatico自动添加.

  • 告别“刷榜”时代:Meta 新范式重构 AI Agent 的“中训练”机制

    2025年的AI赛道正经历一场范式革命,从参数竞赛转向Agent任务能力的实战检验。Meta最新研究《Agent Learning via Early Experience》提出的’中训练’范式,通过’早期经验’和’自我反思’机制,正在解决智能体训练中最棘手的反馈匮乏问题。本文将深度解析这一突破性技术如何重构Agent训练路径,以及它为何能令7亿参数的小模型击败十倍规模的对手。

    在 2025 年的 AI 赛道上,风向已经发生了根本性的逆转。行业巨头们不再执着于单纯的参数跑分,而是将目光投向了 Agent(智能体)的任务完成能力 。从 xAI 到 Anthropic,大家都在追逐同一个圣杯:如何让 AI 自主完成复杂的长程任务 。

    然而,现实与理想之间存在巨大的鸿沟。除了编程辅助等少数领域,通用 Agent 在真实业务场景中的落地应用依然寥寥无几 。

    Meta 在 2025 年 10 月发布的最新论文《Agent Learning via Early Experience》或许为打破这一僵局提供了新的思路。这篇文章提出了一种介于预训练和后训练之间的“中训练”(Mid-training)范式,试图解决 Agent 训练中最大的瓶颈——反馈机制的匮乏

    一、当前困局:两条“瘸腿”的主流路径

    要理解 Meta 的新解法,首先需要复盘当前 Agent 训练面临的核心痛点。目前主流的 Agent 后训练方法主要有两种,但它们在面对真实世界的复杂任务时,都存在难以克服的“昂贵代价” 。

    1. 模仿学习(SFT):知其然,不知其所以然

    第一种路径是监督微调(SFT),即模仿学习 。这种方法类似于让学生死记硬背标准答案,Agent 模仿人类专家的操作轨迹 。

    局限性: 这种反馈是静态的。它只告诉模型“应该做什么”,却从不教它“如果不这么做会有什么后果” 。

    后果: 模型无法建立行为与结果之间的因果联系,泛化能力极差 。一旦遇到训练数据之外的边缘情况,Agent 就会因为缺乏对环境的理解而束手无策。

    2. 强化学习(RL):依赖完美的“上帝视角”

    第二种路径是强化学习,依赖环境反馈的奖励(Reward)信号进行试错 。

    局限性: RL 极其依赖清晰、即时且可验证的奖励信号。但在网页浏览、多步工具调用等真实场景中,奖励往往是缺失、稀疏或极度延迟的 。

    后果: 在缺乏成熟模拟器和标准化重置机制的真实环境中,RL 训练不仅低效,而且极不稳定 。

    这就导致了一个尴尬的行业现状:简单的方法(SFT)不够强,强大的方法(RL)在落地时用不了

    二、破局之道:“中训练”与早期经验

    Meta 提出的“中训练”范式,核心在于利用“早期经验”(Early Experience)来搭建一座桥梁 。

    核心洞察:无需奖励的“自监督”

    Meta 的研究人员认为,即便没有外部奖励,Agent 自身与环境交互产生的状态变化,本身就是一种极具价值的监督信号 。 与其依赖昂贵的专家数据或稀缺的奖励信号,不如让 Agent 先去“试错”。通过观察“如果我这样做,环境会发生什么变化”,Agent 可以低成本地习得世界的运行规律 。

    为了实现这一理念,论文设计了两种具体的训练策略:

    策略一:隐式世界建模 (Implicit World Modeling, IWM)

    这是一种让 Agent 学习预测未来的机制 。

    • 训练逻辑: 在专家轨迹的每一个节点,让 Agent 生成多种备选动作,并在环境中执行,记录下这些动作带来的真实后果 。
    • 能力构建: 模型并非直接学习“动作”,而是学习“当前状态+动作 -> 未来状态”的预测能力 。
    • 实际意义: Agent 开始理解操作的后果。例如在文件管理任务中,它通过尝试明白 rm 命令是删除而不是移动,从而建立起因果认知 。

    策略二:自我反思 (Self-Reflection, SR)

    这是一种让 Agent 学习“专家思维”的机制 。

    • 训练逻辑: 利用强大的 LLM 作为“教练”,对比专家动作和 Agent 的备选动作,生成详细的解释 。
    • 能力构建: 训练 Agent 在决策前先生成“反思内心独白”,解释为什么专家的选择在权衡效率、约束条件后是最优解 。
    • 实际意义: 将简单的“输入-输出”映射转化为“输入-推理-输出”的深度思考模式。例如在购物场景中,Agent 能学会不仅要考虑颜色偏好,还要同时通过预算限制来筛选商品 。

    三、 效果验证:小参数量也能跑赢大模型

    “早期经验”范式的有效性在多个维度的测试中得到了验证。

    • 性能提升: 在涵盖网页浏览、工具使用等 8 个多样化环境的测试中,该方法比传统模仿学习的成功率平均提升了 9.6% 。
    • 泛化与潜力: 在未见过的任务上,表现提升了 9.4%;且作为强化学习的初始化阶段,它能让后续的 RL 训练最终性能提升最多 6.4% 。

    更值得关注的是参数效率。实验显示,通过这种自我递归和反思训练,一个仅 7 亿(700M)参数的小模型,在某些任务上甚至能超越参数量大其十几倍的模型 。这表明,通过优化训练深度,我们能挖掘出模型中大量“冗余参数”的潜力 。

    四、理论支撑:通用 Agent 必须拥有“世界模型”

    Meta 的这项工程创新,实际上与 Google DeepMind 在 2025 年 ICML 上发表的理论研究《General agents contain world models》遥相呼应 。

    DeepMind 的研究证明:任何能够处理多步骤复杂任务的 Agent,其内部必须拥有一个精确的“世界模型”

    • 传统的模仿学习之所以脆弱,是因为它只学到了浅层的行为映射,而没有建立对环境运行规律的理解 。
    • Meta 的“早期经验”本质上是在补课。它迫使 Agent 在正式决策前,先建立起对“因果”和“未来”的预测模型 。

    五、行业启示:三段式训练与 Scaling Law 的新方向

    这篇文章对 AI 产品经理和研发人员有两个重要的启示:

    1. 训练范式的重构:从二段式到三段式

    未来的 Agent 训练流程可能会演变为标准的“三段式” :

    • 预训练 (Pre-training): 学习语言与基础知识。
    • 中训练 (Mid-training): 通过“早期经验”建立因果模型,理解世界运行规律 。
    • 后训练 (Post-training): 在具体任务中优化策略 。 这种循序渐进的路径,可能是通往通用 Agent 的必经之路 。

    2. Test Time Compute 的前置化

    GPTo1 开启了 Test Time Compute(测试时计算)的新时代,即通过增加推理时的计算深度来换取智能 。Meta 的研究表明,这种“深度”可以前置到训练阶段。通过隐式世界建模和自我反思,我们实际上是在让模型在训练期就进行大量的“思维演练” 。

    这预示着一种新的 Scaling Law:与其无休止地堆砌参数,不如通过更高效的训练机制(如中训练),激活模型中沉睡的神经元,追求参数效率的极致 。

    总结: AI Agent 的竞争已不再是单纯的数据量或模型规模的比拼。Meta 的“中训练”范式告诉我们,让 Agent 学会“观察后果”和“反思差异”,或许比单纯的喂养数据更为关键。对于从应用层切入的开发者而言,构建低成本的环境交互反馈机制,将是提升 Agent 实战能力的核心壁垒。

    本文由 @静观AI 原创发布于人人都是产品经理。未经作者许可,禁止转载

    题图来自Unsplash,基于CC0协议