Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能
阅读原文· arxiv.org用35B模型追平1T参数模型,这条“扩展智能体视野”的路比无脑堆参数务实得多,做Agent和长程推理的团队必须认真读。
研究人员提出 Agents-A1,一个 35B 参数的 Mixture-of-Experts 智能体模型,通过扩展智能体 horizon(长轨迹与异构能力两个视角)达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施,生成平均 45K token 的智能体轨迹,并采用三阶段训练:全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏(含显著词汇对齐)。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro,Agents-A1 在 SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和 MolBench-Bind(56.8)上领先,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持强竞争力。
我们介绍了 Agents‑A1,一个参数量为 35B 的混合专家智能体模型(Mixture‑of‑Experts Agentic Model),通过扩展智能体任务链条达到了万亿参数级别的性能。我们从两个角度研究了任务链条扩展:一是扩展长链条轨迹,二是扩展异构的智能体能力。为此,我们构建了一套长链条知识‑动作基础设施,将外部知识、动作、观测结果和验证器结果连接起来,生成了平均长度为 45K 模型 token 的智能体轨迹。在此基础上,我们采用三阶段训练方案来训练 Agents‑A1。首先,我们进行全领域有监督微调,将基座模型与广泛的智能体行为对齐。其次,我们训练领域级教师模型,以捕获每个领域的专有知识。第三,我们提出了一种带显著词汇对齐的多教师领域路由在线知识蒸馏方法,以提高不同领域之间的知识迁移效率,将六个异构领域统一到一个可部署的学生模型中。Agents‑A1 在长链条智能体基准测试中取得了强大且广泛的表现。与 Kimi‑K2.6 和 DeepSeek‑V4‑pro 等 1T 参数模型相比,Agents‑A1 在 SEAL‑0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience‑Olympiad(79.0)和 MolBench‑Bind(56.8)上取得了领先结果,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持了很强的竞争力。我们希望这项工作能够为社区提供一条实用的路径,即通过一个 35B 的智能体在长链条任务上达到或匹配 1T 模型的性能。