Sakana 用 RL 训了个 7B 的「指挥官」模型,不写代码只发指令,让 GPT-5、Claude 这些大模型自动组队干活,还跑出了递归自我纠错。做多 Agent 编排的同行,这篇论文值得逐行读。
研究团队提出Conductor模型,通过强化学习训练,作为管理者动态协调包含GPT-5、Gemini等前沿模型的智能体团队。它用自然语言输出工作流,指定调用智能体、分配子任务和提供上下文。这个7B模型在LiveCodeBench等基准测试中超越了所有单个成员模型及昂贵多智能体基线,并具备“递归测试时扩展”特性,可自我调用纠正错误,为推理时扩展计算开辟新途径。该研究是Sakana多智能体系统Fugu的技术基础,Fugu已在多个基准达到SOTA,提供低延迟和高深度推理模式,并开放Beta测试。
向大家介绍我们的新工作:“学习用自然语言通过 Conductor 编排智能体”,该论文已被 #ICLR2026 接收。
https://arxiv.org/abs/2512.04388
如果我们训练一个 AI 不是为了直接解决问题,而是作为管理者,将任务委派给由其他各种 AI 组成的多样化团队,会怎么样?
为了解决复杂任务,人类很少单独工作;我们会组建团队、委派任务并进行沟通。然而,当前的多智能体 AI 系统严重依赖死板的人工设计工作流,或者仅仅是选择单个模型的简单路由器。我们希望得到一个能够动态组建自己团队的 AI。
我们使用强化学习训练了一个 7B 的 Conductor 模型,用于编排一个前沿模型池(包括 GPT-5、Gemini、Claude,以及在 ICLR 2026 截稿前可用的开源模型)。
Conductor 不执行代码,而是以自然语言输出协作工作流。对于任何给定问题,Conductor 会指定:
1/ 调用哪个智能体 2/ 交给他们什么具体子任务(充当专家级提示词工程师) 3/ 他们的上下文窗口中可以看到哪些之前的信息
通过纯粹的端到端奖励最大化,涌现出了惊人的行为。Conductor 学会了根据任务难度进行自适应:对于简单的事实性问题,它一次推理就完成;对于困难的编程问题,它会自主启动复杂的规划-执行-验证流水线。
结果非常有前景:7B 的 Conductor 超越了其模型池中每一个单独的工人模型的性能,在投稿时于 LiveCodeBench(83.9%)和 GPQA-Diamond(87.5%)上刷新了纪录。同时,它的性能也远超昂贵的多智能体基线(如 Mixture-of-Agents),而成本却低得多。
我们最喜欢的功能之一:递归式测试时扩展!通过允许 Conductor 将自己选为工人,它可以读取自己团队之前的输出,意识到是否失败,并即时启动一个纠正工作流。这为推理时扩展计算量开辟了新的维度。
这项研究证明,语言模型可以成为精英级的元提示词工程师,动态地利用集体智能。
与我们几天前宣布的 TRINITY 研究一起,这项基础研究为我们新的多智能体系统 Sakana Fugu 提供了动力!(https://sakana.ai/fugu-beta)🐡
OpenReview:https://openreview.net/forum?id=U23A2BUKYt(ICLR 2026)