Conductor模型：自然语言智能体协调器

Sakana AI@SakanaAILabs

精选73

2026-04-27 22:54·54天前

精选理由

Sakana 用 RL 训了个 7B 的「指挥官」模型，不写代码只发指令，让 GPT-5、Claude 这些大模型自动组队干活，还跑出了递归自我纠错。做多 Agent 编排的同行，这篇论文值得逐行读。

AI 摘要

研究团队提出Conductor模型，通过强化学习训练，作为管理者动态协调包含GPT-5、Gemini等前沿模型的智能体团队。它用自然语言输出工作流，指定调用智能体、分配子任务和提供上下文。这个7B模型在LiveCodeBench等基准测试中超越了所有单个成员模型及昂贵多智能体基线，并具备“递归测试时扩展”特性，可自我调用纠正错误，为推理时扩展计算开辟新途径。该研究是Sakana多智能体系统Fugu的技术基础，Fugu已在多个基准达到SOTA，提供低延迟和高深度推理模式，并开放Beta测试。

AI 翻译 · 中文

向大家介绍我们的新工作：“学习用自然语言通过 Conductor 编排智能体”，该论文已被 #ICLR2026 接收。

https://arxiv.org/abs/2512.04388

如果我们训练一个 AI 不是为了直接解决问题，而是作为管理者，将任务委派给由其他各种 AI 组成的多样化团队，会怎么样？

为了解决复杂任务，人类很少单独工作；我们会组建团队、委派任务并进行沟通。然而，当前的多智能体 AI 系统严重依赖死板的人工设计工作流，或者仅仅是选择单个模型的简单路由器。我们希望得到一个能够动态组建自己团队的 AI。

我们使用强化学习训练了一个 7B 的 Conductor 模型，用于编排一个前沿模型池（包括 GPT-5、Gemini、Claude，以及在 ICLR 2026 截稿前可用的开源模型）。

Conductor 不执行代码，而是以自然语言输出协作工作流。对于任何给定问题，Conductor 会指定：

1/ 调用哪个智能体 2/ 交给他们什么具体子任务（充当专家级提示词工程师） 3/ 他们的上下文窗口中可以看到哪些之前的信息

通过纯粹的端到端奖励最大化，涌现出了惊人的行为。Conductor 学会了根据任务难度进行自适应：对于简单的事实性问题，它一次推理就完成；对于困难的编程问题，它会自主启动复杂的规划-执行-验证流水线。

结果非常有前景：7B 的 Conductor 超越了其模型池中每一个单独的工人模型的性能，在投稿时于 LiveCodeBench（83.9%）和 GPQA-Diamond（87.5%）上刷新了纪录。同时，它的性能也远超昂贵的多智能体基线（如 Mixture-of-Agents），而成本却低得多。

我们最喜欢的功能之一：递归式测试时扩展！通过允许 Conductor 将自己选为工人，它可以读取自己团队之前的输出，意识到是否失败，并即时启动一个纠正工作流。这为推理时扩展计算量开辟了新的维度。

这项研究证明，语言模型可以成为精英级的元提示词工程师，动态地利用集体智能。

与我们几天前宣布的 TRINITY 研究一起，这项基础研究为我们新的多智能体系统 Sakana Fugu 提供了动力！（https://sakana.ai/fugu-beta）🐡

OpenReview：https://openreview.net/forum?id=U23A2BUKYt（ICLR 2026）

Sakana AIWe're launching the beta for our new commercial AI product: Sakana Fugu 🐡, a multi-agent orchestration system! Blog: https://sakana.ai/fugu-beta Fugu hits SOTA...

智能体论文/研究

在 X 查看原推

Sakana AI@SakanaAILabs · X