Sakana 把 ICLR 论文 TRINITY 的进化协调器做成了商业产品 Fugu,用不到 2 万参数的路由头调度多个前沿模型,对做多 Agent 编排的团队来说是个值得试的新选项。
Sakana AI在ICLR2026发表论文,提出TRINITY系统。该系统通过一个仅含不到2万参数、由无梯度进化算法优化出的轻量级协调器,在推理时动态组合多个专精大语言模型(如GPT-5、Gemini 2.5-Pro)。协调器在每轮对话中为外部模型分配“思考者”、“执行者”或“验证者”角色,协同解决复杂问题。TRINITY在LiveCodeBench上创造了86.2% pass@1的新纪录,并能零样本泛化至多个未见任务,平均表现超越所有单个组成模型。该研究体现了构建协同、多样化AI生态系统的愿景。
如果我们不是构建一个巨型AI,而是进化出一个协调者来编排一支由多样化专业AI组成的团队呢?🐟
很高兴分享我们的新论文:《TRINITY:一个进化而来的大语言模型协调者》,该论文已在#ICLR2026#会议上发表!
论文链接:https://arxiv.org/abs/2512.04695
在自然界中,复杂问题很少由单一的整体实体解决,而是由专业个体协同努力共同完成。然而,现代AI开发过分集中于无休止地扩展单个巨大的单体模型,导致收益递减。虽然模型合并提供了一种组合不同技能的方法,但由于神经架构不匹配以及顶尖模型的闭源性质,这种方法往往不切实际。
为了解决这个问题,我们采用了一种宏观层面的方法:测试时模型组合。我们提出了TRINITY,这是一个融合了多种最先进模型的互补优势的系统,无需修改它们底层的权重。
TRINITY 通过多轮对话处理查询。在每一步,一个轻量级的协调者从可用模型池中为一个大语言模型分配三种不同角色之一:
1/ 思考者:制定高层策略并分析当前状态。
2/ 工作者:执行具体的问题解决步骤。
3/ 验证者:评估当前解决方案是否完整且正确。
通过动态分配这些角色,协调者有效地将复杂的推理和技能执行任务卸载到外部模型上。
TRINITY 的独特之处在于其极高的效率。协调者依赖于一个紧凑语言模型的隐藏状态和一个小型路由头。总共有不到20K的可学习参数。
训练这个系统带来了巨大挑战。传统的强化学习(REINFORCE)失败了,因为梯度由于二元奖励和弱参数耦合而信噪比低。模仿学习(监督微调)被排除,因为生成多轮标签的成本过高。
我们的解决方案?我们转向了受自然启发的算法。我们使用无导数进化算法优化了协调者。我们发现,进化特别适合优化这个紧密的高维协调问题,而传统的基于梯度的方法在此失效。
结果非常令人期待。在我们的实验中,TRINITY 在多个基准测试上持续优于现有的多智能体方法和单个模型。在发布时,它在 LiveCodeBench 上创下了新的最先进记录,达到了 86.2% 的 pass@1 分数。
更重要的是,它展现了惊人的泛化能力。无需任何重新训练,TRINITY 以零样本方式迁移到了四个未见过的任务(AIME、BigCodeBench、MT-Bench 和 GPQA)。平均而言,进化出的协调器超越了其模型池中的每一个独立组成模型,包括 GPT-5、Gemini 2.5-Pro 和 Claude-4-Sonnet(去年我们提交 #ICLR2026 时可用的最前沿模型)。
这项工作对 Sakana AI 的愿景至关重要。我们相信,人工智能的未来不仅仅是扩展单体模型,而是工程化构建协作、多样化的 AI 生态系统,使其能够自适应并有效整合各自的优势。
我们邀请社区阅读论文并探索这些想法!
论文:https://arxiv.org/abs/2512.04695 OpenReview:https://openreview.net/forum?id=5HaRjXai12
这项基础研究是驱动我们多智能体产品 Sakana Fugu 🐡👇 的核心引擎的一部分。