Sakana AI 发布多智能体编排系统 Sakana Fugu,对外表现为单一模型
今日 Sakana AI 发布 Sakana Fugu,一个多智能体编排系统,对外表现为单一模型。用户通过 OpenAI 兼容端点发送请求,Fugu 内部决定直接求解或组建专家模型团队协作。提供两个变体:Fugu(平衡性能与低延迟,支持特定 agent opt-out)和 Fugu Ultra(针对困难多步问题优化,固定 agent 池,当前模型 ID 为 fugu-ultra-20260615)。在 11 项基准测试中,Fugu Ultra 在 SWE Bench Pro(73.7%)、TerminalBench 2.1(82.1%)、LiveCodeBench(93.2%)、Humanity’s Last Exam(50.0%)等 10 项上取得最高分,表现与 Anthropic 的 Fable 5 和 Mythos Preview 相当。Fugu 通过 OpenAI 兼容 API 调用,无需更换 SDK,并支持 opt-out 以应对合规和单供应商风险。
今天,Sakana AI 正式发布了 Sakana Fugu。这是一个多智能体编排系统,但表现如同单一模型。你只需向一个端点发送请求,Fugu 会自动决定如何在内部处理。当直接求解足以应对时,它会自行完成任务;而在必要时,它会组建并协调一组专家模型协同工作。多智能体系统的复杂性永远不会触及你的代码。
摘要
- Fugu 通过一个兼容 OpenAI 的 API 对外提供多智能体系统。
- Fugu Ultra 在大多数已发布的编程和推理基准测试中处于领先地位。
- 编排器的性能超过了它所协调的各个独立模型。
- 模型退出机制和供应商路由策略旨在满足合规要求并降低单一供应商风险。
- 路由机制是专有的,因此每次查询的模型选择过程对外保持隐蔽。
什么是 Sakana Fugu
Fugu 本身就是一个语言模型。它经过训练,能够调用智能体池中的其他大语言模型。这个池中还包括它自身的实例(递归调用)。Fugu 在内部负责模型选择、任务委派、结果验证和输出合成。
与硬编码的角色或工作流不同,Fugu 通过学习掌握如何协调。它自行决定何时委派任务以及智能体之间应如何通信,然后将各智能体的工作结果合并为一个答案。从外部看,你只调用了一个模型;而在内部,一套经过协调的专家系统在完成全部工作。
Sakana AI 将此举视为对冲单一供应商依赖风险的手段。如果某家供应商限制访问,Fugu 可以绕开该中断点继续路由。研究团队援引近期对 Anthropic 的 Fable 和 Mythos 模型的出口管制措施作为动因。随着时间的推移,更新的模型可以逐步纳入到智能体池中。
Fugu 与 Fugu Ultra:两个模型,同一套 API
Fugu 提供两个版本,均通过一个兼容 OpenAI 的 API 对外服务:
- Fugu 在强劲性能与低延迟之间取得了平衡。它是日常编程、代码审查和聊天机器人的默认选择,也适用于 Codex 等工具。你可以从它的智能体池中排除特定模型,这有助于团队满足数据、隐私及合规要求。
- Fugu Ultra 针对困难、多步骤问题进行了优化,力求最高答案质量。它协调一个更深层的专家智能体池,由于该池是固定的,因此不提供模型退出机制。当前模型 ID 为 fugu-ultra-20260615。
编排器背后的研究
Fugu 基于两篇 ICLR 2026 论文——Trinity 和 Conductor——构建,这两篇论文聚焦于学习型编排。
TRINITY 在多次对话中采用一个轻量级的进化协调器。它会分配思考者、执行者或验证者角色,以自适应地委派任务。Conductor 则通过强化学习训练,能够发现自然语言协调策略,并为多样化的大语言模型池生成针对性提示词。
两者共同表明,系统可以学习按任务组装和路由多个智能体,从而取代人工设计的工作流程。
互动说明器
基准测试
Sakana AI 将 Fugu 与其所编排的基础模型进行对比。基线使用供应商报告的成绩。SWE Bench Pro 采用 mini-swe-agent 作为脚手架。
| 基准测试 | Fugu | Fugu Ultra | Opus 4.8 | Gemini 3.1 Pro | GPT 5.5 |
|---|---|---|---|---|---|
| SWE Bench Pro* | 59.0 | 73.7 | 69.2 | 54.2 | 58.6 |
| TerminalBench 2.1 | 80.2 | 82.1 | 74.6 | 70.3 | 78.2 |
| LiveCodeBench | 92.9 | 93.2 | 87.8 | 88.5 | 85.3 |
| LiveCodeBench Pro | 87.8 | 90.8 | 84.8 | 82.9 | 88.4 |
| Humanity’s Last Exam | 47.2 | 50.0 | 49.8 | 44.4 | 41.4 |
| CharXiv Reasoning | 85.1 | 86.6 | 84.2 | 83.3 | 84.1 |
| GPQA-D | 95.5 | 95.5 | 92.0 | 94.3 | 93.6 |
| SciCode | 60.1 | 58.7 | 53.5 | 58.9 | 56.1 |
| τ³ Banking | 21.7 | 20.6 | 20.6 | 8.4 | 20.6 |
| Long Context Reasoning | 74.7 | 73.3 | 67.7 | 72.7 | 74.3 |
| MRCRv2 | 86.6 | 93.6 | 87.9 | 84.9 | 94.8 |
编排器在 11 行中取得了 10 行的最高分。Fugu Ultra 在四个编程基准、CharXiv Reasoning 和 Humanity’s Last Exam 上位居榜首;它在 GPQA-D 上与普通版 Fugu 并列第一。普通版 Fugu 在 SciCode、τ³ Banking 和 Long Context Reasoning 上领先。GPT 5.5 在 MRCRv2 上获胜,这是唯一一个基线获胜的项。
其 Fugu 模型与 Anthropic 的 Fable 5 和 Mythos Preview 实力相当。但这两者不在 Fugu 的模型池中,因为它们尚未公开可用。
使用案例
Sakana AI 与近 500 名早期用户进行了 Beta 测试。已发布的示例偏向于长流程、多步骤任务。
- 自动研究:一个智能体自主改进了小型 GPT 的训练方案。它在单块 H100 GPU 上运行了约 14 小时,执行了 123 次实验。Fugu Ultra 达到了最佳平均验证 BPB 值 0.9774,最佳单次运行值为 0.9748。
- 魔方求解:每个模型编写了一个纯 Python 求解器,不允许使用任何库。Fugu Ultra 成功解出了所有 300 个预留的魔方,平均步数 19.72 步。其中一个基线以 19.76 步紧随其后。另外两个基线则彻底崩溃,未能解出任何一个。
- 古典日文假名阅读顺序:在1610年的一封信件上,Fugu Ultra 取得了 NED 0.80 的成绩。最接近的基线方案仅达到0.24。
- 盲棋:Fugu 在完全不展示棋盘的情况下,凭记忆下了四盘棋。它击败了三款前沿模型和一个2100 Elo 的 Stockfish 引擎。
- 在线交易:在一个50周的窗口期内,Fugu Ultra 五次运行的平均回报率为 +19.43%。其他前沿模型的回报率均低于+15%。Sakana AI 指出,过往业绩不能保证未来结果。
一个极简的 API 示例
Fugu 使用兼容 OpenAI 的 API,因此无需迁移 SDK。将现有客户端指向控制台提供的端点即可。
from openai import OpenAI
# Endpoint and key come from your Sakana console (console.sakana.ai).
client = OpenAI(
base_url="https://<your-fugu-endpoint>/v1", # from console.sakana.ai
api_key="YOUR_SAKANA_API_KEY",
)
resp = client.chat.completions.create(
model="fugu-ultra-20260615", # or "fugu"
messages=[
{"role": "user",
"content": "Reproduce the method in this paper and report the gap."},
],
)
print(resp.choices[0].message.content)每个请求都会报告 token 用量和费用,因此您可以实时监控支出。
社区反馈
Sakana Fugu —— 早期社区情绪
对 X 和 Hacker News 上的公开反应进行人工审查,并附上每条来源链接。采集于 2026年6月22日。