StreamMA：多智能体推理中的流式通信

2026-06-03 08:00·30天前

精选理由

让多 Agent 一边想一边传，不仅快了一倍还更准，这种流式思路要改写 pipeline 设计了，做多智能体的该认真读读。

AI 摘要

StreamMA 采用“流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。该方法还提升了效果，因为早期步骤更可靠，可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上，使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型，及 Chain、Tree、Graph 三种拓扑，StreamMA 平均优于基线 +7.3 个百分点，在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”：增加每智能体步骤数可同时提升效果与效率。

AI 翻译 · 中文

多智能体推理系统采用“先生成再传输”范式，导致端到端延迟随流水线深度线性增长。我们提出StreamMA，一种多智能体推理系统，它将每个推理步骤在生成后立即流式传输给下游智能体，通过流水线化相邻智能体来降低延迟。令人惊讶的是，这种流水线化还能提升有效性：由于多步推理质量不均匀，早期步骤比后期步骤更可靠，使用这些可靠的早期步骤而非完整链条，可以防止容易出错的后期步骤误导下游智能体。我们通过首次对流式、串行和单协议进行封闭形式联合分析，形式化了这两方面优势，推导出有效性排序、加速上限和成本比。在涵盖数学、科学和代码的八个推理基准、两个前沿大语言模型（Claude Opus 4.6和GPT-5.4）以及三种拓扑结构（链式、树形、图）上，StreamMA均优于两个基线（在HMMT 2026上平均+7.3个百分点，最高+22.4个百分点；Claude Opus 4.6-high）。除了这些贡献，我们还发现了一个“步骤级缩放定律”：增加每个智能体的步骤数能同时提升有效性和效率，这是一个与智能体数量缩放正交且可组合的新缩放维度。

HuggingFace Daily Papers（社区热门论文）

精选73导出 Markdown