StreamMA:多智能体推理中的流式通信
阅读原文· arxiv.org让多 Agent 一边想一边传,不仅快了一倍还更准,这种流式思路要改写 pipeline 设计了,做多智能体的该认真读读。
StreamMA 采用“流式通信”范式,每个推理步骤生成后立即流式传输给下游智能体,通过流水线相邻智能体降低端到端延迟。该方法还提升了效果,因为早期步骤更可靠,可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上,使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型,及 Chain、Tree、Graph 三种拓扑,StreamMA 平均优于基线 +7.3 个百分点,在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”:增加每智能体步骤数可同时提升效果与效率。
多智能体推理系统采用“先生成再传输”范式,导致端到端延迟随流水线深度线性增长。我们提出StreamMA,一种多智能体推理系统,它将每个推理步骤在生成后立即流式传输给下游智能体,通过流水线化相邻智能体来降低延迟。令人惊讶的是,这种流水线化还能提升有效性:由于多步推理质量不均匀,早期步骤比后期步骤更可靠,使用这些可靠的早期步骤而非完整链条,可以防止容易出错的后期步骤误导下游智能体。我们通过首次对流式、串行和单协议进行封闭形式联合分析,形式化了这两方面优势,推导出有效性排序、加速上限和成本比。在涵盖数学、科学和代码的八个推理基准、两个前沿大语言模型(Claude Opus 4.6和GPT-5.4)以及三种拓扑结构(链式、树形、图)上,StreamMA均优于两个基线(在HMMT 2026上平均+7.3个百分点,最高+22.4个百分点;Claude Opus 4.6-high)。除了这些贡献,我们还发现了一个“步骤级缩放定律”:增加每个智能体的步骤数能同时提升有效性和效率,这是一个与智能体数量缩放正交且可组合的新缩放维度。