DeLM:去中心化多智能体系统框架
阅读原文· arxiv.org去中心化MAS把中心调度换成共享黑板,SWE-bench一口气提10.5个点还省一半成本,这个思路值得所有搞agent的团队认真看。
DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。
多智能体系统(MAS)能够通过将复杂问题分解为并行子任务,在测试时扩展大语言模型的推理能力。然而,现有的大多数MAS依赖于集中式编排,即由一个主智能体分配任务、收集输出并合并结果。随着子任务数量增加,该控制器成为通信和集成的瓶颈。我们提出去中心化语言模型(DeLM),这是一种通过并行智能体、共享已验证上下文和任务队列来实现去中心化协调的MAS框架。智能体异步认领子任务、读取累积进展、执行本地推理,并回写紧凑的已验证更新。共享上下文充当了公共通信基础,使智能体能够彼此基于已验证的进展进行构建,而无需将每次更新都通过中央控制器路由。实验表明,DeLM在软件工程测试时扩展和长上下文推理两方面均有提升。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升了最多10.5个百分点,同时每个任务的成本降低约50%。在LongBench-v2 Multi-Doc QA上,DeLM在四个前沿模型家族中取得最高平均准确率,相比最强基线提升了最多5.7个百分点。代码已开源在我们的项目网站上:https://yuzhenmao.github.io/DeLM/。