# 多智能体团队阻碍专家发挥

- 来源：Apple Machine Learning Research（RSS）
- 发布时间：2026-07-02 08:00
- AIHOT 分数：72
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmr3rd0l901btsl7lars7am9q
- 原文链接：https://machinelearning.apple.com/research/multi-agent-teams-experts

## 精选理由

这篇研究给多智能体热浇了盆冷水，自组织团队反而拖累专家，瓶颈不在认不认识专家而在会不会用专家，做 Agent 系统的都知道这有多反直觉。如果你是做多智能体的值得看看。

## AI 摘要

在自我组织的多智能体LLM系统中，团队无法有效利用专家成员的专业知识。在多个基准测试中，即使明确告知专家身份，团队表现仍落后于最佳成员（专家智能体）的独立能力，性能损失最高达41.1%。失败主因是未能有效利用专家意见，而非识别专家。对话分析显示，团队倾向于“整合性妥协”——平均化专家与非专家观点，随团队规模增大而加剧，且与表现负相关。这种寻求共识的行为同时提升了对抗恶意智能体的鲁棒性，揭示了协同对齐与专业利用之间的根本性权衡。

## 正文

研究领域：语音与自然语言处理；会议：ICML

内容类型：论文；发表于2026年7月

多智能体团队束缚专家

作者：Aneesh Pappu†, Batu El†, Hancheng Cao‡, Carmelo di Nolfo, Yanchao Sun, Meng Cao, James Zou†

查看出版物

多智能体大语言模型系统正越来越多地被部署为自主协作者，其中智能体自由互动，而非执行固定的、预先指定的工作流程。在这种设置下，有效的协调无法完全提前设计，而必须通过互动涌现。然而，大多数先前的工作通过固定的角色、工作流程或聚合规则来强制执行协调，这就留下了一个问题：当协调不受约束时，自组织团队的表现如何。借鉴组织心理学，我们研究了自组织大语言模型团队是否能实现强大的协同效应，即团队表现达到或超过最佳个体成员。在受人类启发的基准测试和前沿机器学习基准测试中，我们发现——与人类团队不同——大语言模型团队始终无法匹配其专家智能体的表现，即使明确告知他们谁是专家，在机器学习基准测试上性能损失高达41.1%。分解这种失败，我们表明专家利用（而非识别）是主要瓶颈。对话分析揭示了一种整合性妥协的倾向——平均专家与非专家观点，而非适当加权专业知识——这种倾向随团队规模增大而增加，并且与表现呈负相关。有趣的是，这种寻求共识的行为提高了对对抗性智能体的鲁棒性，表明对齐与有效利用专业知识之间存在权衡。我们的发现揭示了自组织多智能体团队在利用其成员集体专业知识能力方面的显著差距。

† 斯坦福大学

‡ 埃默里大学

相关阅读与更新。

AgentBuilder: Exploring Scaffolds for Prototyping User Experiences of Interface Agents

2026年1月9日；研究领域：人机交互

由生成式AI模型驱动的界面智能体（简称“智能体”）能够根据用户命令自动执行操作。开发智能体的一个重要方面是其用户体验（即智能体体验）。目前，越来越需要为AI工程师之外的更广泛人群提供框架，以便他们能够快速原型设计智能体体验，因为这些人能为智能体体验设计贡献宝贵的视角。在本工作中，我们探索了……

通过自我博弈学习多智能体谈判

2019年1月28日 研究领域 计算机视觉 ICCV研讨会

做出复杂、稳健且安全的序列决策是智能系统的核心。这在复杂多智能体环境中的规划尤为重要，因为智能体需要预测其他智能体的意图和可能的未来行动。传统方法将问题形式化为马尔可夫决策过程，但其解决方案往往依赖于各种假设，并且在遇到边缘情况时会变得脆弱。在本研究中，我们……

探索机器学习中的机会。

我们在机器学习领域的研究每天都在开创新天地。

加入我们