Shopify工程师Paulo Arruda分享构建多Agent系统的实战经验。最初为应对AI生成代码导致的PR质量问题,尝试用AI补充测试,但依赖图等方案成本过高。Claude Code预览版的推出带来转机,其基于Grep的代码搜索无需维护索引,使Agent能直接操作任意代码库。核心教训是:专才Agent(任务拆分)效果远优于通才Agent;为领域专家适配现有工作流的AI工具,比组建全能AI小队更高效、更易获得信任。
从头构建多智能体系统学到的经验
https://www.infoq.com/presentations/multi-agent-system-lessons/
这是 Shopify 高级工程师 Paulo Arruda 在 QCon 上的演讲,讲的是他从 2024 年底到 2025 年上半年在 Shopify 实际构建多 Agent系统的经历。他说这更像是一个故事,技术细节有,但核心想传递的是那些网上看不到的亲身经验。
故事起点是测试生成。Shopify 是一个巨大的 Rails 单体应用,AI 工具开始帮工程师写代码之后,PR 质量开始变得难以保证,他想研究 AI 能不能帮助补充测试覆盖率来兜底。他尝试过构建文件依赖图、为每个源文件生成 GPT 摘要、用语义关系建图的方案,但成本极高、难以维持更新,最终放弃。
转折点是 2025 年 2 月 Claude Code 的研究预览版上线。他发现 Claude Code 用 Grep 和文件读取来搜索代码,效果和向量索引方案差不多甚至更好,但完全不需要维护索引。更重要的是,这意味着 Agent 可以在任意代码库里操作,不需要预处理。
从这个观察开始,他真正开始探索多 Agent 架构。他踩过的坑里最有普适价值的有两条。
第一条是专才 Agent 的效果远远好于通才 Agent。给一个 Agent 一个宽泛的任务,它会尝试做太多事、每件事都做不精;把同样的工作拆分给多个各自专注于特定范围的 Agent,结果更好,出问题的时候也更容易定位到哪个 Agent 在哪个步骤出了问题。