论文大规模实证检验 AGENTS.md 等仓库级上下文文件对编码 Agent 的影响。在 SWE-bench Lite(300 任务)和新建 AGENTBENCH(138 任务)上测试 Claude Code、Codex、Qwen Code 等组合。核心发现:LLM 自动生成的 context file 在 8 组设置中 5 组成功率下降,平均 -0.5%(SWE-bench)/-2%(AGENTBENCH),成本增加 +20%+;开发者手写仅平均 +4%。冗余假说:移除其他文档后,自动生成反而 +2.7%。建议避免自动生成,精简测试/lint 命令,优先写入仓库专用工具。
AGENTS.md 在 Coding Agents 中真的有用吗?
这篇论文,大规模实证研究仓库级上下文文件(AGENTS.md、CLAUDE.md 等)对编码 Agent 实际效果的影响,可能有些反直觉!感谢 @rasbt 分享! 论文在这:https://arxiv.org/abs/2602.11988
研究背景:实践先行,证据滞后 AGENTS.md 已成为行业惯例,GitHub 上已有 6 万+ 仓库采用,Claude Code (CLAUDE.md)、Codex、Qwen Code 等 Agent 都内置 /init 自动生成。但此前研究多停留在内容分类与描述性统计,缺少对任务完成率的严格评估。
核心难点在于:主流基准 SWE-bench 来自 Django、Flask 等知名仓库,这些项目本来就没有开发者手写的 context file,无法直接评估该实践的真实价值。
实验设计:双基准、三条件、四 Agent · 基准:SWE-bench Lite(300 任务,11 个热门 Python 仓库)+ 新建 AGENTBENCH(138 任务,12 个已含开发者 context file 的冷门仓库) · 三种条件:1 无 context file 2 LLM 生成(各 Agent 官方 /init 流程)3 开发者手写(仅 AGENTBENCH) · Agent/模型:Claude Code + Sonnet 4.5、Codex + GPT-5.2 / GPT-5.1 mini、Qwen Code + Qwen3-30B · 指标:任务成功率、步数、推理成本、工具调用轨迹