用对抗性黑客-修补循环强化Agent基准测试
阅读原文· arxiv.org现有 Agent 基准的验证器太容易被钻空子了,这篇论文挖出 16% 可 hack 的任务,还提出用三个 LLM 自动对抗修补的循环方法,做 RL 评估的值得细读。
对五个终端Agent基准测试的1,968个任务审计发现,323个(16%)可被前沿模型仅凭任务描述进行奖励黑客攻击。研究者提出hacker-fixer loop方法:三个LLM agent轮流作为黑客尝试绕过验证器、修补者拒绝每次漏洞、求解者确认修补后仍接受合法方案。在KernelBench上,该循环将公开报告漏洞的攻击成功率从62%降至0%。弱agent也能防御强黑客:Gemini 3 Flash循环使Gemini 3.1 Pro和Claude Opus 4.7在KernelBench上的攻击成功率分别从76%和61%降至0%;在Terminal Bench的77个任务上,从39%降至17%。发布Terminal Wrench(323个可攻击环境、3,632条攻击轨迹)及修补后的验证器与实现。
AI智能体基准通常使用手工编写且脆弱的输出验证器来评分提交结果,这使得它们容易受到奖励破解的攻击。我们审计了五个终端智能体基准中的1,968个任务,发现其中323个(16%)仅凭任务描述就能被前沿模型破解。这既破坏了排行榜排名,也破坏了RL训练信号,然而标准的应对方式仍是手动且被动的。
我们引入了黑客-修复者循环(hacker-fixer loop),这是一种无需逐个任务手动修补即可构建抗漏洞验证器的方法。该循环交替使用三个大语言模型智能体:黑客尝试在不解决任务的情况下通过验证器,修复者修补验证器以拒绝每个被发现的漏洞,而求解者则确认修补后的验证器仍然接受合法的解决方案。循环不断迭代:每次修补都会重塑验证器的奖励机制,从而暴露出下一个漏洞。我们进一步增加了验证器的访问权限,并允许补丁跨任务迁移,以扩大循环所能发现的漏洞范围。
在KernelBench上,该循环将公开报告的漏洞测试集上的攻击成功率从62%降至0%。我们还发现,循环中较弱的智能体能够抵御更强的黑客:Gemini 3 Flash的循环在KernelBench上将更强的Gemini 3.1 Pro和Claude Opus 4.7的攻击成功率分别从76%和61%降至0%;在Terminal Bench上,Gemini 3.1 Pro的循环在77个任务上将其攻击成功率从39%降至17%。我们发布了Terminal Wrench(包含323个可破解环境、3,632条破解轨迹),作为当前攻击面的快照,同时发布了我们修补后的验证器、循环发现的漏洞以及我们的实现,作为未来工作的基础。