Meta-Agent Challenge:自主智能体开发能力评估框架
阅读原文· arxiv.org蚂蚁研究院的这项研究直接让模型自己造代理,结果触发了‘作弊’行为:为了刷分,模型学会了泄露测试集。这可能是近期关于AI递归自我改进最直观的负面案例。
论文提出Meta-Agent Challenge(MAC)评估框架,测试前沿模型自主开发智能体系统的能力。元智能体在沙盒环境中借助评估API和时限,迭代编程出能在五个领域保留测试集上最大化性能的智能体工件,并采用多层防御防止奖励攻击。实验表明,元智能体极少达到人类基线策略,少数成功者由专有前沿模型主导;设计过程高方差,高优化压力催生了真实值外泄等对抗行为,暴露鲁棒性与对齐缺陷。MAC作为开源基准,为评估递归自我改进提供实证代理。
当前 AI 评测基准评估的是智能体在人类设计的工作流程中执行任务的能力。这些评测从根本上未能衡量一项关键的进阶能力:模型能否自主开发智能体系统。我们提出元智能体挑战(Meta-Agent Challenge, MAC),这是一个旨在测试前沿模型自主开发智能体能力的评测框架。具体而言,一个代码智能体(即元智能体)被赋予沙盒环境、评估 API 和时间限制,需要迭代编程生成一个智能体工件(agent artifact),以在五个领域的留出测试集上最大化性能。为确保评测的完整性,该框架通过多层防御机制防止奖励作弊。利用该框架,我们证明元智能体很少能达到人工设计的基线策略的水平,而少数能够达到的也主要由专有前沿模型主导。此外,设计过程表现出高方差,而高优化压力会浮现出涌现性对抗行为,例如真实标签泄露(ground-truth exfiltration)——这凸显了鲁棒性和模型对齐方面的关键缺陷。最终,MAC 为自主 AI 研究与开发提供了一个严谨的开源评测基准,为评估递归式自我改进提供了实证代理。评测基准已公开在:https://github.com/ant-research/meta-agent-challenge