NatureBench:AI编码智能体能否匹配Nature系列论文已发表SOTA?
阅读原文· arxiv.org这个基准把AI agent丢进Nature论文的复现池里游了一圈,发现最强的配置也只能在17.8%的任务上超越SOTA,而且靠的是方法翻译而非发明——对做科研agent的团队来说,既是冷水也是路线图。
NatureBench是一个跨学科基准测试,包含90个从Nature系列同行评审论文中提取的任务,用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线,为每个任务提供标准化容器化环境,解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置,最强模型仅在17.8%任务上超过已发表SOTA(g>0.1准则)。分析表明,智能体成功主要依赖方法论翻译,失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。
我们发布了 NatureBench——一个跨学科的基准测试,包含 90 个从经过同行评审的 Nature 系列出版物中提炼出的任务,旨在评估 AI 编码智能体能否在真实科学问题上超越复现、迈向发现。NatureBench 构建于 NatureGym 之上,后者是一个自动化流水线,能够根据源论文构建标准化的、按任务隔离的容器化环境,从而解决了环境碎片化问题——该问题此前限制了基于智能体的科研基准测试的可信度。在严格的禁用网络搜索协议下,我们评估了十个前沿智能体配置,结果发现,在 g>0.1 标准下,最强模型仅在 17.8% 的任务上超越了 SOTA。对方法路径的分析表明,智能体主要通过方法论迁移——将科学任务转化为熟悉的监督预测问题——取得成功,而非通过真正的科学创新。失败主要源于方法选择错误和计算预算不足,而非任务理解错误。我们发布了该基准测试、NatureGym 流水线,以及一个包含维护方复现结果的公开排行榜。代码:https://github.com/FrontisAI/NatureBench