NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

2026-06-23 08:00·9天前

精选理由

这个基准把AI agent丢进Nature论文的复现池里游了一圈，发现最强的配置也只能在17.8%的任务上超越SOTA，而且靠的是方法翻译而非发明——对做科研agent的团队来说，既是冷水也是路线图。

AI 摘要

NatureBench是一个跨学科基准测试，包含90个从Nature系列同行评审论文中提取的任务，用于评估AI编码智能体能否超越复现、实现发现。基准基于NatureGym自动化管线，为每个任务提供标准化容器化环境，解决环境碎片化问题。在严格禁用网络搜索的协议下评估10种前沿智能体配置，最强模型仅在17.8%任务上超过已发表SOTA（g>0.1准则）。分析表明，智能体成功主要依赖方法论翻译，失败主因为方法选择错误和计算预算不足。已发布基准、NatureGym管线及公共排行榜。

AI 翻译 · 中文

我们发布了 NatureBench——一个跨学科的基准测试，包含 90 个从经过同行评审的 Nature 系列出版物中提炼出的任务，旨在评估 AI 编码智能体能否在真实科学问题上超越复现、迈向发现。NatureBench 构建于 NatureGym 之上，后者是一个自动化流水线，能够根据源论文构建标准化的、按任务隔离的容器化环境，从而解决了环境碎片化问题——该问题此前限制了基于智能体的科研基准测试的可信度。在严格的禁用网络搜索协议下，我们评估了十个前沿智能体配置，结果发现，在 g>0.1 标准下，最强模型仅在 17.8% 的任务上超越了 SOTA。对方法路径的分析表明，智能体主要通过方法论迁移——将科学任务转化为熟悉的监督预测问题——取得成功，而非通过真正的科学创新。失败主要源于方法选择错误和计算预算不足，而非任务理解错误。我们发布了该基准测试、NatureGym 流水线，以及一个包含维护方复现结果的公开排行榜。代码：https://github.com/FrontisAI/NatureBench

HuggingFace Daily Papers（社区热门论文）

精选70导出 Markdown

NatureBench：AI编码智能体能否匹配Nature系列论文已发表SOTA？

2026-06-23 08:00·9天前

阅读原文· arxiv.org

精选理由

AI 摘要

AI 翻译 · 中文

智能体GitHub开源生态评测/基准

阅读原文