Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道,利用闲置算力完成了近万次实验,消耗约1.4万H200小时。最终,Claude Code将记录提升至2930步,超越了2990步的人类基准。实验显示,智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高,但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源,使得AI自主研究从概念转化为可复现的现实。
Prime Intellect 最近把 AI 研究自动化推到了一个新阶段。
他们让 Claude Code(Opus 4.7)和 Codex(GPT 5.5)完全自主运行在 nanoGPT speedrun 的 optimizer track 上,使用闲置算力完成了约 1 万次实验,总计消耗 1.4 万 H200 小时。
最终结果:Claude Code 把记录推到 2930 steps,超过了人类基准的 2990 steps。
整个过程完全无人值守。
我看完他们的完整 thread 后,最有启发的部分是 agents 的实际表现:
它们在 optimizer 搜索、超参数扫描和方法 stacking 上非常高效,几乎把社区所有主流 PR 的思路(Contra-Muon、MuonEq、NorMuon、SOAP 等)都系统性组合了一遍。
但在 novelty(真正创新)上遇到明显瓶颈,当强制要求每个 idea 必须通过 novelty check 时,两个 agents 都没能超越 baseline。
Prime Intellect 把所有 scratchpad、运行日志、配置和生成的 idea 全部开源了,包括两个 agents 的完整实验记录。