# AI自主研究实现突破：智能体在nanoGPT优化赛道上超越人类基准

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-15 07:55
- AIHOT 分数：69
- AIHOT 链接：https://aihot.virxact.com/items/cmp67ce3h0kc6sljxivzzmvqx
- 原文链接：https://x.com/berryxia/status/2055074608261578949

## AI 摘要

Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道，利用闲置算力完成了近万次实验，消耗约1.4万H200小时。最终，Claude Code将记录提升至2930步，超越了2990步的人类基准。实验显示，智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高，但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源，使得AI自主研究从概念转化为可复现的现实。

## 正文

Prime Intellect 最近把 AI 研究自动化推到了一个新阶段。

他们让 Claude Code（Opus 4.7）和 Codex（GPT 5.5）完全自主运行在 nanoGPT speedrun 的 optimizer track 上，使用闲置算力完成了约 1 万次实验，总计消耗 1.4 万 H200 小时。

最终结果：Claude Code 把记录推到 2930 steps，超过了人类基准的 2990 steps。

整个过程完全无人值守。

我看完他们的完整 thread 后，最有启发的部分是 agents 的实际表现：

它们在 optimizer 搜索、超参数扫描和方法 stacking 上非常高效，几乎把社区所有主流 PR 的思路（Contra-Muon、MuonEq、NorMuon、SOAP 等）都系统性组合了一遍。

但在 novelty（真正创新）上遇到明显瓶颈，当强制要求每个 idea 必须通过 novelty check 时，两个 agents 都没能超越 baseline。

Prime Intellect 把所有 scratchpad、运行日志、配置和生成的 idea 全部开源了，包括两个 agents 的完整实验记录。

这波操作把"AI 研究能不能自己跑"从概念变成了可复现的现实。

完整实验和代码在这里：https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

### 引用推文

> Prime Intellect：Automating AI research is the next major step in AI We let Claude Code (Opus 4.7) and Codex (GPT 5.5) run autonomously on the nanoGPT speedrun optimizer track u...