Berryxia.AI@berryxia

2026-05-15 07:55·49天前

AI 摘要

Prime Intellect 近期在AI研究自动化领域取得重要进展。他们让Claude Code与Codex智能体完全自主运行于nanoGPT速度挑战的优化器赛道，利用闲置算力完成了近万次实验，消耗约1.4万H200小时。最终，Claude Code将记录提升至2930步，超越了2990步的人类基准。实验显示，智能体在系统整合社区主流优化方法、进行超参数扫描和策略组合方面效率极高，但在要求真正创新的“新颖性检查”环节未能突破基线。该项目将所有实验记录、日志和代码开源，使得AI自主研究从概念转化为可复现的现实。

Prime Intellect 最近把 AI 研究自动化推到了一个新阶段。

他们让 Claude Code（Opus 4.7）和 Codex（GPT 5.5）完全自主运行在 nanoGPT speedrun 的 optimizer track 上，使用闲置算力完成了约 1 万次实验，总计消耗 1.4 万 H200 小时。

最终结果：Claude Code 把记录推到 2930 steps，超过了人类基准的 2990 steps。

整个过程完全无人值守。

我看完他们的完整 thread 后，最有启发的部分是 agents 的实际表现：

它们在 optimizer 搜索、超参数扫描和方法 stacking 上非常高效，几乎把社区所有主流 PR 的思路（Contra-Muon、MuonEq、NorMuon、SOAP 等）都系统性组合了一遍。

但在 novelty（真正创新）上遇到明显瓶颈，当强制要求每个 idea 必须通过 novelty check 时，两个 agents 都没能超越 baseline。

Prime Intellect 把所有 scratchpad、运行日志、配置和生成的 idea 全部开源了，包括两个 agents 的完整实验记录。

这波操作把"AI 研究能不能自己跑"从概念变成了可复现的现实。

完整实验和代码在这里：https://github.com/PrimeIntellect-ai/experiments-autonomous-speedrunning

Prime IntellectAutomating AI research is the next major step in AI We let Claude Code (Opus 4.7) and Codex (GPT 5.5) run autonomously on the nanoGPT speedrun optimizer track u...

智能体开源生态论文/研究

在 X 查看原推

Berryxia.AI@berryxia · X

69导出 Markdown