DeepSeek研究员开源AutoResearch：AI自主跑通285B模型RL研究闭环

AYi@AYi_AInotes

精选76

2026-06-19 11:58·1天前

精选理由

Deli Chen 开源的不是模型，是能让 AI 自己跑通 RL 研究全流程的「后厨系统」，从实验设计到 debug 全自动，五个工程思路可以直接抄作业。

AI 摘要

DeepSeek研究员Deli Chen将AutoResearch协议开源，并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结，全程零人工干预。系统调用了GRPO工具，被视为持续学习研究的开端。

AI 翻译 · 中文

这可能是我近期看到的最值得深入研究的一次 skills 开源和工程脚手架，最后总结的 5 个工程思路大家可以直接拿去用。

DeepSeek 研究员 Deli Chen 把他的 AutoResearch 协议开源了，同时扔出一篇关于 Self-play 的综述（第四篇）。

最炸的地方是，他的代理第一次完全 autonomously 在 285B 模型上跑通了完整的 RL 研究闭环——实验设计、写代码、提交 GPU 任务、debug、到出结论，全程零人工干预。

要知道写代码和跑通研究闭环是两件事，就像学会炒菜和开一家每天出品稳定的餐厅，差的不只是一道菜，还有整套后厨流程。

至于论文里的结论，我放在评论区。

[引用 @victor207755822]：🧵 Deli AutoResearch SKILL 现已正式开源！🎉 https://victorchen96.github.io/auto_research/framework.html

与此同时，我们还发布了第四篇综述论文——这一次是关于 Self-play。 https://victorchen96.github.io/auto_research/paper.html

受 AlphaZero 启发，我们得到一个强有力的洞见：先验知识并不总能提升天花板。模型仅通过自我对弈就能发现更全局的最优解。

这篇论文最大的变化是什么？ AutoResearch Agent 首次自主规划 GPU 实验——并在 DeepSeek 285B 模型上提交了实际的 RL 运行。

整个 RL 管线——实验设计、代码编写、运行、调试和结论总结——100% 自动化，全程无需我人工干预。这极其困难，但也是极其重要的一步。 https://victorchen96.github.io/blog_self_play_story.html

GRPO 是 AutoResearch Agent 这里调用的工具。我们将其视为持续学习研究之旅的开端。🚀

一如既往，这是我的个人研究项目，与任何组织无关。所有观点均为我本人看法。

#AI #ReinforcementLearning #SelfPlay #OpenSource #AutoML #ContinualLearning #DeepSeek

Deli Chen🧵 Deli AutoResearch SKILL is now officially open source! 🎉 https://victorchen96.github.io/auto_research/framework.html Alongside it, we're dropping our 4th su...

智能体DeepSeek开源/仓库

在 X 查看原推

AYi@AYi_AInotes · X