Deli Chen 开源的不是模型,是能让 AI 自己跑通 RL 研究全流程的「后厨系统」,从实验设计到 debug 全自动,五个工程思路可以直接抄作业。
DeepSeek研究员Deli Chen将AutoResearch协议开源,并发布Self-play综述论文。其AI智能体首次完全自主地在DeepSeek 285B模型上完成完整RL研究闭环——从实验设计、写代码、提交GPU任务、debug到结论总结,全程零人工干预。系统调用了GRPO工具,被视为持续学习研究的开端。
这可能是我近期看到的最值得深入研究的一次 skills 开源和工程脚手架,最后总结的 5 个工程思路大家可以直接拿去用。
DeepSeek 研究员 Deli Chen 把他的 AutoResearch 协议开源了,同时扔出一篇关于 Self-play 的综述(第四篇)。
最炸的地方是,他的代理第一次完全 autonomously 在 285B 模型上跑通了完整的 RL 研究闭环——实验设计、写代码、提交 GPU 任务、debug、到出结论,全程零人工干预。
要知道写代码和跑通研究闭环是两件事,就像学会炒菜和开一家每天出品稳定的餐厅,差的不只是一道菜,还有整套后厨流程。
至于论文里的结论,我放在评论区。
[引用 @victor207755822]:🧵 Deli AutoResearch SKILL 现已正式开源!🎉 https://victorchen96.github.io/auto_research/framework.html
与此同时,我们还发布了第四篇综述论文——这一次是关于 Self-play。 https://victorchen96.github.io/auto_research/paper.html
受 AlphaZero 启发,我们得到一个强有力的洞见:先验知识并不总能提升天花板。 模型仅通过自我对弈就能发现更全局的最优解。
这篇论文最大的变化是什么? AutoResearch Agent 首次自主规划 GPU 实验——并在 DeepSeek 285B 模型上提交了实际的 RL 运行。
整个 RL 管线——实验设计、代码编写、运行、调试和结论总结——100% 自动化,全程无需我人工干预。 这极其困难,但也是极其重要的一步。 https://victorchen96.github.io/blog_self_play_story.html
GRPO 是 AutoResearch Agent 这里调用的工具。 我们将其视为持续学习研究之旅的开端。🚀
一如既往,这是我的个人研究项目,与任何组织无关。所有观点均为我本人看法。
#AI #ReinforcementLearning #SelfPlay #OpenSource #AutoML #ContinualLearning #DeepSeek