Ornith-1.0 是专为智能体编程设计的开源大语言模型家族,提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种尺寸。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架与解决方案的自我改进策略。在多个编码基准上取得开源模型最优:Terminal-Bench 2.1(77.5)、SWE-Bench Verified(82.4)/ Pro(62.2)/ Multilingual(78.9)、NL2Repo(48.2)、SWE Atlas(QnA 41.2 / RF 42.6 / TW 39.1)、ClawEval(77.1)。所有模型以 MIT 许可证开源,支持商业与研究使用。主推文称其 397B 版本性能媲美甚至超越 Claude Opus 4.8。
这个消息看起来好得令人难以置信。
一个 397B 的开源模型,能与 Claude Opus 4.8 持平甚至超越它?
我必须去验证一下。
[引用 @ornith_]:Aloha!🌺 欢迎了解 Ornith-1.0,这是一个专为智能体编程设计的开源大语言模型系列。
Ornith-1.0 覆盖了完整的参数规模,包括 9B Dense、31B Dense、35B MoE 和 397B MoE。在各项编程基准测试中,它在同尺寸开源模型中达到了最先进的性能,包括: ✅Terminal-Bench 2.1(77.5) ✅SWE-Bench(Verified 82.4,Pro 62.2,Multilingual 78.9) ✅NL2Repo(48.2) ✅SWE Atlas(QnA 41.2,RF 42.6,TW 39.1) ✅ClawEval(77.1)
Ornith-1.0 基于 gemma4 和 qwen3.5 进行后训练,采用了一种新颖的自我改进训练策略:利用强化学习不仅能生成解决方案的 rollout,还能生成驱动这些 rollout 的任务专用 scaffold(脚手架)。通过联合优化 scaffold 和由此产生的解决方案,该模型在智能体编程中生成了更高质量的解决方案。😎
所有模型均以 MIT 许可证发布,可供完整的商业和研究使用。
📖技术博客:http://deep-reinforce.com/ornith_1_0.html 🤗Huggingface:http://huggingface.co/collections/deepreinforce-ai/ornith-10