Ornith-1.0 不是又刷 benchmark,而是第一次把‘任务脚手架’的生成也纳入 RL 优化,这个思路可能改变 agent coding 的训练范式。MIT 开源加 GGUF,本地党可以立刻跑起来。
Ornith-1.0 开源模型家族发布,专注智能体编程(Agentic Coding),覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖:SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练,采用强化学习联合优化任务脚手架(scaffold)与最终解决方案,让模型自主改进执行框架。全系列 MIT 开源,提供 GGUF 版本,支持 Ollama、Unsloth 等本地运行。
卧槽!最近开源大模型太卷了啊!
这不又一个专注 agentic coding 的开源模型家族来了,叫 Ornith-1.0。
它覆盖了从 9B 到 397B MoE 的全尺寸,在 Terminal-Bench、SWE-Bench 等 agent coding benchmark 上达到了当前开源模型里的顶尖水平。
最有意思的是它的训练方式:不是只让模型生成答案,是用 RL 同时优化“任务脚手架(scaffold)”和最终解决方案,让模型自己学会怎么搭建更好的执行框架。
这个思路挺有意思的,很多 agent 失败不是因为不会写代码,恰恰是因为不会组织执行流程。
Ornith 直接把“怎么搭框架”也变成了可学习的信号。
模型全系列 MIT 开源,还提供了 GGUF 版本,能在 Ollama、Unsloth 等工具里直接跑。
本地党又多了一个强力选择。 地址见评论区👇
[引用 @ornith_]:Aloha! 🌺 介绍一下 Ornith-1.0,一个专注于 agentic coding 的开源大语言模型家族。
Ornith-1.0 覆盖全部参数尺寸,包括 9B Dense、31B Dense、35B MoE 和 397B MoE。在以下编程 benchmark 上,它达到了同等规模开源模型中的 SOTA 性能: ✅ Terminal-Bench 2.1(77.5) ✅ SWE-Bench(verified 82.4,pro 62.2,Multilingual 78.9) ✅ NL2Repo(48.2) ✅ SWE Atlas(QnA 41.2,RF 42.6,TW 39.1) ✅ ClawEval(77.1)
基于 gemma4 和 qwen3.5 进行后训练,Ornith-1.0 采用了一种新颖的自改进训练策略:利用强化学习不仅生成解决方案 rollout,还生成驱动这些 rollout 的任务特定 scaffold。通过联合优化 scaffold 和最终的解决方案,模型在 agentic coding 中生成更高质量的解决方案。😎
所有模型均以 MIT 许可证开源,支持完全的商业和研究用途。
📖 技术博客:http://deep-reinforce.com/ornith_1_0.html 🤗 Huggingface:http://huggingface.co/collections/deepreinforce-ai/ornith-10