Chubby♨️@kimmonismus

2026-06-26 19:56·6天前

AI 摘要

Ornith-1.0 是专为智能体编程设计的开源大语言模型家族，提供 9B Dense、31B Dense、35B MoE 和 397B MoE 四种尺寸。基于 gemma4 和 qwen3.5 后训练，采用强化学习联合优化任务脚手架与解决方案的自我改进策略。在多个编码基准上取得开源模型最优：Terminal-Bench 2.1（77.5）、SWE-Bench Verified（82.4）/ Pro（62.2）/ Multilingual（78.9）、NL2Repo（48.2）、SWE Atlas（QnA 41.2 / RF 42.6 / TW 39.1）、ClawEval（77.1）。所有模型以 MIT 许可证开源，支持商业与研究使用。主推文称其 397B 版本性能媲美甚至超越 Claude Opus 4.8。

AI 翻译 · 中文

这个消息看起来好得令人难以置信。

一个 397B 的开源模型，能与 Claude Opus 4.8 持平甚至超越它？

我必须去验证一下。

[引用 @ornith_]：Aloha！🌺 欢迎了解 Ornith-1.0，这是一个专为智能体编程设计的开源大语言模型系列。

Ornith-1.0 覆盖了完整的参数规模，包括 9B Dense、31B Dense、35B MoE 和 397B MoE。在各项编程基准测试中，它在同尺寸开源模型中达到了最先进的性能，包括： ✅Terminal-Bench 2.1（77.5） ✅SWE-Bench（Verified 82.4，Pro 62.2，Multilingual 78.9） ✅NL2Repo（48.2） ✅SWE Atlas（QnA 41.2，RF 42.6，TW 39.1） ✅ClawEval（77.1）

Ornith-1.0 基于 gemma4 和 qwen3.5 进行后训练，采用了一种新颖的自我改进训练策略：利用强化学习不仅能生成解决方案的 rollout，还能生成驱动这些 rollout 的任务专用 scaffold（脚手架）。通过联合优化 scaffold 和由此产生的解决方案，该模型在智能体编程中生成了更高质量的解决方案。😎

所有模型均以 MIT 许可证发布，可供完整的商业和研究使用。

📖技术博客：http://deep-reinforce.com/ornith_1_0.html 🤗Huggingface：http://huggingface.co/collections/deepreinforce-ai/ornith-10

OrnithAloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense,...

开源生态模型发布编码

在 X 查看原推

Chubby♨️@kimmonismus · X

77导出 Markdown