Berryxia.AI@berryxia

精选76

2026-06-25 23:30·11小时前

精选理由

Ornith-1.0 不是又刷 benchmark，而是第一次把‘任务脚手架’的生成也纳入 RL 优化，这个思路可能改变 agent coding 的训练范式。MIT 开源加 GGUF，本地党可以立刻跑起来。

AI 摘要

Ornith-1.0 开源模型家族发布，专注智能体编程（Agentic Coding），覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖：SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练，采用强化学习联合优化任务脚手架（scaffold）与最终解决方案，让模型自主改进执行框架。全系列 MIT 开源，提供 GGUF 版本，支持 Ollama、Unsloth 等本地运行。

AI 翻译 · 中文

卧槽！最近开源大模型太卷了啊！

这不又一个专注 agentic coding 的开源模型家族来了，叫 Ornith-1.0。

它覆盖了从 9B 到 397B MoE 的全尺寸，在 Terminal-Bench、SWE-Bench 等 agent coding benchmark 上达到了当前开源模型里的顶尖水平。

最有意思的是它的训练方式：不是只让模型生成答案，是用 RL 同时优化“任务脚手架（scaffold）”和最终解决方案，让模型自己学会怎么搭建更好的执行框架。

这个思路挺有意思的，很多 agent 失败不是因为不会写代码，恰恰是因为不会组织执行流程。

Ornith 直接把“怎么搭框架”也变成了可学习的信号。

模型全系列 MIT 开源，还提供了 GGUF 版本，能在 Ollama、Unsloth 等工具里直接跑。

本地党又多了一个强力选择。地址见评论区👇

[引用 @ornith_]：Aloha! 🌺 介绍一下 Ornith-1.0，一个专注于 agentic coding 的开源大语言模型家族。

Ornith-1.0 覆盖全部参数尺寸，包括 9B Dense、31B Dense、35B MoE 和 397B MoE。在以下编程 benchmark 上，它达到了同等规模开源模型中的 SOTA 性能： ✅ Terminal-Bench 2.1（77.5） ✅ SWE-Bench（verified 82.4，pro 62.2，Multilingual 78.9） ✅ NL2Repo（48.2） ✅ SWE Atlas（QnA 41.2，RF 42.6，TW 39.1） ✅ ClawEval（77.1）

基于 gemma4 和 qwen3.5 进行后训练，Ornith-1.0 采用了一种新颖的自改进训练策略：利用强化学习不仅生成解决方案 rollout，还生成驱动这些 rollout 的任务特定 scaffold。通过联合优化 scaffold 和最终的解决方案，模型在 agentic coding 中生成更高质量的解决方案。😎

所有模型均以 MIT 许可证开源，支持完全的商业和研究用途。

📖 技术博客：http://deep-reinforce.com/ornith_1_0.html 🤗 Huggingface：http://huggingface.co/collections/deepreinforce-ai/ornith-10

OrnithAloha! 🌺 Meet Ornith-1.0, a family of open-source LLMs specialized for agentic coding. Ornith-1.0 spans the full parameter sizes including 9B Dense, 31B Dense,...

智能体开源生态模型发布编码

在 X 查看原推

Berryxia.AI@berryxia · X