# Cohere 发布首个开源编程模型 North Mini Code

- 来源：meng shao (@shao__meng)
- 发布时间：2026-06-10 09:20
- AIHOT 分数：73
- AIHOT 链接：https://aihot.virxact.com/items/cmq7eti8c02hlsl5wfrtozuam
- 原文链接：https://x.com/shao__meng/status/2064518114835108255

## AI 摘要

Cohere 推出首个开源编程模型 North Mini Code（MoE 30B/3B，128 专家，每 token 激活 8 个），支持 256K 输入/64K 输出，最低 1×H100（FP8）。训练采用三阶段后训练：级联 SFT（含 Agent 工具调用与推理数据）→ RLVR（CISPO 算法，异步采样，Terminal+SWE 双环境联合训练）→ 跨脚手架泛化。Agent 编程方面，Artificial Analysis Coding Index 达 33.4，同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4 等，超过 Nemotron 3 Super 120B，稍低于 Qwen3.6 35B-A3B（约 35.2）。推理速度对比 Devstral Small 2 最高约 2.8×，词间延迟约 -30%。非编程 Agent 任务偏弱。推荐 temperature=1.0、top_p=0.95。

## 正文

Cohere 发布首个开源编程模型「North Mini Code」

小参数、高效率、专做 Agent 编程
参数：MoE 架构（30B， 3B），128专家，每 token 激活 8 个
上下文：256K 输入 / 64K 输出
最低硬件：1× H100（FP8）

官方发布
https://cohere.com/blog/north-mini-code
HuggingFace
https://huggingface.co/CohereLabs/North-Mini-Code-1.0

# 训练方法（三阶段后训练）

1. 两阶段级联 SFT
· 一阶段（64K）：代码约 70% 可训练 token（43% Agent 工具调用 + 27% 单轮竞赛/科学编程），混推理与指令跟随
· 二阶段（128K）：约 4.5B token，61% 为代码，全为 Agent/推理样本，工具调用与完成结果均校验可执行
· 数据来自 7 万+ 可验证任务、约 5000 个仓库；与 SWE-Bench 源去重，防泄漏
· SFT 目标不是刷榜，而是为 RL 打底：优化 pass@K 与采样多样性

2. RLVR（可验证奖励强化学习）
· 算法：CISPO（token 级重要性采样，长轨迹不被短样本稀释）
· 异步采样：vLLM sidecar + 窗口 FIFO 队列，缓解 Agent rollout 长度差异
· 双环境联合训练：Terminal（ReAct + bash）+ SWE（SWE-Agent）
· 奖励：单元测试二值奖励；无效工具调用/不可解析输出得 0 分

3. 跨 Harness 泛化
· 训练时暴露多种 Agent 脚手架（SWE-Agent、mini-SWE、OpenCode 等）
· 二阶段 SFT 中约 6% 为其他 benchmark harness 数据
· OpenCode 评估约 +10%；mini-SWE-Agent 上 pass@1 达 61.0%，属「免费迁移」

SFT 结束时：SWE-Bench Verified pass@10 = 80.2%，Terminal-Bench v2 pass@10 = 55.1%。RL 后 Terminal pass@1 +7.9%，SWE pass@1 +3.0%；轨迹更短、无效工具调用更少。

# 基准表现

Agent 编程（核心卖点）
· Artificial Analysis Coding Index：33.4
· 同量级开源中领先 Qwen3.5 35B-A3B、Gemma 4、Devstral Small 2 等
· 甚至超过 Nemotron 3 Super（120B）、Mistral Small 4（119B）等更大模型
· 仍略低于 Qwen3.6 35B-A3B（约 35.2）

评测集：SWE-Bench Verified/Pro、Terminal-Bench v2/Hard、SciCode、LiveCodeBench v6
Harness：SWE-Agent v1.1.0、ReAct+Tmux、Terminus-2 等；temperature=1.0，top_p=0.95，3 seed 平均

非编程 Agent 任务偏弱（第三方汇总）：GDPval-AA ~14%，τ2-Bench Telecom ~37%，Agentic Index 综合约 21.7--专精编程，非通用 Agent。

推理速度（对比 Devstral Small 2，Cohere 内部测试）
· 同并发下输出吞吐最高约 2.8×
· 词间延迟约 -30%
· TTFT 略逊于 Devstral Small 2

# Agent 能力设计

模型原生支持交错思考与工具调用，格式类似 Cohere Command 系列：
<|START_THINKING|> … <|END_THINKING|>
<|START_ACTION|> 【JSON tool calls】 <|END_ACTION|>
<|START_TOOL_RESULT|> … <|END_TOOL_RESULT|>
<|START_RESPONSE|> … <|END_RESPONSE|>

使用要点：
· 必须把 reasoning/thinking 一并写入对话历史，否则效果下降
· 工具描述建议用 JSON Schema
· 推荐采样：temperature=1.0，top_p=0.95
· 需较新 Transformers 源码、vLLM main + cohere_melody>=0.9.0

面向场景：子 Agent 编排、系统架构理解、Code Review、终端操作、多步软件工程。

### 引用推文

> Cohere：Introducing Cohere's first open-source coding model: North Mini Code Small & efficient, designed for agentic performance and built for community input.