# 前沿大模型后训练配方回顾：与 Finbarr Timbers 对谈

- 来源：Nathan Lambert：Interconnects（RSS）
- 作者：Nathan Lambert
- 发布时间：2026-06-16 21:29
- AIHOT 分数：52
- AIHOT 链接：https://aihot.virxact.com/items/cmqgpmutu01w7slicw45czdr8
- 原文链接：https://www.interconnects.ai/p/frontier-post-training-recipe-review

## AI 摘要

Interconnects 播客邀请 Finbarr Timbers 回顾后训练配方的演变：从 InstructGPT 的 SFT→奖励模型→RL 三阶段，到 Llama 3 / Tülu 3 的 SFT→DPO→可验证奖励 RL，再至 DeepSeek R1 以大规模 RL 为核心。2026 年配方分化为多个领域专家模型再合并回统一模型。新出现模式为 Multi-teacher On-Policy Distillation（MOPD）：训练 N 个领域专家（经 SFT 和领域 RL），再通过在线采样、逐 token 最小化反向 KL 散度训练通用学生模型。MiMo Flash V2 率先引入，DeepSeek V4 与 Nemotron 3 Ultra 扩展至超过 10 个教师。MOPD 兴起源于单一 RL 流程在多领域间产生能力冲突，而专家模型易于并行训练，在线蒸馏技术日趋成熟。

## 正文

Interconnects

Frontier post-training recipe review with Finbarr Timbers

-56:35

Ready for more?

© 2026 Interconnects AI, LLC · Privacy ∙ Terms ∙ Collection notice

Start your SubstackGet the app

Substack is the home for great culture