The Decoder：AI News（RSS）

精选70

新浪开源VibeThinker-3B：推理可压缩，事实知识不能

2026-06-28 15:44·1天前·Jonathan Kemper

精选理由

VibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型，推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。

AI 摘要

新浪发布仅3B参数的VibeThinker-3B，在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型，LiveCodeBench超越所有20B以下模型，LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B，经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”：逻辑推理依赖少数可压缩模式，而广泛世界知识仍需大参数。模型已开源。

AI 翻译 · 中文

新浪开源模型VibeThinker-3B旨在展示推理能力可良好压缩，但事实性知识则不能

Jonathan Kemper 查看Jonathan Kemper的LinkedIn档案

Jun 28, 2026

Nano Banana Pro 由 THE DECODER 提供提示

要点

微博的新模型VibeThinker-3B仅有30亿参数，但在数学和编程基准测试中可媲美体积大至其333倍的顶级模型。
这一性能源于对阿里巴巴基础模型进行的多阶段后训练。然而，在需要广泛事实性知识的任务上，该小模型则远远落后。
研究人员得出结论：结构化的逻辑推理依赖于少量模式且可良好压缩，而广泛的世界知识仍需大型模型。

一个仅有30亿参数的中文语言模型，有时在数学和编程任务上可媲美体积大其百倍的模型。其背后的研究人员提出了一项关于AI能力结构如何组织的假设。

微博母公司新浪发布了一款小型语言模型，在困难数学和编程任务上可与当今顶级模型竞争。根据一份技术报告，VibeThinker-3B在诸如AIME26等竞争性基准测试中表现与DeepSeek V3.2和Kimi K2.5相当。这两款模型的参数量是它的200到333倍。

新浪将这款模型定位为一次实验，旨在探究模型要达到顶级竞争力究竟需要多少算力。其前代产品VibeThinker-1.5B于2025年11月发布。新版本更进一步，追问一个小模型能否达到真正的顶级性能，而不仅仅是“就其规模而言表现不错”。

Sechs Balkendiagramme vergleichen VibeThinker 3B mit Qwen3.6 Plus, Gemini 3 Pro, GLM-5, Kimi K2.5 und Claude Opus 4.5 auf den Benchmarks AIME'25, AIME'26, LiveCodeBench v6, IMO-AnswerBench, HMMT'25 und IFBench; die schraffierte Balkenerweiterung markiert den Zugewinn durch CLR-Test-Time-Scaling. — 在六项数学和编程基准测试中，该3B模型（橙色）的性能落在包括Gemini 3 Pro、GLM-5和Claude Opus 4.5在内的五款当前顶级模型的性能范围内。| 图片来源：新浪微博

逻辑可向下缩放，事实性知识则不能

这些结果讲述了两个不同的故事。在具有明确可验证解决方案的结构化任务上，如数学奥林匹克竞赛或编程挑战，VibeThinker-3B可与GLM-5或Gemini 3 Pro等模型媲美。在LiveCodeBench上，它击败了所有其他参数量低于200亿的模型。

事实性知识则是另一回事。在知识密集型基准测试 GPQA-Diamond 上，该模型远远落后于它那些体量更大的竞争对手。

Horizontales Balkendiagramm zur IMO-AnswerBench-Punktzahl von Open-Source-Reasoning-Modellen samt Parameterzahl; VibeThinker-3B erreicht mit 3 Milliarden Parametern 76,4 Punkte und mit CLR 80,6 und liegt damit im Bereich von DeepSeek V3.2 (671B), GLM-5 (744B) und Kimi K2.5 (1T). — VibeThinker-3B 在 IMO-AnswerBench 上几乎比肩 DeepSeek V3.2、GLM-5 和 Kimi K2.5，尽管其规模小了几百倍。| 图片来源：新浪微博

为了排除数据污染，该团队让模型在训练结束后参加了 2026 年 4 月下旬至 5 月下旬举办的 LeetCode 竞赛。VibeThinker-3B 在第一次尝试中就解决了 128 道题中的 123 道。这使得它领先于 GPT-5.2、Qwen3-Max、Kimi K2.5 和 Claude Opus 4.6。仅落后于 GPT-5.3-Codex、Gemini 3.1 Pro 和 Gemini 3 Flash，但差距不大。

后训练承担了主要工作。

VibeThinker-3B 基于阿里巴巴的 Qwen2.5-Coder-3B 构建。新浪的贡献在于后训练，即在大数据集上进行通用预训练之后的一切步骤。根据报告，正是后训练让一个 3B 模型逼近了顶尖水平。

后训练分阶段进行。首先，模型通过监督微调学习广泛的任务，涵盖数学、编程和通用对话。然后，模型针对困难的多步推理问题进行定制化调整。

随后是强化学习，依次应用于数学、编程和 STEM 领域。然后通过自蒸馏将每个阶段学到的技能整合到单个模型中。最后一步确保模型更好地遵循指令。

Ablaufdiagramm der Trainingspipeline von VibeThinker-3B vom Base Model über zweistufiges Supervised Fine-Tuning und mehrstufiges Reasoning RL für Math, Code und STEM bis zum abschließenden Instruct RL, mit Offline Self-Distillation als Rückkopplungsschritt. — 正是后训练实现了性能飞跃。两阶段监督微调、针对数学、代码和 STEM 的多阶段推理强化学习，再加上最终为了提示词遵循而进行的指令阶段。| 图片来源：新浪微博

在微调过程中，团队有意构建了多种多样的解题路径。随后强化学习强化那些有效的路径。其观点是，性能来自训练方法、数据质量和可靠的验证信号，而非来自更多的参数。

这对 AI 能力运作方式意味着什么？

基于这些结果，作者提出了他们所谓的“参数压缩-覆盖假说”。不同的 AI 能力具有不同的结构，需要不同数量的参数。

逻辑推理，比如像逐步解一道数学题，依赖于少数几种反复出现的模式：搜索、检查条件、纠正错误、组合中间结果。这类能力可以压缩进一个紧凑的核心中。世界知识则运作方式不同。回答横跨多个主题的开放性问题需要广泛的覆盖面，这意味着需要大量参数来存储大量事实。

研究人员表示，这重新定义了小模型的用途。它们不仅是专为低成本推理打造的廉价轻量版本，更是一条与传统规模扩展逻辑并行的独立研究路径。在任务可验证且有明确解构模式的情况下，参数量不再是瓶颈。

VibeThinker-3B 已在 Hugging Face 和 GitHub 上公开提供。

小模型在狭窄任务上追赶远比它们大的系统，正成为一种模式。今年 4 月，阿里巴巴的 Qwen3.6-27B 在所有编程基准测试中的表现都超越了其规模大 15 倍的前代产品。据其开发者称，来自阿布扎比的 Falcon H1R 7B 达到了规模为其两到七倍模型的性能水平。早期关于小模型逻辑缺陷的研究表明，它们在多步推理上通常会碰壁。而 VibeThinker 在可验证任务上的结果恰恰挑战了这一假设。

AI 新闻，不炒作——由人工精选

订阅《THE DECODER》，获取无广告阅读体验、每周 AI 简报、每年六期的独家“AI 雷达”前沿报告、完整存档访问权限以及评论区使用权限。

来源：Arxiv

Hugging Face开源生态推理模型发布

阅读原文