新浪开源VibeThinker-3B:推理可压缩,事实知识不能
阅读原文· the-decoder.comVibeThinker-3B 用 3B 参数在数学编程上匹敌百倍大模型,推理可压缩而知识不能的假设值得深思。对做推理应用的人来说是个信号。
新浪发布仅3B参数的VibeThinker-3B,在AIME26等数学编程基准上持平DeepSeek V3.2等大200–333倍的模型,LiveCodeBench超越所有20B以下模型,LeetCode竞赛解决123/128题超过GPT-5.2、Kimi K2.5等。但知识密集型GPQA-Diamond大幅落后。模型基于阿里Qwen2.5-Coder-3B,经SFT、强化学习、自蒸馏等多阶段后训练。研究提出“参数压缩-覆盖假说”:逻辑推理依赖少数可压缩模式,而广泛世界知识仍需大参数。模型已开源。
新浪开源模型VibeThinker-3B旨在展示推理能力可良好压缩,但事实性知识则不能
要点
- 微博的新模型VibeThinker-3B仅有30亿参数,但在数学和编程基准测试中可媲美体积大至其333倍的顶级模型。
- 这一性能源于对阿里巴巴基础模型进行的多阶段后训练。然而,在需要广泛事实性知识的任务上,该小模型则远远落后。
- 研究人员得出结论:结构化的逻辑推理依赖于少量模式且可良好压缩,而广泛的世界知识仍需大型模型。
一个仅有30亿参数的中文语言模型,有时在数学和编程任务上可媲美体积大其百倍的模型。其背后的研究人员提出了一项关于AI能力结构如何组织的假设。
微博母公司新浪发布了一款小型语言模型,在困难数学和编程任务上可与当今顶级模型竞争。根据一份技术报告,VibeThinker-3B在诸如AIME26等竞争性基准测试中表现与DeepSeek V3.2和Kimi K2.5相当。这两款模型的参数量是它的200到333倍。
新浪将这款模型定位为一次实验,旨在探究模型要达到顶级竞争力究竟需要多少算力。其前代产品VibeThinker-1.5B于2025年11月发布。新版本更进一步,追问一个小模型能否达到真正的顶级性能,而不仅仅是“就其规模而言表现不错”。

逻辑可向下缩放,事实性知识则不能
这些结果讲述了两个不同的故事。在具有明确可验证解决方案的结构化任务上,如数学奥林匹克竞赛或编程挑战,VibeThinker-3B可与GLM-5或Gemini 3 Pro等模型媲美。在LiveCodeBench上,它击败了所有其他参数量低于200亿的模型。
事实性知识则是另一回事。在知识密集型基准测试 GPQA-Diamond 上,该模型远远落后于它那些体量更大的竞争对手。

为了排除数据污染,该团队让模型在训练结束后参加了 2026 年 4 月下旬至 5 月下旬举办的 LeetCode 竞赛。VibeThinker-3B 在第一次尝试中就解决了 128 道题中的 123 道。这使得它领先于 GPT-5.2、Qwen3-Max、Kimi K2.5 和 Claude Opus 4.6。仅落后于 GPT-5.3-Codex、Gemini 3.1 Pro 和 Gemini 3 Flash,但差距不大。
后训练承担了主要工作。
VibeThinker-3B 基于阿里巴巴的 Qwen2.5-Coder-3B 构建。新浪的贡献在于后训练,即在大数据集上进行通用预训练之后的一切步骤。根据报告,正是后训练让一个 3B 模型逼近了顶尖水平。
后训练分阶段进行。首先,模型通过监督微调学习广泛的任务,涵盖数学、编程和通用对话。然后,模型针对困难的多步推理问题进行定制化调整。
随后是强化学习,依次应用于数学、编程和 STEM 领域。然后通过自蒸馏将每个阶段学到的技能整合到单个模型中。最后一步确保模型更好地遵循指令。

在微调过程中,团队有意构建了多种多样的解题路径。随后强化学习强化那些有效的路径。其观点是,性能来自训练方法、数据质量和可靠的验证信号,而非来自更多的参数。
这对 AI 能力运作方式意味着什么?
基于这些结果,作者提出了他们所谓的“参数压缩-覆盖假说”。不同的 AI 能力具有不同的结构,需要不同数量的参数。
逻辑推理,比如像逐步解一道数学题,依赖于少数几种反复出现的模式:搜索、检查条件、纠正错误、组合中间结果。这类能力可以压缩进一个紧凑的核心中。世界知识则运作方式不同。回答横跨多个主题的开放性问题需要广泛的覆盖面,这意味着需要大量参数来存储大量事实。
研究人员表示,这重新定义了小模型的用途。它们不仅是专为低成本推理打造的廉价轻量版本,更是一条与传统规模扩展逻辑并行的独立研究路径。在任务可验证且有明确解构模式的情况下,参数量不再是瓶颈。
VibeThinker-3B 已在 Hugging Face 和 GitHub 上公开提供。
小模型在狭窄任务上追赶远比它们大的系统,正成为一种模式。今年 4 月,阿里巴巴的 Qwen3.6-27B 在所有编程基准测试中的表现都超越了其规模大 15 倍的前代产品。据其开发者称,来自阿布扎比的 Falcon H1R 7B 达到了规模为其两到七倍模型的性能水平。早期关于小模型逻辑缺陷的研究表明,它们在多步推理上通常会碰壁。而 VibeThinker 在可验证任务上的结果恰恰挑战了这一假设。
AI 新闻,不炒作——由人工精选
订阅《THE DECODER》,获取无广告阅读体验、每周 AI 简报、每年六期的独家“AI 雷达”前沿报告、完整存档访问权限以及评论区使用权限。