腾讯混元团队在重建基础设施后,推出首个MoE架构模型Hy3 preview,总参295B,支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则,推动模型向实用转型。评估显示,Hy3在复杂推理与长上下文任务上进入第一梯队,代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束,并转化为结构化输出,体现了强大的实际应用潜力。
腾讯混元 26.02 重建预训练与强化学习基础设施后,发布了首个模型「Hy3 preview」,不仅是混元"最智能的模型",更标志着团队从"追榜"逻辑向实用主义的系统转型,模型采用 MoE 架构,总参数 295B / 激活参数 21B,支持 256K 上下文,采用快慢思考融合机制
# 三大原则定义"真实战斗力" 混元团队明确提出了重建后的三条核心原则,这决定了 Hy3 的评测与训练逻辑: · 能力体系化:拒绝"偏科"。即使是代码智能体单一应用,也需推理、长文、指令、对话、工具调用等能力深度协同 · 评测真实性:主动跳出易被刷榜的公开榜单,转而采用自建题目、最新考试(如 2025 生物学联赛、清华求真书院 26 春博资考)、人工评测、产品众测等方式 · 性价比追求:模型架构与推理框架深度协同设计,以降低任务成本,追求商业合理性
# 能力表现:推理与长文跃升,代码智能体进步最大 通过多组对比(vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh)展示了 Hy3 的能力边界:
1. 复杂推理:进入第一梯队,但顶尖数学仍有差距 · 优势领域:FrontierScience-Olympiad(70.0)、IMO Answer Bench(84.3)、CHSBO 2025(87.8)、GPQA-Diamond(87.2)均达到或接近国际顶尖水平。 · 相对短板:在清华求真书院数学博资考上,Hy3(88.4)与 GPT-5.4 xhigh(99.3)存在明显差距;HLE 基准(30.0)也落后于 Gemini-3.1-Pro(44.4)等。 · 结论:基础理工科推理能力已具备强泛化性,但面对最高难度的纯数学推理时,与全球绝对顶尖模型仍有距离。