# 腾讯混元发布首个重建基础设施后模型「Hy3 preview」

- 来源：meng shao (@shao__meng)
- 发布时间：2026-04-25 22:17
- AIHOT 分数：63
- AIHOT 链接：https://aihot.virxact.com/items/cmoegbnuh00stslxxkxk4iuvc
- 原文链接：https://x.com/shao__meng/status/2048043625813287115

## AI 摘要

腾讯混元团队在重建基础设施后，推出首个MoE架构模型Hy3 preview，总参295B，支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则，推动模型向实用转型。评估显示，Hy3在复杂推理与长上下文任务上进入第一梯队，代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束，并转化为结构化输出，体现了强大的实际应用潜力。

## 正文

腾讯混元 26.02 重建预训练与强化学习基础设施后，发布了首个模型「Hy3 preview」，不仅是混元"最智能的模型"，更标志着团队从"追榜"逻辑向实用主义的系统转型，模型采用 MoE 架构，总参数 295B / 激活参数 21B，支持 256K 上下文，采用快慢思考融合机制

# 三大原则定义"真实战斗力"
混元团队明确提出了重建后的三条核心原则，这决定了 Hy3 的评测与训练逻辑：
· 能力体系化：拒绝"偏科"。即使是代码智能体单一应用，也需推理、长文、指令、对话、工具调用等能力深度协同
· 评测真实性：主动跳出易被刷榜的公开榜单，转而采用自建题目、最新考试（如 2025 生物学联赛、清华求真书院 26 春博资考）、人工评测、产品众测等方式
· 性价比追求：模型架构与推理框架深度协同设计，以降低任务成本，追求商业合理性

# 能力表现：推理与长文跃升，代码智能体进步最大
通过多组对比（vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh）展示了 Hy3 的能力边界：

1. 复杂推理：进入第一梯队，但顶尖数学仍有差距
· 优势领域：FrontierScience-Olympiad（70.0）、IMO Answer Bench（84.3）、CHSBO 2025（87.8）、GPQA-Diamond（87.2）均达到或接近国际顶尖水平。
· 相对短板：在清华求真书院数学博资考上，Hy3（88.4）与 GPT-5.4 xhigh（99.3）存在明显差距；HLE 基准（30.0）也落后于 Gemini-3.1-Pro（44.4）等。
· 结论：基础理工科推理能力已具备强泛化性，但面对最高难度的纯数学推理时，与全球绝对顶尖模型仍有距离。

2. 上下文学习与指令遵循：自研基准，提升显著
· 团队基于业务场景灵感，自研了 CL-bench 和 CL-bench-Life 来评估上下文学习能力。
· 在 AdvancedIF（79.5）、AA-LCR（66.3）、LongBench v2（65.4）等标准长文任务上，Hy3 较前代 Hy2 提升明显，并进入第一梯队。
· 但在自研的 CL-bench（22.8）和 CL-bench Life（15.7）上，仍落后于 GPT-5.4 xhigh（26.7 / 19.2），说明超长上下文的复杂隐式推理仍是行业共同难题。

3. 代码与智能体：提升最为显著的方向
"提升最为显著的方向"，在 SWE-Bench Verified、Terminal-Bench 2.0 以及 BrowseComp、WideSearch 等主流基准中取得了强竞争力的结果。

# 关键亮点：非结构化信息的隐性挖掘能力
官方展示的会议纪要排期案例极具代表性，体现了 Hy3 区别于传统指令遵循的核心优势：
· 输入：一段口语化、多轮穿插、信息分散的对话（包含春分日期、新人介绍、请假安排、加班调休、工作日规则、开发流程依赖等）。
· 挑战：需识别隐含约束（如"20号春分上线"意味着硬 deadline，"下周一请假"需顺延工作日，"周六加班"可计入工期但周日休息）。
· 输出：将非结构化对话转化为严格符合格式要求、逻辑自洽的排期表格。

官方博客
https://hy.tencent.com/hy3-preview

下方信息卡绘制用的就是 Hy3 Preview 模型，Skills 和提示词在这：
https://x.com/shao__meng/status/2035720327037108673?s=20

### 引用推文

> Tencent Hy：👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and agent model in its size, with great cost ef...