meng shao@shao__meng

2026-04-25 22:17·68天前

AI 摘要

腾讯混元团队在重建基础设施后，推出首个MoE架构模型Hy3 preview，总参295B，支持256K上下文。团队确立能力体系化、评测真实性、性价比三大原则，推动模型向实用转型。评估显示，Hy3在复杂推理与长上下文任务上进入第一梯队，代码与智能体能力进步显著。其突出亮点是能深度挖掘非结构化对话中的隐含约束，并转化为结构化输出，体现了强大的实际应用潜力。

腾讯混元 26.02 重建预训练与强化学习基础设施后，发布了首个模型「Hy3 preview」，不仅是混元"最智能的模型"，更标志着团队从"追榜"逻辑向实用主义的系统转型，模型采用 MoE 架构，总参数 295B / 激活参数 21B，支持 256K 上下文，采用快慢思考融合机制

# 三大原则定义"真实战斗力" 混元团队明确提出了重建后的三条核心原则，这决定了 Hy3 的评测与训练逻辑： · 能力体系化：拒绝"偏科"。即使是代码智能体单一应用，也需推理、长文、指令、对话、工具调用等能力深度协同 · 评测真实性：主动跳出易被刷榜的公开榜单，转而采用自建题目、最新考试（如 2025 生物学联赛、清华求真书院 26 春博资考）、人工评测、产品众测等方式 · 性价比追求：模型架构与推理框架深度协同设计，以降低任务成本，追求商业合理性

# 能力表现：推理与长文跃升，代码智能体进步最大通过多组对比（vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh）展示了 Hy3 的能力边界：

1. 复杂推理：进入第一梯队，但顶尖数学仍有差距 · 优势领域：FrontierScience-Olympiad（70.0）、IMO Answer Bench（84.3）、CHSBO 2025（87.8）、GPQA-Diamond（87.2）均达到或接近国际顶尖水平。 · 相对短板：在清华求真书院数学博资考上，Hy3（88.4）与 GPT-5.4 xhigh（99.3）存在明显差距；HLE 基准（30.0）也落后于 Gemini-3.1-Pro（44.4）等。 · 结论：基础理工科推理能力已具备强泛化性，但面对最高难度的纯数学推理时，与全球绝对顶尖模型仍有距离。

2. 上下文学习与指令遵循：自研基准，提升显著 · 团队基于业务场景灵感，自研了 CL-bench 和 CL-bench-Life 来评估上下文学习能力。 · 在 AdvancedIF（79.5）、AA-LCR（66.3）、LongBench v2（65.4）等标准长文任务上，Hy3 较前代 Hy2 提升明显，并进入第一梯队。 · 但在自研的 CL-bench（22.8）和 CL-bench Life（15.7）上，仍落后于 GPT-5.4 xhigh（26.7 / 19.2），说明超长上下文的复杂隐式推理仍是行业共同难题。

3. 代码与智能体：提升最为显著的方向 "提升最为显著的方向"，在 SWE-Bench Verified、Terminal-Bench 2.0 以及 BrowseComp、WideSearch 等主流基准中取得了强竞争力的结果。

# 关键亮点：非结构化信息的隐性挖掘能力官方展示的会议纪要排期案例极具代表性，体现了 Hy3 区别于传统指令遵循的核心优势： · 输入：一段口语化、多轮穿插、信息分散的对话（包含春分日期、新人介绍、请假安排、加班调休、工作日规则、开发流程依赖等）。 · 挑战：需识别隐含约束（如"20号春分上线"意味着硬 deadline，"下周一请假"需顺延工作日，"周六加班"可计入工期但周日休息）。 · 输出：将非结构化对话转化为严格符合格式要求、逻辑自洽的排期表格。

官方博客 https://hy.tencent.com/hy3-preview

下方信息卡绘制用的就是 Hy3 Preview 模型，Skills 和提示词在这： https://x.com/shao__meng/status/2035720327037108673?s=20

Tencent Hy👋Hi /haɪ/, we're the Tencent Hy /haɪ/ team🐧 Today, we open source Hy3 preview (295B A21B), a leading reasoning and agent model in its size, with great cost ef...

开源/仓库推理模型发布编码

在 X 查看原推导出 Markdown

meng shao@shao__meng · X

63导出 Markdown

2026-04-25 22:17·68天前

在 X 看原推· x.com

AI 摘要

# 能力表现：推理与长文跃升，代码智能体进步最大通过多组对比（vs Hy2、Gemini-3.1-Pro、GLM-5、Kimi-K2.5、GPT-5.4 xhigh）展示了 Hy3 的能力边界：