# 腾讯混元 AI Infra 新开源：HPC-Ops 推理核心算子全面升级

- 来源：公众号：腾讯混元
- 作者：腾讯混元
- 发布时间：2026-06-11 16:34
- AIHOT 分数：78
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmq99cd9g09skslldniw7u2ub
- 原文链接：https://mp.weixin.qq.com/s/y0vd1cpvWXLSssL1kXxguw

## 精选理由

腾讯混元把推理全链路的瓶颈都加速了一遍，Sampler 算子比 vLLM 快 4-7 倍，Attention 动态调度根治长尾延迟，这套开源算子库可以直接用，做推理部署的可以抄作业。

## AI 摘要

腾讯混元 AI Infra 团队开源升级 HPC-Ops 推理算子库，推出五大核心算子。Attention 采用运行时动态负载调度，长文本最高加速 2.95x，端到端 QPM 提升 17%；Router GEMM 以双 BF16 组合实现 FP32 精度，对比 CuBLAS FP32 最高提速 3.22x；FusedMoE 相对 vLLM、SGLang 性能提升 1.2x～1.6x；Fused AllReduce+Norm 对比主流方案最高提速 1.68x；Sampler 将解码采样融合为 2 个 CUDA Kernel，相对 vLLM 提速 4.0x～7.5x。所有能力均来自生产实践并完全开源。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。
