# inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

- 来源：蚂蚁 inclusionAI：GitHub 新仓库
- 作者：inclusionAI
- 发布时间：2026-02-11 18:55
- AIHOT 分数：61
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmorb7ik3006oslhfmf6g1irj
- 原文链接：https://github.com/inclusionAI/humming

## 精选理由

蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库，支持从 INT1 到 FP8 全家桶，SM75+ 全覆盖，做推理部署的工程师值得花半小时跑一下 benchmark，看看能不能替换掉现有的 Marlin 方案。

## AI 摘要

inclusionAI 开源了 Humming，这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理，兼容多种量化策略与缩放类型，并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU，在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简，仅需 PyTorch 和 NVCC，软件包大小仅约 100 KB，便于超轻量化部署。

## 正文

该来源未收录可展示正文，站内仅提供摘要。
