inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

2026-02-11 18:55·141天前·inclusionAI

精选理由

蚂蚁 inclusionAI 开源了一个 100KB 级的量化 GEMM 库，支持从 INT1 到 FP8 全家桶，SM75+ 全覆盖，做推理部署的工程师值得花半小时跑一下 benchmark，看看能不能替换掉现有的 Marlin 方案。

AI 摘要

inclusionAI 开源了 Humming，这是一个专为量化推理设计的高性能、轻量级即时编译 GEMM 内核库。它支持在 FP16、BF16、FP8 等多种激活数据类型下进行 8 比特以下任意权重类型的推理，兼容多种量化策略与缩放类型，并同时支持稠密 GEMM 和混合专家 GEMM 运算。该库兼容 SM75+ 及以上的所有 NVIDIA GPU，在多种计算场景下能提供业界领先的吞吐量和效率。其依赖极简，仅需 PyTorch 和 NVCC，软件包大小仅约 100 KB，便于超轻量化部署。

该来源未收录可展示正文，站内仅提供摘要。

蚂蚁 inclusionAI：GitHub 新仓库

精选61导出 Markdown

inclusionAI 发布高性能量化推理 GEMM 内核库 Humming

2026-02-11 18:55·141天前·inclusionAI

精选理由

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文github.com

开源/仓库推理部署/工程