高效离线推理框架 Flood：吞吐量显著领先，支持多模态与量化

2026-01-30 15:55·153天前·inclusionAI

精选理由

蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销，实测吞吐比 vLLM 高 1.4 到 2.4 倍，做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。

AI 摘要

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销，并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明，其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时，解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代，已支持前瞻解码等新特性。

该来源未收录可展示正文，站内仅提供摘要。

蚂蚁 inclusionAI：GitHub 新仓库

精选61导出 Markdown

高效离线推理框架 Flood：吞吐量显著领先，支持多模态与量化

2026-01-30 15:55·153天前·inclusionAI

精选理由

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文github.com

开源/仓库推理部署/工程