# 高效离线推理框架 Flood：吞吐量显著领先，支持多模态与量化

- 来源：蚂蚁 inclusionAI：GitHub 新仓库
- 作者：inclusionAI
- 发布时间：2026-01-30 15:55
- AIHOT 分数：61
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmorb7ik3006sslhfoasz9t4c
- 原文链接：https://github.com/inclusionAI/flood

## 精选理由

蚂蚁的 FLOOD 框架用流水线并行替代张量并行来压通信开销，实测吞吐比 vLLM 高 1.4 到 2.4 倍，做离线推理部署的团队值得花半小时跑一下 benchmark 看看自家场景能不能吃这个红利。

## AI 摘要

Flood 是一款面向离线应用的高效大语言模型推理框架。它采用流水线并行降低通信开销，并通过分段式KV缓存管理提升连续性。框架支持连续批处理、分块预填充、FP8/INT8量化及多模态模型推理。性能测试表明，其在多种模型和硬件上的吞吐量最高可达 vLLM 的 2.4 倍。其专用内核 SegmentAttention 在处理长序列时，解码速度较 FlashAttention 最高提升 3.16 倍。该项目于 2025 年 3 月开源并快速迭代，已支持前瞻解码等新特性。

## 正文

该来源未收录可展示正文，站内仅提供摘要。
