DeepSeek@deepseek_ai

2025-02-24 09:34·493天前

AI 摘要

🚀 #OpenSourceWeek 第一天：FlashMLA 很荣幸分享 FlashMLA —— 我们针对 Hopper GPU 的高效 MLA 解码内核，针对变长序列优化，现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存（块大小 64） ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索：https://github.com/deepseek-ai/FlashMLA

🚀 Day 1 of #OpenSourceWeek： FlashMLA

Honored to share FlashMLA - our efficient MLA decoding kernel for Hopper GPUs， optimized for variable-length sequences and now in production.

✅ BF16 support ✅ Paged KV cache （block size 64） ⚡ 3000 GB/s memory-bound & 580 TFLOPS compute-bound on H800

🔗 Explore on GitHub： https://github.com/deepseek-ai/FlashMLA

DeepSeek 开源/仓库推理部署/工程

在 X 查看原推导出 Markdown

DeepSeek@deepseek_ai · X

导出 Markdown

2025-02-24 09:34·493天前

在 X 看原推· x.com

AI 摘要

🚀 Day 1 of #OpenSourceWeek： FlashMLA