🚀 #OpenSourceWeek 第一天:FlashMLA 很荣幸分享 FlashMLA —— 我们针对 Hopper GPU 的高效 MLA 解码内核,针对变长序列优化,现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索:https://github.com/deepseek-ai/FlashMLA
🚀 Day 1 of #OpenSourceWeek: FlashMLA
Honored to share FlashMLA - our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production.
✅ BF16 support ✅ Paged KV cache (block size 64) ⚡ 3000 GB/s memory-bound & 580 TFLOPS compute-bound on H800
🔗 Explore on GitHub: https://github.com/deepseek-ai/FlashMLA