AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 524 条
全部一手资讯X论文
标签「开源/仓库」清除
DeepSeek@deepseek_ai · 2月26日

🚀 Day 3 of #OpenSourceWeek: DeepGEMM Introducing DeepGEMM - an FP8 GEMM library that supports both dense and MoE GEMMs, powering V3/R1 training and inference. ⚡ Up to 1350+ FP8 TFLOPS on Hopper GPUs ✅ No heavy dependency, as clean as a tutorial ✅ Fully Just-In-Time compiled ✅ Core logic at ~300 lines - yet outperforms expert-tuned kernels across most matrix sizes ✅ Supports dense layout and two MoE layouts 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM

译🚀 #OpenSourceWeek 第三天:DeepGEMM 推出 DeepGEMM - 一个支持 dense 和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。 ⚡ 在 Hopper GPU 上可达 1350+ FP8 TFLOPS ✅ 无繁重依赖,简洁如教程 ✅ 完全 Just-In-Time 编译 ✅ 核心逻辑仅约 300 行 - 却在大多数矩阵尺寸上超越专家调优的 kernel ✅ 支持 dense 布局及两种 MoE 布局 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM

DeepSeek@deepseek_ai · 2月25日

🚀 Day 2 of #OpenSourceWeek: DeepEP Excited to introduce DeepEP - the first open-source EP communication library for MoE model training and inference. ✅ Efficient and optimized all-to-all communication ✅ Both intranode and internode support with NVLink and RDMA ✅ High-throughput kernels for training and inference prefilling ✅ Low-latency kernels for inference decoding ✅ Native FP8 dispatch support ✅ Flexible GPU resource control for computation-communication overlapping 🔗 GitHub: https://github.com/deepseek-ai/DeepEP

译DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。

DeepSeek@deepseek_ai · 2月24日

🚀 Day 1 of #OpenSourceWeek: FlashMLA Honored to share FlashMLA - our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production. ✅ BF16 support ✅ Paged KV cache (block size 64) ⚡ 3000 GB/s memory-bound & 580 TFLOPS compute-bound on H800 🔗 Explore on GitHub: https://github.com/deepseek-ai/FlashMLA

译🚀 #OpenSourceWeek 第一天:FlashMLA 很荣幸分享 FlashMLA —— 我们针对 Hopper GPU 的高效 MLA 解码内核,针对变长序列优化,现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索:https://github.com/deepseek-ai/FlashMLA

DeepSeek@deepseek_ai · 2月21日

🚀 Day 0: Warming up for #OpenSourceWeek! We're a tiny team @deepseek_ai exploring AGI. Starting next week, we'll be open-sourcing 5 repos, sharing our small but sincere progress with full transparency. These humble building blocks in our online service have been documented, deployed and battle-tested in production. As part of the open-source community, we believe that every line shared becomes collective momentum that accelerates the journey. Daily unlocks are coming soon. No ivory towers - just pure garage-energy and community-driven innovation.

译DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。

没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
2月26日
09:00
DeepSeek@deepseek_ai
🚀 #OpenSourceWeek 第三天:DeepGEMM 推出 DeepGEMM - 一个支持 dense 和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。 ⚡ 在 Hopper GPU 上可达 1350+ FP8 TFLOPS ✅ 无繁重依赖,简洁如教程 ✅ 完全 Just-In-Time 编译 ✅ 核心逻辑仅约 300 行 - 却在大多数矩阵尺寸上超越专家调优的 kernel ✅ 支持 dense 布局及两种 MoE 布局 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM
DeepSeek开源/仓库部署/工程
2月25日
10:24
DeepSeek@deepseek_ai
DeepSeek开源DeepEP:首个MoE专家并行通信库

DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。

DeepSeek开源/仓库部署/工程
2月24日
09:34
DeepSeek@deepseek_ai
🚀 #OpenSourceWeek 第一天:FlashMLA 很荣幸分享 FlashMLA -- 我们针对 Hopper GPU 的高效 MLA 解码内核,针对变长序列优化,现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索:https://github.com/deepseek-ai/FlashMLA
DeepSeek开源/仓库推理部署/工程
2月21日
12:00
DeepSeek@deepseek_ai
DeepSeek 启动开源周:将开源 5 个 AGI 探索代码库

DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。

DeepSeek开源/仓库开源生态部署/工程
‹ 上一页
1…121314
下一页 ›