Grok 4 from @xAI is now in Azure AI Foundry! Advanced reasoning, real-time insights, and enhanced memorization, all powe...
We're proud to announce a landmark partnership with @OpenAI to build new gigascale AI factories using millions of NVIDIA...
(1/n) 🚀 With FastVideo, you can now generate a 5-second video in 5 seconds on a single H200 GPU! Introducing FastWan se...
The tech preview of LLMD is out: - Easy Setup - Just mount your model and run - Cross-Platform GPU Support - Single cont...
DeepSeek发布开源并行文件系统3FS(Fire-Flyer File System),专为现代SSD和RDMA网络优化。180节点集群可实现6.6 TiB/s聚合读取吞吐量,25节点GraySort测试达3.66 TiB/min,单节点KVCache查找峰值超40 GiB/s。采用分离式架构与强一致性语义,支持训练数据预处理、检查点存取及V3/R1推理的KVCache查找。同步开源Smallpond数据处理框架。
DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。
DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。
NSA是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。其核心采用动态分层稀疏策略,结合粗粒度token压缩与细粒度token选择。通过针对现代硬件的优化,NSA在加速推理、降低预训练成本的同时不损失性能,在通用基准、长上下文任务及指令推理中匹配或超越Full Attention模型。