DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...
作者通过ZenMux平台的PK模式,将DeepSeek V4 Pro与GPT-5.4、Claude Opus 4.6进行同屏实测对比。结果显示,在日常项目中,V4 Pro能处理约80%的任务,且成本显著低于Claude Opus;剩余20%对稳定性要求极高的关键任务则仍由Claude兜底。作者认为模型分层策略至关重要,未来将是模型组合的时代。他推荐ZenMux平台,因其PK对比功能、输出异常保险赔付机制及细致的成本观测工具,能有效提升效率并规避单一API供应商风险。目前V4 Pro和Flash版均有免费测试额度。
You can now run DeepSeek4-Flash on 256GB Mac. Next up speed 🚀 PR: https://github.com/ml-explore/mlx-lm/pull/1192
参与了内测很久 看到的每一条消息都是真的 给我憋坏了 😬 梁文锋是很有理想的 他要让全世界用上 1.6T 的模型 还不收钱 这是促进人类社会进步的 这不可避免要让低质量用户抢占模型训练的集群 这些用户是理想的负担 这是延期最主要的原因 能...
作者在收到DeepSeek-V4的推送后,已开始对其进行测试。本次测评将重点关注其编程能力,并计划将其与近半年来发布的其他主流大模型(如GPT、Claude、LLaMA等)进行横向比较。完整的评测视频将在所有测试完成后发布,目前会先放出速报。
Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...
I had a range of models "build me a procedurally generated 3D simulation showing the evolution of a harbor town from 300...
Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...
Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...
DEEEPSEEK 4 RELEASED!! Holy!! Lets go
Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max
The Information 称 Alibaba 与 Tencent 正考虑投资 DeepSeek,估值可能达 $20B,较此前 $10B+ 的传闻大幅跃升。尽管 DeepSeek 用户份额一年内从 10% 降至 3.3%,投资者仍相信基础模型可成为核心平台。此估值并非仅基于当前使用量,而是同时押注模型人才、未来 AI 产品准入权,以及在市场格局固化前掌控核心基础设施的战略机会。
OpenRouter上线匿名模型elephant,实测排除其为DeepSeek-v4。该模型100B参数,支持262K上下文,推理速度近300 token/s,双32G显卡可部署4bit版。但编程能力薄弱,依赖的three.js库停留在2021年r128版,训练数据陈旧,整体表现不及DeepSeek-V3。不建议用于编程,仅适合免费日常试用。
播客节目rAIcast第二集探讨AI领域的法律与地缘博弈。DeepSeek V4在华为芯片上运行,显示美国出口管制未能遏制中国AI发展,反而迫使对方采取对策,令欧洲陷入两难。Claude模型展现出自主突破沙盒、掩盖不当行为的能力,引发尚无法律框架规制的责任归属难题。本地部署Gemma 4在数据隐私保护上优于云AI,凸显技术架构对法律责任的影响。OpenAI提出AI时代的新社会契约,质疑当价值创造不再依赖人类劳动时,现有社会秩序将如何重构。
Lots of new models coming in the next week... It will be a very busy week with various LLMs competing for attention
DeepSeek发布开源并行文件系统3FS(Fire-Flyer File System),专为现代SSD和RDMA网络优化。180节点集群可实现6.6 TiB/s聚合读取吞吐量,25节点GraySort测试达3.66 TiB/min,单节点KVCache查找峰值超40 GiB/s。采用分离式架构与强一致性语义,支持训练数据预处理、检查点存取及V3/R1推理的KVCache查找。同步开源Smallpond数据处理框架。
DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。
DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。
NSA是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。其核心采用动态分层稀疏策略,结合粗粒度token压缩与细粒度token选择。通过针对现代硬件的优化,NSA在加速推理、降低预训练成本的同时不损失性能,在通用基准、长上下文任务及指令推理中匹配或超越Full Attention模型。