DeepSeek正与战略投资者洽谈一轮融资,目标估值超200亿美元,但融资规模仅数亿美元。此举主要目的是为员工股票期权确立明确市场估值,以稳定团队、应对激烈人才竞争。过去一年,因竞争对手估值飙升,公司已流失多名关键研究人员。在AI行业,期权常占薪酬大头,缺乏清晰估值使公司在与月之暗面、MiniMax等对手竞争时处于劣势。多数员工仍认同公司理想主义路线,融资旨在让他们能专注研究。
DeepSeek正与战略投资者洽谈一轮融资,目标估值超200亿美元,但融资规模仅数亿美元。此举主要目的是为员工股票期权确立明确市场估值,以稳定团队、应对激烈人才竞争。过去一年,因竞争对手估值飙升,公司已流失多名关键研究人员。在AI行业,期权常占薪酬大头,缺乏清晰估值使公司在与月之暗面、MiniMax等对手竞争时处于劣势。多数员工仍认同公司理想主义路线,融资旨在让他们能专注研究。
DeepSeek发布新一代模型DeepSeek-V4,其核心突破在于实现了长达百万token的上下文窗口,并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命,标志着大模型在长上下文理解和实际应用方面迈出重要一步。
关联讨论 3 条Simon Willison 博客Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)腾讯控股与阿里巴巴集团正洽谈投资AI初创公司DeepSeek,若交易达成,后者估值将突破200亿美元(约合1367亿元人民币),这也是DeepSeek成立以来的首次对外融资。该公司由幻方量化联合创始人梁文锋于2023年创办,凭借低成本、开源路线与OpenAI等美国公司形成差异。受该消息影响,阿里巴巴美股周三盘前上涨1.6%。
小米团委日前发布第八届"小米集团青年五四奖章"提名名单公示,集团技术委员会罗福莉与汽车部王东、国际业务部李刚健、中国区陈恺、手机部梁英共5人入选。该评选由集团总干部部提名,旨在引导和激励优秀青年员工积极投身业务发展和创新,打造青年管理人才梯队。
本文提出MathNet,一个大规模多语言奥林匹克数学基准,收录47国17种语言的30,676道专家命题,跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示,即使最先进的推理模型(Gemini-3.1-Pro 78.4%、GPT-5 69.3%)仍面临挑战,而嵌入模型在数学等价检索上表现不佳。研究表明,DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升,创下基准最高分。
中国 AI 初创公司 Deepseek 据悉将首次接受外部投资,计划以 100 亿美元估值筹集至少 3 亿美元资金。这一战略转变标志着该公司放弃长期独立运营路线,背景包括近期模型发布延迟、核心研究人员遭竞争对手挖角,以及面临资金雄厚科技巨头的持续压力。
Abstain-R1 基于 3B 参数模型,采用澄清感知的可验证强化学习奖励机制训练,在保持可回答问题性能的同时,对无法回答的查询执行显式拒绝并说明关键缺失信息。在 Abstain-Test、Abstain-QA 和 SelfAware 基准测试中,该模型相比基础模型显著提升,拒答与澄清行为达到 DeepSeek-R1 等更大系统的水平,表明校准拒答能力可通过可验证奖励有效习得。
Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能,解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本,可在32 GPU集群中容忍最多16个rank故障,将服务恢复时间从2-3分钟缩短至10秒以内,降幅达90%。基准测试显示,该方案在实现极端韧性的同时,吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平,实现零静态性能损耗。
NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案,针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测(MTP)等技术,系统在GB300上达226 TPS/GPU峰值吞吐量,较GB200提升1.53倍;相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍,128K预填充首Token延迟降至8.6秒。
Hugging Face 在其官方博客发布文章,展望了全球开源人工智能生态系统的发展路径与未来趋势。文章以 DeepSeek 等代表性开源模型为例,探讨了开源社区如何推动技术民主化与创新加速。核心观点指向一个更加开放、协作的“AI+”未来生态,其中开源框架、模型和工具将深度融入各行各业,降低开发门槛并促进多样化应用场景的涌现。
Hugging Face发布博客文章,探讨中国开源人工智能生态系统的核心架构选择与发展路径。文章聚焦于如何构建一个超越现有模型(如DeepSeek)的可持续技术体系,分析了中国开发者在模型架构、训练框架、部署工具和社区协作等方面的关键决策。文中指出,中国开源社区正致力于打造独立且互操作的技术栈,以应对大规模模型训练与推理的独特挑战,并推动全球AI生态的多元化发展。
Hugging Face在其官方博客发布文章,回顾“DeepSeek时刻”过去一年的影响。文章指出,自DeepSeek系列模型发布以来,开源大模型生态发生了显著变化。模型能力快速逼近甚至在某些任务上超越了闭源模型,社区参与度和模型下载量均创下新高。这一趋势降低了AI技术的使用门槛,并推动了更多商业化应用的探索。开源与闭源模型的竞争格局正在被重塑。
蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork(Tensor Remote Fork)技术,通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒,减少约 600GB 的本地磁盘与 DRAM 存储占用,并提供 NCCL 和 TransferEngine 两种后端方案,后者可在不干扰线上推理服务的情况下完成权重迁移。
SGLang现已集成KTransformers后端,为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核,使单路Xeon算力达21.3 TFLOPS,较PyTorch原生实现快3.9倍;通过NUMA感知张量并行和CUDA Graph调度,双路服务器解码吞吐量提升63%,GPU内核启动开销从20%降至接近零;专家延迟机制支持跨层重排计算以重叠CPU与GPU执行,在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。
SGLang与NVIDIA针对Blackwell架构(GB200 NVL72)深度优化,在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化,SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升,并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。
SGLang 在发布首日即支持 DeepSeek-V3.2,该模型基于 DeepSeek-V3.1-Terminus 引入 DeepSeek Sparse Attention (DSA) 机制。DSA 通过 Lightning Indexer 和 Top-k Token Selection 将注意力复杂度从 O(L²) 降至 O(Lk),在 128K 长上下文下实现训练与推理效率大幅提升且质量损失可忽略。SGLang 实现了专用缓存与 Native Sparse Attention 后端,并提供了面向 NVIDIA、AMD MI350X/MI355X 及 NPU 的部署方案与容器镜像。
蚂蚁集团联合SGLang提出H20-96G部署DeepSeek-R1的工业级方案。针对H20高内存带宽、低计算吞吐特性,采用硬件感知策略:单节点TP-8处理prefill,小规模EP-16处理decode。结合FlashMLA-FP8、DeepGEMM swapAB内核优化与异步Expert Affinity负载均衡技术,在4096 token序列上实现单节点16.5k输入/5.7k输出token/秒的吞吐,达H20平台SOTA性能。
SGLang团队基于GB200 NVL72优化DeepSeek V3/R1推理,采用FP8 Attention、NVFP4 MoE、大规模专家并行及PD分离等技术。2000 token输入下,单卡Prefill达26,156 tokens/s,Decode达13,386 tokens/s,较H100提升3.8倍和4.8倍。BF16/FP8配置下仍达18,471/9,087 tokens/s。FP8与NVFP4低精度内核分别带来1.8倍和1.9倍加速且精度损失可忽略。
DeepSeek-V3.1 版本更新发布,主要包括修复若干已知问题,Agent 能力进一步提升。这是本次版本更新的核心内容,旨在优化用户体验。
DeepSeek-V3.1 以混合推理模型形式开源,用户可一键切换思考模式,同时 Agent 智能体支持性能得到增强。
SGLang团队在GB200 NVL72集群部署DeepSeek 671B模型,采用预填充-解码分离(PD)与大规模专家并行(EP)架构,结合Blackwell专用优化组件(DeepGEMM、DeepEP等),实现单GPU解码吞吐7,583 tokens/秒。在2,000 token输入下,性能较H100提升2.7倍,整体加速比达2.5-3.4倍。系统利用NVLink全互联降低通信延迟,依托更大显存支持高批次处理,显著提升MoE模型推理效率。
DeepSeek-R1 更新,思考更深,推理更强。开启“深度思考”功能即可体验新版 R1 更加强大的思考与推理能力。
DeepSeek-V3 新版已发布,关闭深度思考模式即可体验,模型权重同步开源。
同一事件,精选展示《DeepSeek-V3 正式发布》DeepSeek API 推出错峰优惠,夜间空闲时间价格大幅下调,R1 模型价格降至原价的四分之一,即日起可享受流畅优惠体验。
DeepSeek发布官方说明:任何非官方账号发布的信息均不代表其观点,提醒用户切勿轻信。用户应通过官方渠道获取准确信息。
DeepSeek-R1 发布,性能对标 OpenAI o1 正式版。模型遵循 MIT License 开放 API,训练技术同步公开。
DeepSeek 推出官方移动端 App,目前已在 iOS 和 Android 各大应用商店上架。该 App 由 DeepSeek-V3 模型驱动,面向所有用户免费开放使用,用户可通过官网或应用市场直接下载。
深度求索正式发布 DeepSeek-V3 模型,性能比肩世界顶尖模型,速度跃升,价格更新。
SGLang v0.4版本正式发布,通过零开销批处理调度器将CPU调度与GPU计算重叠,吞吐量提升1.1倍,较其他基线快1.3倍。新版本引入缓存感知负载均衡器,预测KV缓存命中率,使吞吐量最高提升1.9倍,缓存命中率从20%提升至75%。针对DeepSeek模型的数据并行注意力机制带来1.9倍解码吞吐量提升,XGrammar结构化输出速度提升达10倍。
DeepSeek 上线推理模型预览版,其推理性能与 OpenAI 的 o1-preview 相当,并公开了模型的完整思维链。
DeepSeek-V2.5 在 LMSYS ChatBotArena(全球大模型竞技场)榜单中上榜,创下国产大模型在该竞技场的最高得分记录。
DeepSeek-V2.5 保留原有 Chat 模型的通用对话能力和 Coder 模型的代码处理能力,并更好地对齐人类偏好。
SGLang v0.3 正式发布,实现显著性能提升与新架构支持。针对 DeepSeek MLA 机制深度优化,采用权重吸收、FP8 量化等技术,在 H100 GPU 上吞吐量最高提升 7 倍。集成 torch.compile 使批量 1-32 场景延迟降低 1.5 倍。新增 LLaVA-OneVision 支持,可处理交错文本、多图像及视频输入,速度提升 4.5 倍。同时全面支持 Gemma-2 的 8K 上下文与交错窗口注意力,突破 4K 限制。