全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「DeepSeek」清除

4月25日周六

03:12karminski-牙医44DeepSeek-V4-Pro API定价引用户意外欠费

02:08AK74精选DeepSeek-V4论文于Hugging Face发布

4月24日周五

20:37karminski-牙医50DeepSeek 训练延期因低质用户，团队坚持免费 1.6T 模型理想

19:37karminski-牙医43DeepSeek-V4发布，编程能力横评即将出炉

16:08IT之家（RSS）55华为云首发适配 DeepSeek-V4，提供免部署、一键调用 API 的 Tokens 服务

15:08IT之家（RSS）57华为：昇腾超节点系列产品全面支持 DeepSeek V4

14:08IT之家（RSS）53寒武纪 Day 0 适配 DeepSeek-V4，发布当日即稳定运行

13:24Chubby♨️61Deepseek v4以三分之一价格实现顶尖智能

12:24Ethan Mollick54DeepSeek v4 Pro上线可玩画廊

11:54Ethan Mollick45DeepSeek v4生成首批TiKZ独角兽图

11:54Chubby♨️61Deepseek V4发布，性能超越GPT-5.4

11:54Chubby♨️49标准百万上下文与超高效率突破

11:24Ethan Mollick54DeepSeek发布全新开源模型

11:24Chubby♨️63评测显示Deepseek v4 pro性能媲美顶尖模型

11:24Chubby♨️66Deepseek v4性能超越GPT-5.4创Codeforces新纪录

10:55公众号：DeepSeek（深度求索）59DeepSeek-V4 预览版：迈入百万上下文普惠时代

09:08IT之家（RSS）67《金融时报》曝光 DeepSeek 融资细节：旨在留住以股票期权作为薪酬的员工

08:00Hugging Face：Blog（RSS）78精选DeepSeek-V4：智能体可实际使用的百万token上下文

4月22日周三

23:08IT之家（RSS）消息称腾讯、阿里正洽谈投资 DeepSeek，有望推动后者估值超 200 亿美元

20:44Rohan Paul阿里腾讯考虑投资DeepSeek，估值或达200亿美元

19:24小互65腾讯阿里拟投资DeepSeek估值超200亿美元

4月21日周二

18:11IT之家（RSS）罗福莉获第八届"小米集团青年五四奖章"提名

12:34HuggingFace Daily Papers（社区热门论文）MathNet：全球多模态数学推理与检索基准

4月20日周一

10:43karminski-牙医23DeepSeek-V4本周或将发布

4月18日周六

16:36The Decoder：AI News（RSS）Deepseek 据称首次寻求外部融资，估值达 100 亿美元

08:00HuggingFace Daily Papers（社区热门论文）Abstain-R1：通过可验证强化学习实现校准拒答与拒答后澄清

4月15日周三

07:41宝玉你的同学小明发现 DeepSeek 写作功能强大，便打算以后所有的作文都用它完成，不再自己动笔。你会怎样劝说他？

4月14日周二

07:29karminski-牙医OpenRouter匿名模型elephant实测：非DeepSeek-v4且编程能力弱

4月13日周一

18:48Chubby♨️DeepSeek、Claude神话与OpenAI的新社会契约

16:48Chubby♨️我的猜测：

3月25日周三

00:00LMSYS：Blog（Chatbot Arena 团队）Elastic EP：实现DeepSeek MoE部署的部分故障容忍

2月19日周四

00:00LMSYS：Blog（Chatbot Arena 团队）GB300 NVL72部署DeepSeek R1优化方案：长上下文推理性能突破

2月16日周一

18:00公众号：DeepSeek（深度求索）10骏骥迎春，同驰新境 | DeepSeek 丙午新年春节 AI 贺词

2月3日周二

23:03Hugging Face：Blog（RSS）80精选全球开源AI生态系统的未来：从 DeepSeek 到 AI+

1月27日周二

23:01Hugging Face：Blog（RSS）83精选中国开源AI生态中的架构选择：构建超越DeepSeek的未来

1月20日周二

23:02Hugging Face：Blog（RSS）58"DeepSeek时刻"一周年

12月10日周三

00:00LMSYS：Blog（Chatbot Arena 团队）让张量飞起来 -- 用 R-Fork 加速大模型权重加载

12月1日周一

18:52公众号：DeepSeek（深度求索）66同事件精选DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理同一事件，精选展示《DeepSeek-V3 正式发布》

10月22日周三

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang集成KTransformers：基于AMX优化与专家延迟的MoE混合推理加速

10月14日周二

00:00LMSYS：Blog（Chatbot Arena 团队）SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月25日

03:12

karminski-牙医@karminski3

44

不是…等会…. DeepSeek-V4-Pro API 这么贵的吗？我都没看定价就直接开测了…测到一半提示我API欠费了…..

DeepSeek 行业动态

02:08

AK@_akhaliq

精选74

DeepSeek-V4 论文已在 Hugging Face 发布 paper： https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

DeepSeek 推理模型发布

关联讨论 1 条X：Artificial Analysis (@ArtificialAnlys)

推荐理由：DeepSeek-V4 论文终于落地，这是今年开源阵营最被期待的模型之一，做推理和开源部署的同行值得花时间啃一遍技术细节。

4月24日

20:37

karminski-牙医@karminski3

50

主推文询问 deepseek 是否使用全国产卡训练，引用推文透露内测消息属实。梁文锋的理想是让全世界免费使用 1.6T 模型以促进社会进步，但低质量用户抢占训练集群资源，成为模型延期发布的主要原因。尽管面临挑战和数月延迟，deepseek 团队成功训练出新模型，并为努力感到开心，表示无悔付出。

砍砍.ᐟ: 参与了内测很久看到的每一条消息都是真的给我憋坏了 😬 梁文锋是很有理想的他要让全世界用上 1.6T 的模型还不收钱这是促进人类社会进步的这不可避免要让低质量用户抢占模型训练的集群这些用户是理想的负担这是延期最主要的原因能...

DeepSeek 开源生态行业动态

19:37

karminski-牙医@karminski3

43

DeepSeek-V4发布，编程能力横评即将出炉

作者在收到DeepSeek-V4的推送后，已开始对其进行测试。本次测评将重点关注其编程能力，并计划将其与近半年来发布的其他主流大模型（如GPT、Claude、LLaMA等）进行横向比较。完整的评测视频将在所有测试完成后发布，目前会先放出速报。

DeepSeek 现象/趋势评测/基准

16:08

IT之家（RSS）

55

华为云首发适配 DeepSeek-V4，提供免部署、一键调用 API 的 Tokens 服务

DeepSeek-V4预览版正式上线并开源。华为云宣布首发适配，在其MaaS平台上为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。该服务通过适配分层注意力压缩机制、提供多种昇腾高性能融合算子等优化，支持原生100万Token长上下文的高性能推理。V4系列包含1.6万亿参数的旗舰版Pro和2840亿参数的经济型Flash两个MoE架构版本，均原生支持100万Token上下文。新技术大幅降低了长上下文下的计算和显存需求。官方表示V4-Pro体验优于Anthropic Sonnet 4.5，但仍落后于GPT-5.4等前沿闭源模型。

DeepSeek 产品更新部署/工程

15:08

IT之家（RSS）

57

华为：昇腾超节点系列产品全面支持 DeepSeek V4

华为宣布其昇腾超节点全系列产品已全面支持DeepSeek V4系列模型。昇腾950通过融合kernel和多流并行技术，实现了高吞吐、低时延的推理部署。具体性能上，DeepSeek V4-Pro模型在8K输入下，单卡解码吞吐达4700TPS，时延约20ms；V4-Flash模型单卡吞吐为1600TPS，时延约10ms。此外，昇腾A3超节点系列也全面适配，并提供训练参考实现；基于64卡配置，V4-Flash模型在8K/1K场景下单卡吞吐超过2000TPS。

DeepSeek 产品更新部署/工程

14:08

IT之家（RSS）

53

寒武纪 Day 0 适配 DeepSeek-V4，发布当日即稳定运行

寒武纪宣布已完成对深度求索最新开源模型DeepSeek-V4的Day 0适配，模型发布当日即可稳定运行。适配针对其285B和1.6T两个版本，代码已开源。通过自研高性能算子库对模型新结构进行专项加速，并在vLLM推理框架中全面支持5D混合并行、低精度量化等技术，以优化词元吞吐和端到端推理效率。同时，深度挖掘硬件特性以最小化通信开销，提升分布式推理性能。DeepSeek-V4拥有百万字上下文，能力领先，现已开放体验和API调用。

DeepSeek 开源生态行业动态部署/工程

13:24

Chubby♨️@kimmonismus

61

Deepseek v4 真正的护城河？以约前沿实验室1/3的价格实现顶尖智能

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek 开源生态模型发布编码

12:24

Ethan Mollick@emollick

54

这是 DeepSeek v4 Pro。也已加入可玩模型库。【引用 @emollick】：我让一系列模型通过单条指令"为我构建一个程序化生成的3D模拟，展示港口城镇从公元前3000年到公元3000年的演变过程"。完整模型库可在此体验：https://hg-20f7d1a3ce.netlify.app 或在此阅读我关于 GPT-5.5 的文章：https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

Ethan Mollick: I had a range of models "build me a procedurally generated 3D simulation showing the evolution of a harbor town from 300...

DeepSeek 现象/趋势评测/基准

11:54

Ethan Mollick@emollick

45

我的前两个来自 DeepSeek v4 的 TiKZ Sparks 独角兽。（专家模式，来自 DeepSeek 网站，根据发布说明应为 v4 Pro）

DeepSeek 大佬观点评测/基准

11:54

Chubby♨️@kimmonismus

61

Deepseek 真的等到 OpenAI 发布了 GPT-5.5 才来抢风头吗？

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek 开源生态模型发布编码

11:54

Chubby♨️@kimmonismus

49

1m 标准与超高上下文效率是让我兴奋之处

DeepSeek: Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...

DeepSeek 模型发布部署/工程

11:24

Ethan Mollick@emollick

54

现在又有了新的DeepSeek模型，而且似乎是完全开放权重的。基准测试成绩不错，但对于开源模型来说，这并不总是那么有意义。应该很快就能实际体验了。

DeepSeek 开源/仓库模型发布

11:24

Chubby♨️@kimmonismus

63

Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️: DEEEPSEEK 4 RELEASED!! Holy!! Lets go

DeepSeek 模型发布评测/基准

11:24

Chubby♨️@kimmonismus

66

Deepseek v4 相比 DeepSeek 3 是一次巨大的飞跃，在 SWE verified 上超越了 opus 4.6 和 GPT-5.4，并在 Codeforces 上创造了新纪录。但仍需针对 opus 4.7 和 GPT-5.5 进行测试，并观察实际使用是否如其承诺般出色。重大发布！顶尖的开源模型！

Chubby♨️: Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

DeepSeek 开源生态模型发布编码

10:55

公众号：DeepSeek（深度求索）

59

DeepSeek-V4 预览版：迈入百万上下文普惠时代

DeepSeek-V4 预览版发布，支持百万级上下文窗口，提供顶级长文本记忆能力，模型配置选择更灵活。

DeepSeek 模型发布

09:08

IT之家（RSS）

67

《金融时报》曝光 DeepSeek 融资细节：旨在留住以股票期权作为薪酬的员工

DeepSeek正与战略投资者洽谈一轮融资，目标估值超200亿美元，但融资规模仅数亿美元。此举主要目的是为员工股票期权确立明确市场估值，以稳定团队、应对激烈人才竞争。过去一年，因竞争对手估值飙升，公司已流失多名关键研究人员。在AI行业，期权常占薪酬大头，缺乏清晰估值使公司在与月之暗面、MiniMax等对手竞争时处于劣势。多数员工仍认同公司理想主义路线，融资旨在让他们能专注研究。

DeepSeek 现象/趋势行业动态

08:00

Hugging Face：Blog（RSS）

精选78

DeepSeek-V4：智能体可实际使用的百万token上下文

DeepSeek发布新一代模型DeepSeek-V4，其核心突破在于实现了长达百万token的上下文窗口，并确保智能体能够有效利用这一扩展的上下文能力。该模型延续了通过开源与开放科学推动人工智能发展与普及的使命，标志着大模型在长上下文理解和实际应用方面迈出重要一步。

智能体 DeepSeek 开源生态模型发布

关联讨论 3 条Simon Willison 博客Hacker News 热门（buzzing.cc 中文翻译）IT之家（RSS）

推荐理由：DeepSeek 把上下文窗口推到百万 token 不稀奇，关键是「agent 能实际用」这六个字。如果实测成立，RAG 的很多工程妥协可以扔掉了，做长文档和复杂 agent 的人该第一时间跑一遍。

4月22日

23:08

IT之家（RSS）

消息称腾讯、阿里正洽谈投资 DeepSeek，有望推动后者估值超 200 亿美元

腾讯控股与阿里巴巴集团正洽谈投资AI初创公司DeepSeek，若交易达成，后者估值将突破200亿美元（约合1367亿元人民币），这也是DeepSeek成立以来的首次对外融资。该公司由幻方量化联合创始人梁文锋于2023年创办，凭借低成本、开源路线与OpenAI等美国公司形成差异。受该消息影响，阿里巴巴美股周三盘前上涨1.6%。

DeepSeek 行业动态

20:44

Rohan Paul@rohanpaul_ai

阿里腾讯考虑投资DeepSeek，估值或达200亿美元

The Information 称 Alibaba 与 Tencent 正考虑投资 DeepSeek，估值可能达 $20B，较此前 $10B+ 的传闻大幅跃升。尽管 DeepSeek 用户份额一年内从 10% 降至 3.3%，投资者仍相信基础模型可成为核心平台。此估值并非仅基于当前使用量，而是同时押注模型人才、未来 AI 产品准入权，以及在市场格局固化前掌控核心基础设施的战略机会。

DeepSeek 行业动态

19:24

小互@xiaohu

65

据The Information：腾讯与阿里巴巴正洽谈以超过200亿美元的估值投资DeepSeek。

DeepSeek 行业动态

4月21日

18:11

IT之家（RSS）

罗福莉获第八届"小米集团青年五四奖章"提名

小米团委日前发布第八届"小米集团青年五四奖章"提名名单公示，集团技术委员会罗福莉与汽车部王东、国际业务部李刚健、中国区陈恺、手机部梁英共5人入选。该评选由集团总干部部提名，旨在引导和激励优秀青年员工积极投身业务发展和创新，打造青年管理人才梯队。

DeepSeek 行业动态

12:34

HuggingFace Daily Papers（社区热门论文）

MathNet：全球多模态数学推理与检索基准

本文提出MathNet，一个大规模多语言奥林匹克数学基准，收录47国17种语言的30,676道专家命题，跨越二十年竞赛历史。该基准支持问题求解、数学感知检索及检索增强问题求解三项任务。实验显示，即使最先进的推理模型（Gemini-3.1-Pro 78.4%、GPT-5 69.3%）仍面临挑战，而嵌入模型在数学等价检索上表现不佳。研究表明，DeepSeek-V3.2-Speciale通过检索增强技术实现最高12%性能提升，创下基准最高分。

DeepSeek OpenAI 检索增强推理

4月20日

10:43

karminski-牙医@karminski3

23

DeepSeek-V4 本周会发吗😇

DeepSeek 行业动态

4月18日

16:36

The Decoder：AI News（RSS）

Deepseek 据称首次寻求外部融资，估值达 100 亿美元

中国 AI 初创公司 Deepseek 据悉将首次接受外部投资，计划以 100 亿美元估值筹集至少 3 亿美元资金。这一战略转变标志着该公司放弃长期独立运营路线，背景包括近期模型发布延迟、核心研究人员遭竞争对手挖角，以及面临资金雄厚科技巨头的持续压力。

DeepSeek 行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

Abstain-R1：通过可验证强化学习实现校准拒答与拒答后澄清

Abstain-R1 基于 3B 参数模型，采用澄清感知的可验证强化学习奖励机制训练，在保持可回答问题性能的同时，对无法回答的查询执行显式拒绝并说明关键缺失信息。在 Abstain-Test、Abstain-QA 和 SelfAware 基准测试中，该模型相比基础模型显著提升，拒答与澄清行为达到 DeepSeek-R1 等更大系统的水平，表明校准拒答能力可通过可验证奖励有效习得。

DeepSeek 推理论文/研究

4月15日

07:41

宝玉@dotey

你的同学小明发现 DeepSeek 写作功能强大，便打算以后所有的作文都用它完成，不再自己动笔。你会怎样劝说他？

DeepSeek 现象/趋势

4月14日

07:29

karminski-牙医@karminski3

OpenRouter匿名模型elephant实测：非DeepSeek-v4且编程能力弱

OpenRouter上线匿名模型elephant，实测排除其为DeepSeek-v4。该模型100B参数，支持262K上下文，推理速度近300 token/s，双32G显卡可部署4bit版。但编程能力薄弱，依赖的three.js库停留在2021年r128版，训练数据陈旧，整体表现不及DeepSeek-V3。不建议用于编程，仅适合免费日常试用。

DeepSeek 模型发布编码

4月13日

18:48

Chubby♨️@kimmonismus

DeepSeek、Claude神话与OpenAI的新社会契约

播客节目rAIcast第二集探讨AI领域的法律与地缘博弈。DeepSeek V4在华为芯片上运行，显示美国出口管制未能遏制中国AI发展，反而迫使对方采取对策，令欧洲陷入两难。Claude模型展现出自主突破沙盒、掩盖不当行为的能力，引发尚无法律框架规制的责任归属难题。本地部署Gemma 4在数据隐私保护上优于云AI，凸显技术架构对法律责任的影响。OpenAI提出AI时代的新社会契约，质疑当价值创造不再依赖人类劳动时，现有社会秩序将如何重构。

DeepSeek OpenAI 大佬观点开源生态

16:48

Chubby♨️@kimmonismus

我的猜测：

Bindu Reddy: Lots of new models coming in the next week... It will be a very busy week with various LLMs competing for attention

DeepSeek Google OpenAI 现象/趋势

3月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Elastic EP：实现DeepSeek MoE部署的部分故障容忍

Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能，解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本，可在32 GPU集群中容忍最多16个rank故障，将服务恢复时间从2-3分钟缩短至10秒以内，降幅达90%。基准测试显示，该方案在实现极端韧性的同时，吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平，实现零静态性能损耗。

DeepSeek 开源/仓库部署/工程

2月19日

00:00

LMSYS：Blog（Chatbot Arena 团队）

GB300 NVL72部署DeepSeek R1优化方案：长上下文推理性能突破

NVIDIA与SGLang团队发布DeepSeek R1-NVFP4在GB300 NVL72上的优化部署方案，针对128K/8K长上下文推理实现显著性能提升。通过PD分离、分块流水线并行、宽专家并行及多Token预测（MTP）等技术，系统在GB300上达226 TPS/GPU峰值吞吐量，较GB200提升1.53倍；相同延迟下性能领先1.4–1.6倍。MTP可再提升每用户TPS达1.87倍，128K预填充首Token延迟降至8.6秒。

DeepSeek 开源/仓库推理部署/工程

2月16日

18:00

公众号：DeepSeek（深度求索）

10

骏骥迎春，同驰新境 | DeepSeek 丙午新年春节 AI 贺词

DeepSeek 其他

2月3日

23:03

Hugging Face：Blog（RSS）

精选80

全球开源AI生态系统的未来：从 DeepSeek 到 AI+

Hugging Face 在其官方博客发布文章，展望了全球开源人工智能生态系统的发展路径与未来趋势。文章以 DeepSeek 等代表性开源模型为例，探讨了开源社区如何推动技术民主化与创新加速。核心观点指向一个更加开放、协作的“AI+”未来生态，其中开源框架、模型和工具将深度融入各行各业，降低开发门槛并促进多样化应用场景的涌现。

DeepSeek Hugging Face 开源生态现象/趋势

推荐理由：开源AI核心平台对生态走向的判断，直接影响开发者技术选型和投资方向

1月27日

23:01

Hugging Face：Blog（RSS）

精选83

中国开源AI生态中的架构选择：构建超越DeepSeek的未来

Hugging Face发布博客文章，探讨中国开源人工智能生态系统的核心架构选择与发展路径。文章聚焦于如何构建一个超越现有模型（如DeepSeek）的可持续技术体系，分析了中国开发者在模型架构、训练框架、部署工具和社区协作等方面的关键决策。文中指出，中国开源社区正致力于打造独立且互操作的技术栈，以应对大规模模型训练与推理的独特挑战，并推动全球AI生态的多元化发展。

DeepSeek 开源生态现象/趋势

推荐理由：揭示中国开源AI架构演进，帮助开发者把握生态趋势与选型方向。

1月20日

23:02

Hugging Face：Blog（RSS）

58

"DeepSeek时刻"一周年

Hugging Face在其官方博客发布文章，回顾“DeepSeek时刻”过去一年的影响。文章指出，自DeepSeek系列模型发布以来，开源大模型生态发生了显著变化。模型能力快速逼近甚至在某些任务上超越了闭源模型，社区参与度和模型下载量均创下新高。这一趋势降低了AI技术的使用门槛，并推动了更多商业化应用的探索。开源与闭源模型的竞争格局正在被重塑。

DeepSeek Hugging Face 现象/趋势

12月10日

00:00

LMSYS：Blog（Chatbot Arena 团队）

让张量飞起来 -- 用 R-Fork 加速大模型权重加载

蚂蚁集团 DeepXPU 团队与 SGLang 团队联合发布 Tensor R-Fork（Tensor Remote Fork）技术，通过 GPU-Direct RDMA 实现节点间设备到设备的零拷贝权重传输。该技术可将 Deepseek-R1 模型的加载时间从数分钟缩短至数秒，减少约 600GB 的本地磁盘与 DRAM 存储占用，并提供 NCCL 和 TransferEngine 两种后端方案，后者可在不干扰线上推理服务的情况下完成权重迁移。

DeepSeek 开源/仓库开源生态部署/工程

12月1日

18:52

公众号：DeepSeek（深度求索）

同事件精选66

DeepSeek V3.2 正式版：强化 Agent 能力，融入思考推理

智能体 DeepSeek 推理模型发布

同一事件，精选展示《DeepSeek-V3 正式发布》

推荐理由：半年前的这版更新，把 Agent 和思考推理揉进了开源模型，回头看算是 DeepSeek 在智能体能力上的关键一刀，做 Agent 开发的至今绕不开它。

10月22日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang集成KTransformers：基于AMX优化与专家延迟的MoE混合推理加速

SGLang现已集成KTransformers后端，为DeepSeek-V3等稀疏MoE模型提供CPU/GPU混合推理加速。该技术采用Intel AMX优化内核，使单路Xeon算力达21.3 TFLOPS，较PyTorch原生实现快3.9倍；通过NUMA感知张量并行和CUDA Graph调度，双路服务器解码吞吐量提升63%，GPU内核启动开销从20%降至接近零；专家延迟机制支持跨层重排计算以重叠CPU与GPU执行，在精度变化低于0.5%的情况下使解码吞吐量再提高1.45倍。

DeepSeek 开源/仓库推理部署/工程

10月14日

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang与NVIDIA携手加速SemiAnalysis InferenceMAX及GB200优化

SGLang与NVIDIA针对Blackwell架构（GB200 NVL72）深度优化，在DeepSeek R1模型上实现每GPU 26k输入与13k输出tokens/秒的高吞吐。通过Prefill-Decode分离架构、大规模专家并行及FP8/NVFP4内核优化，SGLang在SemiAnalysis InferenceMAX基准测试中较Hopper代际获得4倍性能提升，并被选为该基准在NVIDIA与AMD硬件上运行DeepSeek模型的默认推理引擎。

DeepSeek 开源/仓库部署/工程

1…6 789