AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 11 条
全部一手资讯X论文
标签「DeepSeek」清除
6月28日周日
02:55Rohan Paul54DeepSeek 发布 DSpark:半并行推测解码推理优化方法
02:00Yuchen Jin38DeepSeek 发布 DSpark 推测解码并开源 DeepSpec
01:06MarkTechPost(RSS)79精选DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%
6月27日周六
18:32Hacker News 热门(buzzing.cc 中文翻译)51DeepSeek 开源推理优化方案 DeepSpec,生成速度提升 60% 至 85%
6月23日周二
13:13HuggingFace Daily Papers(社区热门论文)60Unlimited OCR:长序列OCR显存与速度问题的解决方案
6月16日周二
10:20Artificial Analysis60Artificial Analysis Intelligence Index v4.1 发布:转向智能体任务评测
6月9日周二
12:55HuggingFace Daily Papers(社区热门论文)68FlashMemory-DeepSeek-V4: 通过前瞻稀疏注意力实现闪电索引超长上下文
5月29日周五
21:14The Decoder:AI News(RSS)61新综述论文认为:代码是AI智能体的思考与行动方式,而非仅仅是其产出
5月28日周四
08:00HuggingFace Daily Papers(社区热门论文)54ESPO: 早停近端策略优化
5月14日周四
08:00HuggingFace Daily Papers(社区热门论文)57GQLA:面向硬件自适应的大语言模型解码的分组查询潜在注意力
4月30日周四
20:11歸藏(guizang.ai)51DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开
没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月28日
02:55
Rohan Paul@rohanpaul_ai
54
DeepSeek 发布 DSpark:半并行推测解码推理优化方法

DeepSeek 提出 DSpark,一种半并行推测解码系统,使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证:草稿模型并行生成多个候选 token,再由一个小型马尔可夫头根据前一个 token 微调每个猜测,弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载,动态决定每个请求需验证的 token 数量,避免无效计算。

DeepSeek推理论文/研究
02:00
Yuchen Jin@Yuchenj_UW
38
DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark,一种新的推测解码方法,将吞吐量提升 51% 到 400%。 他们还开源了背后的训练框架 DeepSpec。 这才是真正的开放 AI。
DeepSeekGitHub开源生态推理
01:06
MarkTechPost(RSS)
精选79
DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中,接受长度比 Eagle3 高 26–31%,比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek推理论文/研究部署/工程

推荐理由:DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上,关键在于不换模型就能加速,对用 API 做产品的人是立即可用的性能提升。代码和权重都给了,值得一试。
6月27日
18:32
Hacker News 热门(buzzing.cc 中文翻译)
51
DeepSeek 开源推理优化方案 DeepSpec,生成速度提升 60% 至 85%

DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec,并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%,具体实现细节见论文。

DeepSeek开源生态推理论文/研究
6月23日
13:13
HuggingFace Daily Papers(社区热门论文)
60
Unlimited OCR:长序列OCR显存与速度问题的解决方案

针对长序列转录中KV缓存累积导致显存增加和速度下降的问题,研究团队提出Unlimited OCR。该模型以DeepSeek OCR为基线,用提出的Reference Sliding Window Attention(R-SWA)替换解码器所有注意力层,在保持恒定KV缓存的同时降低注意力计算成本。结合DeepSeek OCR编码器的高压缩率,Unlimited OCR在32K标准最大长度下单次前向可转录数十页文档。R-SWA是一种通用解析注意力机制,同样适用于ASR、翻译等任务。代码和模型权重已开源。

DeepSeek多模态论文/研究
6月16日
10:20
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis Intelligence Index v4.1 发布:转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1,转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2(Elo 重基线、引入前沿模型评审、回合上限增至250),移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果:Claude Fable 5(60分)领先但不可用;可用模型中 Claude Opus 4.8(max)56分居首,GPT-5.5(xhigh)55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面,Opus 4.8 每任务 $1.78,GPT-5.5 $0.99,DeepSeek V4 Pro 仅 $0.04。时间方面,Grok 4.3 最快(1.5分钟),Opus 4.8 需6.4分钟,GPT-5.5 需3.7分钟,Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体AnthropicDeepSeek推理
6月9日
12:55
HuggingFace Daily Papers(社区热门论文)
68
FlashMemory-DeepSeek-V4: 通过前瞻稀疏注意力实现闪电索引超长上下文

FlashMemory-DeepSeek-V4(FM-DS-V4)提出Lookahead Sparse Attention(LSA)推理范式,基于DeepSeek-V4架构构建神经记忆索引器,主动预测未来上下文需求,仅保留查询关键KV块。采用解耦训练策略,索引器作为独立双编码器训练,无需加载主干模型。在LongBench-v2、LongMemEval、RULER等长上下文基准上,平均物理KV缓存压缩至全上下文基线的13.5%,下游精度平均提升0.6%;在500K极端长度下,物理KV开销减少超过90%,且不损害主干模型的核心推理能力。

DeepSeek推理论文/研究
5月29日
21:14
The Decoder:AI News(RSS)
61
新综述论文认为:代码是AI智能体的思考与行动方式,而非仅仅是其产出

一篇新综述论文提出,自主AI智能体的真正瓶颈并非语言模型本身,而是工具、内存、测试与权限边界等构成的软件层。这一“约束层”将无状态模型转化为能行动的工作智能体。DeepSeek已在北京组建专门的Harness团队,其“模型加约束层等于AI智能体”的公式印证了该观点。

智能体DeepSeekMCP/工具论文/研究
5月28日
08:00
HuggingFace Daily Papers(社区热门论文)
54
ESPO: 早停近端策略优化

ESPO(Early-Stopping Proximal Policy Optimization)是一种强化学习算法,它能在生成过程中实时检测失败轨迹并提前终止,以节省计算资源。该方法通过计算代理后悔值,当平滑后的累积后悔值显著超过预期时便停止生成。被截断的轨迹被视为吸收失败状态。在针对DeepSeek-R1-Distill-Qwen-7B模型的数学推理训练中,ESPO在AIME 2024、AMC 2023和MATH-500等基准上的表现均优于PPO,并累计节省了超过20%的回滚token。

arXivDeepSeek推理论文/研究
5月14日
08:00
HuggingFace Daily Papers(社区热门论文)
57
GQLA:面向硬件自适应的大语言模型解码的分组查询潜在注意力

本研究提出分组查询潜在注意力(GQLA),对DeepSeek-V2/V3中的多头潜在注意力(MLA)进行最小修改,使其在一套权重上暴露两种等效解码路径:与MLA相同的MQA吸收路径,以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径,无需重新训练。单一的GQLA权重能同时适配H100(采用MQA吸收)与H20(采用GQA及多令牌预测)的硬件性能上限,并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA,可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明,其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%,同时在分组路径上结构性保留了GQA级别的流量效率。

DeepSeek推理论文/研究部署/工程
4月30日
20:11
歸藏(guizang.ai)@op7418
51
DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”(如画框、打点)思考。该模型以极低的Token成本,在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek多模态论文/研究