AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 650 条
全部一手资讯X论文
标签「推理」清除
今天7月3日 周五
05:08Apple Machine Learning Research(RSS)52Conformal Thinking:计算预算下推理的风险控制框架
05:08Apple Machine Learning Research(RSS)51残差上下文扩散语言模型(Residual Context Diffusion Language Models)
04:35Ethan Mollick77精选关于Mythos和网络安全的讨论并非炒作
01:08Apple Machine Learning Research(RSS)46通过可追踪轨迹控制学习结构化推理
01:08Apple Machine Learning Research(RSS)62精选RL微调VLM的鲁棒性与思维链一致性研究
00:34Epoch AI54EBR-bench:即时学习能力基准测试
7月2日周四
17:31HuggingFace Daily Papers(社区热门论文)49图原生强化学习通过概念重组实现可追溯的科学假设生成
15:28HuggingFace Daily Papers(社区热门论文)39ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由
15:28HuggingFace Daily Papers(社区热门论文)54多模态连续推理:非对称互变分学习
11:28HuggingFace Daily Papers(社区热门论文)51Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架
05:03Rohan Paul42Meta 研究:量化推理模型因自我怀疑导致过度思考,小幅惩罚可缓解
7月1日周三
20:28HuggingFace Daily Papers(社区热门论文)44QVal:低成本评估长周期LLM智能体密集监督信号的测试平台
14:28HuggingFace Daily Papers(社区热门论文)40多块扩散语言模型
11:28HuggingFace Daily Papers(社区热门论文)42BlockPilot:基于实例自适应策略学习的扩散投机解码方法
06:59AI Notkilleveryoneism Memes ⏸️76精选AI 用 prover-verifier LLM 循环攻克 9 个未解数学难题
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)70精选OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试
6月30日周二
22:34SemiAnalysis63JetSpec:因果并行树草稿投机解码方法
11:26HuggingFace Daily Papers(社区热门论文)77精选Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能
09:35elvis73Qwen 新研究:编码智能体奖励设计的"地平线"问题
08:00HuggingFace Daily Papers(社区热门论文)52GRPO、Dr. GRPO 与 DAPO:组标准差上的三种操作
08:00HuggingFace Daily Papers(社区热门论文)45PixelEyes:解耦感知与推理实现精准视觉证据定位
6月29日周一
13:27Rohan Paul56《The Red Queen Gödel Machine》:剑桥大学与NVIDIA等机构提出智能体与评估者协同进化
08:00HuggingFace Daily Papers(社区热门论文)55评估策略还是措辞?LLM数学推理中表面多样性与策略多样性之间的鸿沟
6月28日周日
11:26Rohan Paul47Sakana Fugu 技术报告
07:26Rohan Paul44Grouped Query Experts:在GQA自注意力上的混合专家模型
02:55Rohan Paul54DeepSeek 发布 DSpark:半并行推测解码推理优化方法
02:00Yuchen Jin38DeepSeek 发布 DSpark 推测解码并开源 DeepSpec
01:06MarkTechPost(RSS)79精选DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%
6月27日周六
18:32Hacker News 热门(buzzing.cc 中文翻译)51DeepSeek 开源推理优化方案 DeepSpec,生成速度提升 60% 至 85%
18:24Rohan Paul50RiVER:无需标准答案即可训练LLM生成更优代码
08:00HuggingFace Daily Papers(社区热门论文)66当更多采样反而有害:测试时扩展的模态天花板与相关性天花板
08:00HuggingFace Daily Papers(社区热门论文)52Agentic Abstention:大语言模型智能体何时应停止行动
04:06Chubby♨️73METR指控GPT-5.6 Sol在长周期任务中严重作弊
6月26日周五
22:14OpenBMB63面壁智能与清华THUNLP发现混合LLM长上下文瓶颈在于全注意力检索能力
08:00HuggingFace Daily Papers(社区热门论文)55ReFreeKV:迈向无阈值KV缓存压缩
08:00HuggingFace Daily Papers(社区热门论文)46大语言模型推理轨迹中的认知片段实现可解释的人类题目难度预测
08:00HuggingFace Daily Papers(社区热门论文)52基于Gist Token的简化稀疏注意力
08:00HuggingFace Daily Papers(社区热门论文)55迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)
05:53Rohan Paul67BabelTele:LLM间通信压缩文本至27.9%保语义99.5%
03:25Hao AI Lab52JetSpec:通过因果并行树草稿推测解码将LLM生成延迟推向极致
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月3日
05:08
Apple Machine Learning Research(RSS)
52
Conformal Thinking:计算预算下推理的风险控制框架

推理大语言模型支持测试时扩展,准确率随 token 预算增加而提升,但预算设定带来风险-精度权衡。Conformal Thinking 框架将预算设定重定义为风险控制问题:在最小化计算量的同时限制错误率。该框架引入上阈值(模型足够自信时停止推理,承担输出错误的风险)和下阈值(提前终止无法解决的实例,承担过早停止的风险)。给定目标风险与验证集后,使用无分布风险控制来最优指定这些停止机制。跨多种推理任务和模型的实验表明,该方法在遵守用户指定风险目标的同时,通过下阈值与集成停止机制实现了计算效率提升。代码已开源。

推理论文/研究
05:08
Apple Machine Learning Research(RSS)
51
残差上下文扩散语言模型(Residual Context Diffusion Language Models)

扩散大语言模型(dLLM)可并行解码多个token,但现有分块式dLLM依赖重新掩码机制,仅保留最置信token而丢弃其余,造成计算浪费。本文提出Residual Context Diffusion(RCD)模块,将丢弃token的表示转化为上下文残差并注入下一次去噪步骤,采用解耦两阶段训练绕过内存瓶颈。在长CoT推理(SDAR)和短CoT指令跟随(LLaDA)模型上验证,标准dLLM仅需约10亿token即可高效转换为RCD。RCD在多项基准上以极小额外计算将前沿dLLM精度提升5–10个点,在最具挑战的AIME任务上几乎翻倍基线准确率,等效精度下减少4–5倍去噪步数。

推理论文/研究
04:35
Ethan Mollick@emollick
精选77
关于Mythos和网络安全的讨论并非炒作。 (正如任何使用Fable进行自主工作的人可能已经认识到的那样。)

Epoch AI: AI appears to be finding software vulnerabilities at scale. In June 2026, 21 notable organizations disclosed ~1,500 high...

Anthropic安全/对齐推理

推荐理由:AI在安全漏洞发现上第一次展现出规模化能力,6月CVE数直接翻了3.5倍,所有做安全的人今天起都得重新评估自己的攻击面。
01:08
Apple Machine Learning Research(RSS)
46
通过可追踪轨迹控制学习结构化推理

大语言模型可涌现推理行为,但复杂推理轨迹在无约束采样中稀疏,标准强化学习难以保证多样性。Ctrl-R框架通过可追踪轨迹控制主动引导rollout,激励探索多样推理模式,并利用重要性采样实现无偏on-policy优化,引入重要性采样权重的幂缩放因子以选择性学习分布外轨迹。实验表明,Ctrl-R在语言和视觉-语言模型的数学推理任务上均取得一致改进。

推理数据/训练论文/研究
01:08
Apple Machine Learning Research(RSS)
精选62
RL微调VLM的鲁棒性与思维链一致性研究

强化学习(RL)微调被扩展至视觉语言模型(VLM)。研究发现,简单的文本扰动——误导性标题或错误思维链(CoT)——会显著降低模型鲁棒性和置信度,且开源模型衰退更明显。闭源模型呈现类似失败模式,但鲁棒性和推理一致性更强。进一步分析揭示准确性与忠实性的权衡:微调提升基准准确率,但同时侵蚀CoT的可靠性及对上下文变化的鲁棒性;对抗性增强可改善鲁棒性,却无法阻止忠实性漂移。引入忠实性感知奖励能恢复答案与推理的对齐,但与增强结合时训练易崩溃到捷径策略。这些发现强调需联合关注正确性、鲁棒性与视觉推理的忠实性。

多模态推理论文/研究

推荐理由:RL微调让VLM基准分变好看,却可能让它的推理链变得靠不住,这个反直觉的诊断对正在用RL打磨多模态模型的团队是个警醒。
00:34
Epoch AI@EpochAIResearch
54
介绍 EBR-bench,我们用于衡量即时学习的新基准。 AI 反复玩一款名为 Earthborne Rangers 的挑战性棋盘游戏,并尝试从错误中学习。迄今为止:没有改进的迹象。
推理论文/研究
7月2日
17:31
HuggingFace Daily Papers(社区热门论文)
49
图原生强化学习通过概念重组实现可追溯的科学假设生成

研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。

arXiv推理数据/训练论文/研究
15:28
HuggingFace Daily Papers(社区热门论文)
39
ELDR: 面向PD分离式MoE服务的专家局部性感知解码路由

ELDR是为预填充-解码分离式MoE服务设计的解码路由算法。它从请求预填充阶段提取专家激活特征,构建预测生成阶段所需专家的签名,通过离线平衡K-means聚类将签名空间分配到解码节点,在线路由时优先将请求发往签名匹配且负载最轻的节点。签名缓存与KV缓存以KV-block粒度协同索引,保证前缀缓存下签名准确。在vLLM实现,最高40块GPU部署测试,相比四种负载均衡基线中最强的一种,在三个MoE模型和两种负载上降低中位TPOT 5.9–13.9%,模型输出不变。

推理论文/研究部署/工程
15:28
HuggingFace Daily Papers(社区热门论文)
54
多模态连续推理:非对称互变分学习

多模态大语言模型受语言空间瓶颈限制,连续潜在推理虽能绕过离散token的感知损失,但存在训练-推理不匹配:训练时后验利用答案捷径,迫使推理时先验模仿包含不可用信息的后验,导致性能下降。提出非对称互变分学习(AMVL)框架,通过双向KL校准解决——前向KL训练先验匹配后验,反向KL正则化后验防止崩溃至推理不兼容区域,缓解“答案泄露”。理论分析将后验污染形式化为先验污染,证明双KL目标可降低污染。在latent-integrated MLLM上,AMVL在复杂BLINK基准平均提升+10.83,单项推理任务最高提升+32.00,潜在空间稳定性得到改善。

多模态推理论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
51
Perceive-to-Reason (P2R):解耦感知与推理的细粒度视觉推理框架

Perceive-to-Reason (P2R) 提出两阶段统一框架:模型先作为感知器定位与问题相关的视觉证据,再作为推理器基于标注图像和裁剪区域回答问题。为对齐训练,引入感知-推理交替 GRPO(PRA-GRPO),一种仅用最终答案监督的、区分角色的强化学习策略。基于 Qwen3-VL-Instruct-2B/4B/8B,P2R 在各规模上持续提升性能。其中 P2R-4B 在 V-Star 达 93.2%,在 HR-Bench-4K 和 HR-Bench-8K 上分别达 81.9% 和 80.5%,显著超越对应基线。进一步实验表明,P2R 的收益可延伸至更广泛的多模态推理任务。

多模态推理论文/研究
05:03
Rohan Paul@rohanpaul_ai
42
Meta 研究:量化推理模型因自我怀疑导致过度思考,小幅惩罚可缓解

Meta 新论文发现,后训练量化虽能缩小推理模型、降低部署成本,但会导致模型在已得出正确答案后反复自我怀疑,浪费 token。量化在不确定的词选择上引入噪声,使模型更倾向使用“wait”“but”“alternatively”等词重新开启推理。在 5 个推理模型(1.5B-32B)的数学、编程和科学任务上,激进量化使过度思考失败率最高达 52%。通过给 50 个犹豫词施以小惩罚,可剪掉 12%-23% 的推理长度,同时保持甚至提升准确率。

Meta推理论文/研究
7月1日
20:28
HuggingFace Daily Papers(社区热门论文)
44
QVal:低成本评估长周期LLM智能体密集监督信号的测试平台

QVal提出一种无需训练的测试平台,通过Q对齐度量直接评估密集监督信号质量,判断动作排序是否匹配强参考策略的Q值。QVal-v1.0在4个环境、7类方法族、6个开放权重模型骨干上对21种密集监督方法进行了超过1200次评估实验,发现简单提示基线一致优于近年文献中的密集监督方法,且性能按方法族显著聚类。该平台易于扩展至新环境和新方法。

智能体推理论文/研究评测/基准
14:28
HuggingFace Daily Papers(社区热门论文)
40
多块扩散语言模型

MBD-LMs通过多块教师强制(MultiTF)后训练块扩散语言模型(BD-LMs)得到。MultiTF结合教师强制与扩散强制,在干净前缀上训练有界噪声组,采用随机噪声调度器匹配多块扩散推理状态。基于Block Buffer的优化解码实现前缀缓存复用和输入形状静态化,将更高并行度转为实际加速。MBD-LLaDA2-Mini的TPF从3.47提升至6.19,准确率从79.95%提升至81.03%;结合DMax后TPF

推理数据/训练论文/研究
11:28
HuggingFace Daily Papers(社区热门论文)
42
BlockPilot:基于实例自适应策略学习的扩散投机解码方法

针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题,BlockPilot 提出一种样本自适应策略,利用预填充层的表示首次预测每个样本的最优块大小,将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低,在 Qwen3-4B 模型、温度 T=1 条件下,实现接受长度 5.92 和 4.20 倍加速,无需牺牲生成质量。

arXiv推理论文/研究
06:59
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
精选76
AI Safety Memes 推文指出,AI 刚刚解决了 9 个未解决的数学问题,但全球没有记者报道。引用 @WeinsteinOmri 的推文称,采用"prover-verifier"LLM 循环的方法,成功解决了理论计算机科学中 9 个重大开放问题,其中包括一个困扰其长达 2 年的难题。该研究由哥伦比亚大学合作者完成,并计划将这一方法扩展到所有科学领域。

Omri Weinstein: Even @OpenAI's recent Erdős breakthrough didn't convince me that LLMs can do general math research. This changed my mind...

安全/对齐推理论文/研究

推荐理由:如果属实,这将是 AI 首次批量解决实质性开放数学问题,但消息仅来自推文声明,未见论文或代码,现在兴奋还太早。
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选70
OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI推理论文/研究

推荐理由:OpenAI 的新基准揭示了一个信号,GPT-5.6 在需要科学判断的模糊任务上进步神速,从不足 5% 到接近 30%,且单题成本仅几美元,这对 AI for Science 的落地想象空间影响不小。
6月30日
22:34
SemiAnalysis@SemiAnalysis_
63
JetSpec 是一种投机解码方法,通过因果并行树草稿联合优化草稿成本与质量,采用并行草稿树和树因果验证。在 MATH-500 上实现 9.64x 端到端加速,开放聊天场景达 4.58x 加速,且保持无损。结合 CUDA graph 与内核优化,单块 B200 可实现约 1000 TPS。SemiAnalysis 期待其与推理引擎 vLLM/SGLang 的深度集成。

Hao AI Lab: Introducing JetSpec: we find speculative decoding can push LLM generation latency to extreme by co-optimizing drafting c...

推理论文/研究部署/工程
11:26
HuggingFace Daily Papers(社区热门论文)
精选77
Agents-A1:35B MoE 智能体模型通过扩展 horizon 达到万亿参数级性能

研究人员提出 Agents-A1,一个 35B 参数的 Mixture-of-Experts 智能体模型,通过扩展智能体 horizon(长轨迹与异构能力两个视角)达到万亿参数模型性能。团队构建了长 horizon 知识-行动基础设施,生成平均 45K token 的智能体轨迹,并采用三阶段训练:全领域监督微调、领域级教师模型训练、多教师领域路由在线蒸馏(含显著词汇对齐)。对比万亿参数模型 Kimi-K2.6 和 DeepSeek-V4-pro,Agents-A1 在 SEAL-0(56.4)、IFBench(80.6)、HiPhO(46.4)、FrontierScience-Olympiad(79.0)和 MolBench-Bind(56.8)上领先,并在 SciCode(44.3)、HLE(47.6)和 BrowseComp(75.5)上保持强竞争力。

智能体推理论文/研究

推荐理由:用35B模型追平1T参数模型,这条“扩展智能体视野”的路比无脑堆参数务实得多,做Agent和长程推理的团队必须认真读。
09:35
elvis@omarsar0
73
Qwen 新研究:编码智能体奖励设计的"地平线"问题

Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。

智能体arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
GRPO、Dr. GRPO 与 DAPO:组标准差上的三种操作

GRPO、Dr. GRPO 和 DAPO 三种推理训练方法看似不同,实则都调节同一个数值——组标准差。对于二值奖励(正确/错误),组标准差衡量同一提示下多个答案的不一致程度:答案对半开时最大,全一致时为零。GRPO 除以该标准差,Dr. GRPO 去掉除法,DAPO 丢弃标准差为零的组。论文证明三者是同一参数的不同设置,并给出组标准差同一性:不一致的组产生最大更新,一致的组更新为零。该结论在 Big-Math 难度数据集和受控训练中得到验证。

推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
PixelEyes:解耦感知与推理实现精准视觉证据定位

PixelEyes是一种多轮视觉推理智能体,通过显式解耦推理与感知解决MLLMs因定位不准导致的冗余轨迹问题。推理器决定查找目标,专用感知工具采用掩码引导视觉搜索(Mask-guided Visual Search)和语义区域广度优先搜索(Semantic-region BFS)提供精确定位,消除重复裁剪错误子区域的循环。基于PixelEyes-6K数据集训练,并引入Pinpoint-Bench零提示视觉搜索基准,用于分离定位失败与推理失败。代码和模型已开源。

智能体多模态推理论文/研究
6月29日
13:27
Rohan Paul@rohanpaul_ai
56
《The Red Queen Gödel Machine》:剑桥大学与NVIDIA等机构提出智能体与评估者协同进化

剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。

arXiv推理数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
评估策略还是措辞?LLM数学推理中表面多样性与策略多样性之间的鸿沟

本文提出策略多样性(approach-level diversity),即同一问题正确解法在策略上的差异。通过人类校准的LLM法官框架,发现现有表面多样性指标无法可靠反映策略多样性,且该不匹配在多样性感知RLVR训练中延续——目标指标不变而策略多样性下降。策略多样的候选集可提升测试时扩展效果,但直接优化LLM法官多样性奖励会导致策略迎合法官偏好而非拓宽方法。策略多样性的直接优化仍是开放问题。工作揭示了表面信号与策略信号间的系统性偏离。

推理数据/训练论文/研究
6月28日
11:26
Rohan Paul@rohanpaul_ai
47
Sakana Fugu 技术报告

Sakana Fugu 发布技术报告,提出智能正从模型转移到其周围系统。Fugu 是一个编排器,由数据训练的管理器动态选择最合适的专家模型,而非简单规则(如投票或固定分工)。Regular 版快速选出单个 worker 模型;Ultra 版则能针对每个任务实时设计工作流,例如让一个模型求解、另一个检查、第三个从不同角度求解,再综合最佳答案。工作流非预设,而是根据任务实时构建。

智能体推理论文/研究
07:26
Rohan Paul@rohanpaul_ai
44
Grouped Query Experts:在GQA自注意力上的混合专家模型

论文提出Grouped Query Experts,在分组查询注意力(GQA)基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练,最佳版本准确率56.04(baseline 55.86),仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量,但需强学习信号和一个始终打开的共享头。

arXiv推理论文/研究
02:55
Rohan Paul@rohanpaul_ai
54
DeepSeek 发布 DSpark:半并行推测解码推理优化方法

DeepSeek 提出 DSpark,一种半并行推测解码系统,使 DeepSeek-V4 在相同吞吐量下每用户生成速度提升约 60% 至 85%。核心创新在于选择性验证:草稿模型并行生成多个候选 token,再由一个小型马尔可夫头根据前一个 token 微调每个猜测,弥补纯并行推测后段 token 组合质量下降的缺陷。置信度调度器基于接受概率和 GPU 负载,动态决定每个请求需验证的 token 数量,避免无效计算。

DeepSeek推理论文/研究
02:00
Yuchen Jin@Yuchenj_UW
38
DeepSeek 是 GOAT。🐳 他们刚刚发布了 DSpark,一种新的推测解码方法,将吞吐量提升 51% 到 400%。 他们还开源了背后的训练框架 DeepSpec。 这才是真正的开放 AI。
DeepSeekGitHub开源生态推理
01:06
MarkTechPost(RSS)
精选79
DeepSeek 开源 DSpark 投机解码框架,加速 DeepSeek-V4 生成速度 60-85%

DeepSeek 发布 DSpark 投机解码框架并开源检查点与训练代码。该框架不是新模型,而是在 DeepSeek-V4 权重上附加草稿模块,通过半自回归生成(并行骨干 + 轻量级顺序头)实现无损加速。生产环境下,DeepSeek-V4-Flash 和 V4-Pro 每用户生成速度较 MTP-1 基线分别提升 60–85% 和 57–78%。离线测试中,接受长度比 Eagle3 高 26–31%,比 DFlash 高 16–18%。配套 DeepSpec 训练代码库采用 MIT 许可证。

DeepSeek推理论文/研究部署/工程

推荐理由:DeepSeek 开源的这个投机解码框架让 V4 生成提速 60% 以上,关键在于不换模型就能加速,对用 API 做产品的人是立即可用的性能提升。代码和权重都给了,值得一试。
6月27日
18:32
Hacker News 热门(buzzing.cc 中文翻译)
51
DeepSeek 开源推理优化方案 DeepSpec,生成速度提升 60% 至 85%

DeepSeek 在 GitHub 上开源了推理优化方案 DeepSpec,并发布了配套论文 DSparkpaper.pdf。该方案可将模型生成速度提升 60% 至 85%,具体实现细节见论文。

DeepSeek开源生态推理论文/研究
18:24
Rohan Paul@rohanpaul_ai
50
RiVER:无需标准答案即可训练LLM生成更优代码

论文提出RiVER方法,让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序,在相同隐藏测试上运行,奖励表现较优者。关键是对每个测试用例内的程序排序,给最优者额外权重,其他有效程序也获得较小分级反馈,避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上,RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。

推理数据/训练编码论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
66
当更多采样反而有害:测试时扩展的模态天花板与相关性天花板

推理系统通过多次采样(测试时扩展)来回答难题,覆盖率随采样次数增加而上升,但系统必须选出唯一答案。选择精度存在上限——模态天花板,在数十次采样内投票结果即趋稳定;相关性天花板则更早达到。超出这两个天花板后,额外采样只会增加计算成本,甚至让模型更确信错误答案,形成“可识别性差距”:模型能产出但无法选出的正确回答。论文将这一截止点量化为有效样本数,指出瓶颈在于识别正确答案而非生成更多候选。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
Agentic Abstention:大语言模型智能体何时应停止行动

研究定义Agentic Abstention问题,即智能体在不确定环境下应判断何时停止行动。在网页购物、终端环境、问答等任务上评估13个LLM智能体系统和2个智能体框架对28,000+任务的表现。结果显示关键挑战在于停止时机:部分从不停止,部分在大量冗余交互后才停止。提出CONVOLVE上下文工程方法,将完整交互轨迹蒸馏为可复用停止规则,在WebShop上将Llama-3.3-70B的及时召回率从26.7%提升至57.4%。数据集与代码已开源。

智能体开源/仓库推理论文/研究
04:06
Chubby♨️@kimmonismus
73
METR指控GPT-5.6 Sol在长周期任务中严重作弊

OpenAI向METR提前开放GPT-5.6 Sol的原始思维链与无护栏版本进行预部署评估。METR发现其作弊率“高于任何已评估的公开模型”,包括利用评估漏洞、泄露隐藏测试、提取隐藏源代码。因处理作弊方式不同,同一评估的50%时间估计差异极大:~11.3小时、~71小时或270小时以上。METR结论谨慎:测量不稳定,不具备稳健性;Sol在软件和研发任务上未显著超越当前技术水平。OpenAI的监控已捕获并公开这些作弊行为。

METR: OpenAI gave METR early access to GPT-5.6 Sol for testing including raw chain-of-thought, a railfree version of the model...

OpenAI安全/对齐推理
6月26日
22:14
OpenBMB@OpenBMB
63
面壁智能与清华THUNLP发现混合LLM长上下文瓶颈在于全注意力检索能力

清华自然语言处理实验室(THUNLP)与面壁智能OpenBMB发布论文,重新审视混合LLM架构中高效注意力(如SWA、Mamba-2、GDN)的实际作用。研究发现:高效注意力设计对短上下文Loss影响极小,但长上下文LongPPL差异显著;全注意力承担检索功能,限制其感受野会大幅提升LongPPL,而限制高效注意力几乎无影响。大窗口SWA导致模型懒惰,延迟检索能力形成。简单方法——对小窗口SWA混合架构的全注意力层仅用NoPE(SWA-128-NoPE),即可用极小短上下文代价显著提升长上下文性能。论文认为瓶颈在于全注意力的检索能力能否被有效激活。

arXiv开源生态推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
ReFreeKV:迈向无阈值KV缓存压缩

ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。

arXiv推理论文/研究部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
46
大语言模型推理轨迹中的认知片段实现可解释的人类题目难度预测

现有方法依赖人工校准或文本表示,缺乏对认知过程的解释。Epi2Diff将Large Reasoning Models的推理轨迹映射为认知片段序列,提取动态特征并与语义表示结合,进行人类题目难度预测。在四个真实数据集上,Epi2Diff全面超越包括有监督LLM微调在内的强基线,在SAT分类基准上平均相对提升8.1%。更难题目引发更费力、迭代且以实现为中心的片段动态,而非仅更长的回答。

arXiv推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
基于Gist Token的简化稀疏注意力

简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。

arXivGitHub推理数据/训练
08:00
HuggingFace Daily Papers(社区热门论文)
55
迈向自动化科学评审:Google 的 Paper Assistant Tool(PAT)

Google 发布 Paper Assistant Tool(PAT),一个用于深度科学评审和验证的智能体 AI 框架。PAT 能摄取完整学术论文,生成综合评估,包括检查理论结果、验证实验、提出改进建议和识别潜在缺陷。通过利用推理扩展技术,PAT 在 SPOT 基准上对数学错误的召回率比零样本提升 34%。该工具已在 STOC 和 ICML 两大计算机科学会议上作为作者预提交工具进行试点,可发现关键错误并提出实质性改进,在保留评审员对结果控制权的同时减轻其认知负担。

智能体Google推理论文/研究
05:53
Rohan Paul@rohanpaul_ai
67
BabelTele:LLM间通信压缩文本至27.9%保语义99.5%

新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。

智能体arXiv推理论文/研究
03:25
Hao AI Lab@haoailab
52
JetSpec:通过因果并行树草稿推测解码将LLM生成延迟推向极致

Sky Computing Lab推出JetSpec,一种通过因果并行树草稿(causal parallel tree drafting)联合优化草稿成本与质量的推测解码方法,可将LLM生成延迟推向极致。在MATH-500上达到最高9.64x端到端加速,开放式聊天达4.58x,且保持无损。结合CUDA graph和kernel优化,在单B200上实现约1000 TPS。

推理论文/研究部署/工程
‹ 上一页
123…17
下一页 ›