研究表明，大语言模型（LLMs）在符号辅助的 Chain-of-Thought（CoT）提示下，能够通过类似图遍历的算法实现逻辑推理。本研究旨在定位负责具体推理步骤的注意力头，并分析它们之间传递的信息类型。研究发现，在CoT提示框架下，引导推理进程的token位置常伴有低置信度分数。通过因果中介分析，识别出了负责特定推理模式的注意力头（约占总头数的3%）。进一步分析表明，LLMs通过专用注意力头获取单个子任务的事实与规则信息，而更高层的注意力头则主要负责信息整合与全局推理策略（如图遍历算法）的涌现，以协调多个中间步骤来解决整体任务。

arXiv 推理论文/研究

17:15

IT之家（RSS）

消息称字节跳动正开发自有 CPU，以支持 AI 基础设施扩张

字节跳动因芯片价格上涨与供应短缺，正开发自有CPU以支持AI基础设施扩张，特别是推理阶段需求。公司计划将自研芯片部署在自有服务器和数据中心，并准备推出Coze等智能体产品。目前同时推进基于Arm和RISC-V的两套架构路线，正接触外部合作伙伴参与设计与产能争取，项目仍处于早期阶段。此前字节跳动从英特尔和AMD采购的CPU已面临10%至35%的涨价。

推理行业动态

16:15

IT之家（RSS）

雷神发布Master T系列AI工作站

雷神在新品发布会上推出了Master T系列塔式AI工作站。旗舰型号Master T9000至高可选96核心的AMD锐龙Threadripper PRO 9995WX处理器与四块AMD Radeon AI PRO R9700显卡，其FP8稀疏算力可达3096 TFLOPS，能够满足运行70B参数大语言模型全精度推理的需求。高阶型号Master T7000则可选AMD锐龙9 9950X3D2处理器，搭配单块Radeon AI PRO R9700显卡，提供766 TFLOPS的算力。

产品更新推理

14:28

HuggingFace Daily Papers（社区热门论文）

精选71

DenoiseRL：通过恢复嘈杂前缀来引导推理模型

DenoiseRL是一种强化学习框架，旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集，而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习，将错误转化为改进机会。这种方法提供了更丰富多样的学习信号，提升了探索效率。实验表明，DenoiseRL在竞争性的数学和通用推理基准测试中，持续优于强在策略RL基线，并能随着训练难度增加促进更强的自我纠正行为。

推理数据/训练论文/研究

推荐理由：做 RL for reasoning 的团队该看这篇，它把训练信号从“依赖强模型”转向“从弱模型的错误中学习”，可能降低对昂贵 teacher 的依赖，是个架构层面的新思路。

12:28

HuggingFace Daily Papers（社区热门论文）

长存平衡：基于信息瓶颈的树策略优化

该研究针对大语言模型在线强化学习中探索与利用的失衡问题，提出了新指标IB-Score，它基于信息瓶颈理论，量化了步级推理多样性与正确答案信息的权衡。分析表明，主流方法如GRPO难以维持此平衡。为此，论文提出IB-TPO框架，将IB-Score作为优化目标，并采用信息瓶颈引导的树采样策略，在相同token预算下可增加50%的轨迹。实验显示，该方法在标准基准上显著优于GRPO基线，性能提升2.9%至3.6%。代码已开源：https://github.com/alibaba/EfficientRL。

推理数据/训练论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

HRBench：混合推理大语言模型思考模式切换策略的评测与理解

本研究提出了HRBench，一个统一的评测框架，用于研究混合推理大语言模型的思考模式切换策略。框架从三类切换策略家族（基于提示的选择、外部路由、推测执行）与四种训练方式（免训练、SFT、离线RL、在线RL）两个维度设计空间，形成多种受控评测设置。研究在涵盖从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型，以及数学、科学、代码等5个推理基准上，重新实现了12余种现有方法并进行评估。分析表明，不同策略在有效性与效率的权衡中特点各异，且策略偏好随模型规模和任务领域变化。

GitHub Hugging Face 推理论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

基于双向进化搜索的大语言模型自我改进方法

针对现有大语言模型搜索方法（如 best-of-N 采样、树搜索）依赖稀疏验证信号且探索局限于高概率区域的问题，本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹，以生成难以通过单次模型展开获得的候选方案；后向搜索则递归分解原始任务，产生密集的中间反馈以指导搜索。理论分析表明，仅靠展开的搜索受限于窄熵壳，而进化算子可使其跳出，后向搜索则能指数级减少找到正确答案所需的样本数。实验显示，在主流后训练算法失效的任务上，BES 能带来一致性能提升；在三个开源问题求解基准的推理测试中，BES 在平均与最佳性能上均优于现有开源框架。

智能体开源/仓库推理论文/研究

11:28

HuggingFace Daily Papers（社区热门论文）

精选73

VibeSearchBench：面向真实世界中长期主动搜索的评测基准

基于LLM的智能体在现有搜索基准上表现优异，但真实用户体验不佳，这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估，无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此，研究提出了“VibeSearch”范式并发布了VibeSearchBench，该基准包含200个手工策划的双语任务，覆盖20个领域，分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示，所有模型在VibeSearch任务上表现均不充分（最佳F1分数为30.30），凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。

arXiv 推理搜索论文/研究

推荐理由：所有前沿模型在长程主动搜索上都翻车了，最高F1才30，说明现在AI离真正理解你的模糊需求还有距离，做搜索的同学该重新想想架构了。

11:28

HuggingFace Daily Papers（社区热门论文）

通过最优系数校准实现强化学习中的多Token预测联合训练

可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式，而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度，因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题，提出最优系数校准方法，能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中，OCC方法持续匹配或超越分离基线，改善了联合MTP-RL的训练性能。

arXiv 推理数据/训练论文/研究

11:15

IT之家（RSS）

精选73

英伟达推出 AI 框架 Polar，让 Codex 跑分暴涨 594.74%

英伟达研究团队开源了智能体强化学习框架 Polar。该框架无需重写现有智能体执行框架（如 Codex CLI、Claude Code、Qwen Code、Pi），通过在模型 API 边界放置智能体来接入 GRPO 训练。实验显示，基于 Qwen3.5-4B 模型，Polar 将 Codex 在 SWE-Bench Verified 上的 pass@1 分数从 3.8% 提升至 26.4%（增涨 594.74%）。效率上，其 prefix_merging 技术将训练步骤从 1185 次降至 218 次，速度提升约 5.39 倍，GPU 平均利用率从 20.4% 升至 87.7%。

开源/仓库推理编码

推荐理由：Polar 把 Codex 的 SWE-Bench 分数从 3.8% 拉到 26.4%，不是靠新模型而是靠训练框架，做代码 agent 的团队可以直接用，开源即拿即训。

10:28

HuggingFace Daily Papers（社区热门论文）

精选70

ResearchMath-14K：通过智能体扩展研究级数学

本文介绍了ResearchMath-14K，这是一个包含14,056个研究级数学问题的数据集，通过多智能体流程从学术资料中策划而成，是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning（包含220K条教师轨迹），发现语言模型存在回避行为，且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后，对参数规模为4B到30B的Qwen3模型进行微调，其平均得分比基础模型提高了9.2分，表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。

arXiv 推理数据/训练论文/研究

推荐理由：这可能是目前数学推理方向最有价值的数据集之一，它暴露了模型编造引用的问题，过滤后微调还能涨点，做数学推理的团队应该立刻拉下来试试。