5月10日

08:00

HuggingFace Daily Papers（社区热门论文）

LoopUS 是一种后训练框架，可将标准预训练大语言模型转换为循环架构，无需从头训练循环模型或进行破坏性改造。其核心是将模型重构为编码器、循环推理块和解码器，并包含四个关键组件：基于阶段化表征动态的块分解、抑制隐藏状态漂移的输入依赖选择性门、支持长递归范围内存高效学习的随机深度监督，以及用于自适应提前退出的置信度头。该框架通过稳定的潜在循环提升模型的推理性能，且不延长生成轨迹或增加额外训练成本。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过精确熵曲线控制解决大语言模型强化学习的性能饱和问题

针对大语言模型强化学习中普遍存在的性能饱和问题，研究团队提出Entrocraft方法。该方法通过拒绝采样偏置优势分布，实现用户定制的熵调度，无需目标正则化且与优势估计器无关。理论分析将熵变化与优势分布关联，解释了现有方法的行为。系统研究发现，从高值衰减至略低目标的线性退火熵调度效果最佳。实证表明，Entrocraft显著提升了模型泛化能力、输出多样性和长期训练稳定性，使40亿参数模型性能超越80亿参数基线，性能提升持续时间延长至4倍，并将pass@K指标提高了50%。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

跨语言在线策略自蒸馏：提升大语言模型在低资源语言上的数学推理能力

本文提出跨语言在线策略自蒸馏方法（COPSD），以提升大语言模型在低资源语言上的数学推理能力。该方法将同一模型同时作为学生和教师：学生仅接收低资源语言问题，教师则额外获得英文翻译和参考解答作为上下文。通过最小化学生自身输出与教师指导间的全分布令牌级分歧进行训练，提供了密集监督，避免了仅基于结果的强化学习的稀疏性与不稳定性。在17种低资源非洲语言上的实验表明，COPSD能持续提升不同规模模型的推理性能，显著优于GRPO基准，并改善了答案格式遵循与测试时缩放能力，对资源极少的语言效果尤为显著。

arXiv GitHub 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Dystruct：通过贝叶斯推理实现动态结构化扩散语言模型解码

扩散语言模型因支持并行解码而备受关注，但其通常依赖预设的固定生成长度，限制了应用灵活性。现有可变长度生成方法或需重新训练，或仅依赖局部置信度信号，导致生成质量不佳。本研究提出一种无需重新训练的贝叶斯结构化解码框架，将灵活长度生成建模为动态结构推断问题，联合优化扩展长度、块边界与解码调度。该方法在每一步扩展中，通过统一机制整合局部不确定性与全局结构信号，实现动态块扩展与组织，保障文本连贯性。多项实验表明，该方法在生成质量与灵活性上显著优于现有基线模型。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

草稿本补丁：在字节级语言模型中解耦计算与补丁大小

基于补丁的字节级语言模型面临补丁大小与建模质量的权衡，其根源在于“补丁滞后”问题。本研究提出的“草稿本补丁”方法，通过在补丁内部插入临时草稿本，聚合已见字节并刷新补丁级上下文，从而缓解滞后。该方法利用下一字节预测熵触发草稿本，将计算选择性分配给信息密集区域，并允许事后调整推理时计算。在自然语言和代码实验中，该方法在相同补丁大小下提升了模型质量。例如，即使补丁大小为16字节，增强后的模型在下游评估中匹配或接近字节级基线，同时补丁的KV缓存缩小了16倍，推理计算减少了3-4倍。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

让每个Token都算数：通过KV缓存淘汰提升长上下文性能

研究提出一种基于全局保留的KV缓存淘汰方法，以应对长上下文推理中的内存与计算瓶颈。该方法通过轻量级保留门为缓存条目分配效用分数，并利用共享的最终评分投影在所有层和注意力头间校准分数，使不同层、头和模态的token能在统一缓存容量下直接竞争。理论分析表明，优先保留有用token能减少注意力稀释。在多种长上下文语言、视觉-语言推理及多轮对话基准测试中，该方法在显著减少KV内存的同时，性能达到甚至超越了全缓存推理水平，表明学习型全局KV淘汰可成为一种提升推理能力的机制。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DeltaRubric：通过联合规划与验证生成多模态奖励模型

针对多模态大语言模型对齐中奖励模型不可靠的问题，本研究提出DeltaRubric方法。它将偏好评估重构为“规划-执行”流程：模型先作为“分歧规划器”生成针对具体实例的中立验证检查表，再转为“检查表验证器”依据图像和问题执行检查，输出基于事实的判断。该方法被构建为多角色强化学习问题，以联合优化规划与验证能力。在Qwen3-VL模型上的实验表明，DeltaRubric在VL-RewardBench上将基础模型的整体准确率显著提升了超过18分，大幅优于无检查表基线，证明结构化、可验证的评估步骤能产生更可靠、泛化性更强的多模态奖励模型。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

强化多模态模型在视觉退化下的推理鲁棒性

针对多模态大语言模型在图像模糊、压缩伪影等现实视觉退化下推理性能下降的问题，研究团队提出ROMA强化学习微调框架。该框架通过双前向传播、令牌级代理KL惩罚、基于干净图像优势的辅助策略梯度损失及正确性条件正则化四项核心技术，在避免损害清晰图像性能的前提下，有效提升了模型对视觉退化的鲁棒性。在Qwen3-VL模型上的实验表明，该方法在多个基准测试中对已见和未见退化的鲁棒性均显著优于GRPO方法。

多模态推理数据/训练论文/研究

5月9日

23:00

The Decoder：AI News（RSS）

精选82

菲尔兹奖得主称 ChatGPT 5.5 Pro 在无人帮助下两小时内完成"博士级"数学研究

菲尔兹奖得主蒂莫西·高尔斯让 ChatGPT 5.5 Pro 尝试解决数论中的开放性问题。该模型在不到一小时内，将一个问题中的指数界限改进为多项式界限。一位参与的 MIT 研究员认为其核心想法“完全具有原创性”。高尔斯总结指出，未来数学贡献的门槛将变为证明某些是大语言模型无法完成的工作。

OpenAI 推理论文/研究

推荐理由：Gowers 让 ChatGPT 5.5 Pro 独立改进了一个数论开放问题，关键步骤被 MIT 研究者评价为完全原创——AI 做研究的门槛第一次被菲尔兹奖得主亲自认证了。

14:19

Hacker News 热门（buzzing.cc 中文翻译）

最近使用 ChatGPT 5.5 Pro 的体验

OpenAI发布了ChatGPT 5.5 Pro模型，该版本在推理能力、代码生成和长上下文处理方面有显著提升。模型支持128K上下文窗口，并在数学问题解决基准测试中准确率达到92.7%，较上一版本提高约15%。实际体验显示，其在处理复杂指令和多步骤任务时响应更精准、逻辑更连贯，但偶尔仍会出现事实性错误。该模型目前通过订阅制向专业用户开放。

OpenAI 推理评测/基准

11:29

IT之家（RSS）

蚂蚁集团百灵发布万亿级旗舰思考模型 Ring-2.6-1T：限时一周免费体验，引入 Reasoning Effort 机制

蚂蚁集团旗下百灵大模型发布万亿级思考模型 Ring-2.6-1T，专为处理真实复杂任务设计。该模型创新引入可调节 Reasoning Effort 机制，提供 high 和 xhigh 两种推理强度。high 模式适用于高频 Agent 工作流，注重低 Token 开销与快速多步执行；xhigh 模式则面向数学、科研等需要深度逻辑分析与多路径探索的高难任务。模型兼具快速多步执行、工具协调能力及 SOTA 稳定性。目前已在 OpenRouter 平台上线，开放限时一周免费体验。

推理模型发布

11:19

Hacker News 热门（buzzing.cc 中文翻译）

精选78

教克劳德"为什么"

Anthropic公司发布了Claude模型的新研究“Teaching Claude Why”。该研究通过让模型学习解释自身推理过程中的“为什么”，显著提升了其推理能力和输出结果的准确性。实验表明，经过此项训练后，模型在多项基准测试中的表现得到改善，其推理步骤的透明度和逻辑连贯性增强。这项技术旨在推动AI向更可解释、更可靠的方向发展。

Anthropic 安全/对齐推理论文/研究

推荐理由：Anthropic 没刷榜，而是教 Claude 理解“为什么”，这是可解释性上的真进展，对齐和安全方向的研究者该细读。

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式发布

Ring-2.6-1T 是一款万亿级旗舰思考模型，引入可调节的 Reasoning Effort 机制，支持 high 与 xhigh 两种推理强度。high 模式面向高频 Agent 工作流，xhigh 面向数学、科研等复杂任务。评测中，high 模式 PinchBench 得分 87.60，Tau2-Bench Telecom 95.32；xhigh 模式 ARC-AGI-V2 得分 77.78，AIME 26 得分 95.83，GPQA Diamond 88.27。模型已上线 OpenRouter，近期将开源。

智能体推理模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

DiagnosticIQ：基于大语言模型的符号规则工业维护行动推荐基准

研究团队推出DiagnosticIQ基准，包含来自16类资产、118条规则-行动对的6690道专家验证多选题，用于评估大语言模型将工业监测中的符号规则转化为具体维护步骤的能力。基准包含五个变体以探测不同失效模式，并对29个大语言模型和4个嵌入基线进行了测试。人类专家平均准确率仅45.0%，证实任务需要专项知识。研究发现：前沿模型性能接近，但Pro变体显示在干扰项扩展下模型相对准确率下降13-60%，Aug变体暴露模型在条件反转时仍有49-63%的概率选择原答案，存在模式匹配倾向。这表明部署瓶颈并非模型能力不足，而是其校准问题。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

AgentForesight：面向多智能体系统早期故障预测的在线审计框架

针对LLM多智能体系统在长程任务中因关键错误扩散导致整体失败的问题，本研究提出在线审计框架AgentForesight。该框架能在任务执行过程中实时观察轨迹前缀，并在最早的关键错误处发出警报。研究构建了AFTraj-2K轨迹语料库，并基于此开发了AgentForesight-7B模型。该模型采用由粗到细的强化学习策略训练，在AFTraj-2K和外部基准测试中，其性能超越GPT-4.1等领先专有模型，实现了高达+19.9%的性能提升，并将步骤定位误差降低3倍，从而将故障处理从事后归因转向部署时干预。

智能体 arXiv 推理论文/研究

推荐理由：在多agent系统里，一个错误往往被下游接受并导致整个轨迹失败，这篇论文把事后归因变成了在线审计，用小模型在错误扩散前报警，比GPT-4.1还准，做agent部署的值得细读。

08:00

HuggingFace Daily Papers（社区热门论文）

CollabVR：视觉语言模型与视频生成模型的协作视频推理

CollabVR提出一种闭环协作框架，在步骤级别将视觉语言模型（VLM）与视频生成模型（VGM）耦合，以解决VGM在多步任务中的长视野漂移和中间片段错误累积问题。该框架中，VLM负责规划即时动作并检查VGM生成的视频片段，再将验证诊断直接融入后续提示以修正错误。在Gen-ViRe和VBVR-Bench基准测试中，该方法在同等计算条件下显著提升了开源与闭源VGM的性能，尤其在困难任务上增益最大，且能与推理微调的VGM进一步结合，实现性能叠加。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Soohak：一个用于评估大语言模型研究级数学能力的数学家编写基准

为评估大语言模型的研究级数学能力，研究团队推出了包含439道全新原创题目的Soohak基准。该基准包含挑战和拒绝识别两个子集。在挑战子集上，Gemini-3-Pro、GPT-5和Claude-Opus-4.5的得分分别为30.4%、26.4%和10.4%，领先的开源模型均低于15%，显示模型能力仍有巨大提升空间。在拒绝识别子集上，所有模型得分均未超过50%，这揭示了模型在识别问题定义不清时主动暂停而非盲目作答的能力严重不足，成为一个新的关键优化目标。为防止数据污染，完整数据集将于2026年底公开。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MLS-Bench：对AI系统构建更优AI能力的全面严格评估

MLS-Bench是一个评估AI系统能否发明通用、可扩展机器学习方法的基准。它包含12个领域的140项任务，要求智能体改进ML系统的特定组件，并证明其改进能在受控环境中泛化与扩展。研究发现，当前智能体远未达到可靠超越人类设计方法的水平，且工程式调优比真正的方法发明更容易。测试阶段的规模扩展、自适应计算分配和额外上下文均无法单独解决核心瓶颈，关键在于智能体缺乏规划、验证和扩展主张所需的科学洞察力。该项目已建立社区平台并开源相关资源。

智能体推理论文/研究评测/基准

07:29

IT之家（RSS）

新紫光发布"紫弦"三维化近存计算架构：存储带宽可达 30TB/s

新紫光集团在2026创新峰会上发布了“紫弦”三维化近存计算架构。该架构以3D DRAM为核心，采用首创的3.5D异质异构集成方案，存储带宽高达30TB/s，相比行业最新的HBM4在带宽与容量上具有优势，并可基于国内供应链量产。在PNM近存计算模式下，访存延迟最多可降低至1/18，模拟仿真显示其词元吞吐率较英伟达B200系列高出1.5至2倍以上。峰会上，其旗下公司还分别发布了商业航天高可靠集成电路解决方案、国产算力互联方案以及能将芯片设计效率大幅提升的“紫灵”智能体。

产品更新推理

01:27

BAIR：Berkeley AI Research Blog

精选64

自适应并行推理：高效推理扩展的新范式

自适应并行推理是一种新范式，它让大语言模型能够自主决定何时分解任务、并行处理多少子任务以及如何协调结果，以应对序列推理中因探索路径增长而导致的延迟增加和“上下文腐化”问题。近期研究如ThreadWeaver和Multiverse通过动态控制并行线程，在数学与代码推理基准上取得了显著性能提升，同时大幅降低了延迟。这标志着从固定并行策略到自适应智能控制的转变，为复杂任务的推理提供了高效且可扩展的解决方案。

推理现象/趋势部署/工程

推荐理由：模型自己决定何时并行、开几个线程，这篇BAIR博客把Multiverse和ThreadWeaver的系统设计掰开了讲，做推理系统和RL的同学应该看看。

5月8日

18:20

IT之家（RSS）

中国移动董事长陈忠岳：将推进全国一体化算力网建设，开放万亿级词元服务体验包

中国移动董事长陈忠岳在移动云大会上宣布，公司将推进全国一体化算力网建设，提供即取即用、普惠易用的算力服务。具体举措包括加强全光网高速直联、加速AI数据中心建设并布局吉瓦级数据园区，升级AI云算服务以支撑大模型发展。同时，中国移动将开放万亿级词元（Token）服务体验包，并发布移动模型服务平台MoMA。该平台已接入超300款业界主流AI模型，包括自研“九天”及DeepSeek、通义千问等，提供统一API网关，服务于政务、金融、工业等多类场景。

推理行业动态部署/工程

16:16

IT之家（RSS）

铭凡 M2 迷你主机实物厦门现身：Ultra 7 356H + DDR5

铭凡在厦门发布会上展示了新款迷你主机M2。该机型属于Elite Mini系列，搭载英特尔酷睿Ultra 7 356H处理器，配备2个DDR5 SO-DIMM插槽，最高支持128GB系统内存，并具备2个M.2 2280 NVMe SSD盘位。其支持Wi-Fi 7，外部接口丰富，包括正面2个USB-A 10Gbps和1个USB-C 40Gbps，背面另有多个USB、HDMI 2.1、DisplayPort 1.4以及2个2.5GbE网口。该设备宣称支持Qwen-35B-A3B、GPT-OSS 20B等大模型的本地运行。

产品更新推理端侧

13:36

Hacker News 热门（buzzing.cc 中文翻译）

ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型，在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿，突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效，可能降低部署成本并加速推理过程，为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步，其开源性质有望推动进一步研究和应用。

DeepSeek 推理模型发布编码

13:16

IT之家（RSS）

中国移动发布 MoMA 平台：单位 Token 成本压降 30%，接入超 300 款 AI 模型

中国移动发布移动模型服务平台MoMA，接入超过300款业界主流AI模型，包括自研“九天”及DeepSeek、通义千问等。平台基于国产算力部署自研推理引擎，通过智能路由与资源调度，实现单位Token成本降低约30%，资源占用率下降50%以上。其智能路由引擎支持成本、效果、均衡三种优先策略，并能实现故障秒级切换。平台还提供“机密模型”服务，通过硬件隔离技术保障政务、金融等高安全需求场景的数据安全。

产品更新推理部署/工程

11:22

HuggingFace Daily Papers（社区热门论文）

无意义文本有助于推理：提示空间扰动拓宽探索范围

针对大型语言模型强化学习中的“零优势问题”，本研究提出了LoPE训练框架。该方法通过在原始提示前随机添加由Lorem Ipsum等低困惑度伪拉丁文本构成的无关序列，对提示空间进行扰动，从而为困难问题开辟新的推理路径。在1.7B至7B参数规模的模型上的实验表明，该方法显著优于使用原始提示的重采样策略。分析进一步证实，其他基于拉丁语的随机序列同样可作为有效扰动源。LoPE为拓宽LLM强化学习的探索范围提供了一个简单而有效的基线方法。

推理数据/训练论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

A^2TGPO：具有自适应轮次裁剪的智能体轮次组策略优化

针对智能体大语言模型强化学习中稀疏结果奖励难以评估单轮贡献的问题，A^2TGPO方法优化了信息增益这一内在过程信号的利用。其核心改进包括：采用轮次组归一化，使同深度轮次间可比；通过方差重缩放的折扣累积，保持不同位置优势幅度的可比性；引入自适应轮次裁剪，根据各轮次信息增益动态调整策略更新范围。这些设计旨在更精确地进行过程信用分配，无需依赖外部奖励模型。

智能体 MCP/工具推理论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

强化学习能教会大语言模型长程推理吗？逻辑表达力是关键

研究团队提出ScaleLogic合成逻辑推理框架，可独立控制推理深度与逻辑表达力。实验发现，强化学习训练计算量T与推理深度D之间遵循幂律关系（T ∝ D^γ），且缩放指数γ随逻辑表达力增强从1.04单调上升至2.60。在数学与通用推理基准上，表达力更强的训练带来更大的性能提升（最高+10.66分）和更高的计算效率迁移。该幂律关系在不同强化学习方法中均成立，基于课程的学习能显著提升扩展效率。研究表明，训练内容（而不仅是训练量）对下游任务迁移有决定性影响。

推理论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

精选78

AI协数学家：以智能体AI加速数学研究

AI协数学家是一个供数学家利用AI智能体进行开放式研究的工作平台。它针对数学工作流程的探索性与迭代性特点，提供从构思、文献检索、计算探索到定理证明的全方位支持。其异步、有状态的工作空间能管理不确定性、细化用户意图并追踪失败假设，模拟了人类协作模式。早期测试中，该系统已协助研究人员解决开放问题、识别新方向并发现被忽视的文献。在FrontierMath Tier 4等硬核问题求解基准测试中，AI协数学家取得了48%的最新最高分，展现了AI辅助数学发现的高度交互范式。

智能体推理论文/研究

推荐理由：AI数学家终于不是吹牛了，FrontierMath Tier 4干到48%，还帮真人解决开放问题。搞数学和AI的都应该点开看看。

10:22

HuggingFace Daily Papers（社区热门论文）

连续潜在扩散语言模型

针对自回归范式在文本生成中的限制，研究团队提出Cola DLM，一种分层连续潜在扩散语言模型。该模型通过文本VAE学习文本到潜在映射，在连续潜在空间中用块因果DiT建模全局语义先验，再通过条件解码生成文本。其扩散过程执行潜在先验传输，而非词元级观测恢复，从而分离全局语义组织与局部文本实现，支持更灵活的非自回归生成。实验在严格匹配约20亿参数自回归基线和扩展到约2000 EFLOPs下进行，显示Cola DLM具有强大扩展性能，确立了分层连续潜在先验建模作为严格词元级语言建模的原则性替代方案。

多模态推理论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

UniPool：面向混合专家模型的全局共享专家池

传统MoE模型每层设置独立专家，导致参数量随深度线性增长。研究发现深层路由功能冗余，因此提出UniPool架构，采用一个全局共享的专家池供所有层访问，取代分层独立设计。通过池级辅助损失平衡专家使用，并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明，UniPool持续提升了验证损失。关键的是，共享池设计将池大小确立为深度缩放超参数：仅使用基线41.6%-66.7%专家参数的缩减池变体，性能达到或超越了传统分层MoE，证明专家参数可实现次线性增长并保持更高效率。

推理数据/训练论文/研究

10:22

HuggingFace Daily Papers（社区热门论文）

先思考后评分：视频奖励建模中的解耦推理与评分

为提升视频奖励模型的泛化能力与训练效率，研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式：首先由多模态大语言模型生成显式思维链推理，再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化：第一阶段结合随机掩码进行判别式冷启动，确保评分稳健性；第二阶段通过双目标强化学习，独立优化推理质量并校准奖励，使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。

arXiv 推理视频论文/研究

09:16

IT之家（RSS）

瑞莎预热高通平台飞牛 NAS：6 盘位全闪高性能 / 4 盘位主流双选择

瑞莎在2026高通AI开发者日前夕，预热了两款基于高通硬件平台的飞牛fnOS NAS新品。其中，DragonStation定位高性能全闪存产品，搭载具备“超大核”CPU的Arm SoC，提供6个M.2 SSD盘位，支持10Gb网络，并能通过内置加速卡本地运行120B参数的AI模型。另一款DragonBay面向主流用户，提供4个存储位，其内部结构设计留有后续扩展空间。两款新品将在本月末于深圳举行的活动中正式亮相。

产品更新推理端侧

09:16

IT之家（RSS）

OpenAI 最智能 AI 语音模型：GPT-Realtime-2 登场，GPT-5 级推理能力

OpenAI 发布三款集成于Realtime API的实时语音模型，旨在解决语音交互中的延迟、打断处理和多语言支持难题。其中，GPT-Realtime-2具备GPT-5级推理能力，可在对话中进行推理、调用工具并处理打断，音频输入输出分别按每百万Token 32美元和64美元计费。GPT-Realtime-Translate支持70种输入语言同步翻译为13种输出语言，每分钟0.034美元。GPT-Realtime-Whisper提供低延迟流式转录，每分钟0.017美元。这些模型为开发复杂语音助手、实时翻译和转录应用提供了底层技术支持。

OpenAI 推理模型发布语音

08:00

HuggingFace Daily Papers（社区热门论文）

中训练阶段使用自生成数据提升语言模型强化学习效果

本文研究在中训练阶段引入自生成多样化数据对强化学习（RL）的增益。该方法基于波利亚解题策略，为每个问题生成多种正确答案变体并微调。理论分析表明，这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证，经此中训练初始化后再进行RL的模型，在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于控制变量基线的大语言模型在线蒸馏稳定化方法

针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题，本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题，并引入一个控制变量基线（即价值函数）来稳定训练。该价值函数具有闭式解，即学生与教师模型间的逐令牌反向KL散度，无需额外计算。通过减去该基线，vOPD在保持梯度无偏的同时显著降低了方差。实验表明，在数学与科学推理任务上，vOPD性能持续优于原始在线蒸馏，并能匹配计算成本更高的全词表基线方法，实现了高效且稳定的训练。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越推理：强化学习解锁大语言模型中的参数化知识

本研究在零样本、单跳、闭卷问答的严格设置下，探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明，仅使用二元正确性奖励进行训练，即可在多个模型和事实问答基准上带来约27%的平均相对性能提升，超越多种基线方法。机制分析发现，强化学习主要重新分配模型已有知识的概率质量，将正确答案从低概率区域移至可靠生成范围，而非学习新事实。数据归因研究进一步揭示，约18%的最困难训练样本（其答案在强化学习前的多次采样中从未出现）贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于前缀一致性的可靠思维链方法

本研究提出“前缀一致性”作为一种可靠性信号，用于改进大语言模型在推理任务中的自一致性方法。该方法通过截断思维链的中间部分并重新生成后续内容，发现正确答案的思维链更倾向于重现原答案。利用这一差异，前缀一致性对候选答案进行加权聚合，无需依赖词元概率或自评分提示。在五个推理模型和四个数学科学基准测试中，该方法在多数情况下成为最佳正确性预测指标，并以中位数4.6倍、最高21倍更少的词元消耗，达到了标准多数投票法的稳定准确率。相关代码已开源。

开源生态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

语言模型自为评判者：基于执行者内部状态价值估计的强化学习

研究团队提出POISE方法，以极低成本为大型推理模型的强化学习提供基线估计。该方法通过一个轻量级探针，利用策略模型前向传播时已计算出的提示、生成轨迹的隐藏状态及词元熵统计，在线预测可验证奖励的期望值。其关键设计是跨轨迹构造，在保持梯度无偏的同时，仅需单次轨迹采样即可估计提示价值。这提升了固定计算预算下的提示多样性，降低了梯度方差，使学习更稳定，并省去了检测零优势提示的额外采样开销。在数学推理基准测试中，POISE以更少计算量达到了与DAPO相当的性能，其价值估计器性能接近独立的LLM规模价值模型，并能泛化至多种可验证任务。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

高效内存循环Transformer：在循环语言模型中解耦计算与内存

循环LLM架构（如Ouro）通过迭代更新内部表征进行推理，但其标准KV缓存导致内存消耗随推理深度线性增长，限制了可扩展性。本研究提出高效内存循环Transformer（MELT），通过每层共享一个跨循环的KV缓存，并利用可学习的门控机制更新缓存，从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法：插值过渡与注意力对齐蒸馏。实验表明，基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM，同时内存占用与标准模型相当，远低于Ouro，实现了不牺牲性能的恒定内存迭代推理。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

SEIF：用于指令跟随的自进化强化学习

指令跟随是大语言模型的基本能力，但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此，研究团队提出SEIF框架，通过自进化循环提升指令跟随能力。SEIF包含四个角色：生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower，以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化，使指令难度与模型能力相互促进。实验显示，SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现，有效训练策略是在早期充分训练以打下基础，后期适度训练以避免过拟合。相关代码与数据已开源。

开源/仓库推理数据/训练论文/研究