5月15日

16:49

HuggingFace Daily Papers（社区热门论文）

FrontierSmith 是一个自动化系统，能从现有封闭式编码任务中迭代演化出开放式问题。它通过改变问题目标、限制输出和泛化输入生成候选变体，并利用量化思维发散指标筛选能激发多元解法的问题，再由智能体生成测试用例与验证器。在两个开放式编码基准测试中，使用合成数据训练后，基础模型性能显著提升：Qwen3.5-9B 在 FrontierCS 上得分提高 +8.82，在 ALE-bench 上基于 Elo 评分的性能提升 +306.36；Qwen3.5-27B 分别提升 +12.12 和 +309.12。合成问题还使智能体进行更多轮次、消耗更多令牌，其特性与人工构建问题相似，表明封闭式问题种子可作为生成长视野编码数据的实用起点。

推理数据/训练编码论文/研究

15:42

IT之家（RSS）

Epic 喜加一：原价 62 元 AI 推理游戏《Vaudeville》免费领

推理冒险游戏《Vaudeville》在Epic游戏商城开启限时免费领取，国区原价62元。本次活动由开发团队Bumblebee Studios自行发起，持续至5月17日18:00。游戏最大特色是采用AI技术驱动NPC对话，所有回应均为实时生成，无固定剧本，每次游玩对话内容都可能不同。玩家需通过自然语言提问与角色互动，在充满欧洲风情的虚构城市中扮演侦探，调查一系列命案并挖掘线索。

推理行业动态

13:49

HuggingFace Daily Papers（社区热门论文）

通过闭环验证推理解锁复杂视觉生成

针对文本到图像模型在复杂语义生成上的局限，研究团队提出了闭环视觉推理框架。该框架通过自动数据引擎进行步骤级视觉验证，合成可靠推理轨迹，并采用代理提示强化学习解决长上下文优化不稳定问题。为降低迭代去噪导致的高延迟，框架引入Δ-Space权重合并方法，将每步推理成本降至仅需4次噪声估计前向传播。实验表明，该框架在多项基准测试中超越现有开源模型，性能接近专有商业模型，实现了复杂视觉生成的通用测试时扩展能力。

图像生成多模态推理论文/研究

12:49

HuggingFace Daily Papers（社区热门论文）

动态潜在路由

本文针对奖励函数时变的马尔可夫决策过程，提出了通用迪杰斯特拉搜索方法，证明了通过中间最优子策略的时间组合可恢复全局最优策略。受此启发，作者提出了动态潜在路由，这是一种语言模型后训练方法，能在单一训练阶段通过动态搜索联合学习离散潜在代码、路由策略和模型参数。在低数据微调场景下，该方法在四个数据集和六个模型上达到或超越了监督微调的性能，平均提升6.6个百分点，而先前的离散潜在基线方法则持续表现不佳。机理分析表明，该方法能学习具有不同因果角色的结构化路由行为。

推理数据/训练论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

ATLAS：一个功能词元，兼作智能体操作与潜在视觉推理单元

针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题，本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元，它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作，无需视觉监督，仍作为标准词元存在于词表中，可通过下一词元预测生成。这避免了生成冗余的中间视觉内容，且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题，研究引入了潜在锚定GRPO（LA-GRPO）以稳定训练。实验表明，ATLAS在多项挑战性基准测试中取得了优异性能，并保持了良好的可解释性。

arXiv MCP/工具多模态推理

10:48

HuggingFace Daily Papers（社区热门论文）

学习构建环境：通过可验证环境合成实现自我演进的推理强化学习

研究提出一种语言模型自我改进的新范式，使模型从被动生成数据转为主动构建训练自身的可执行环境。该方法的核心在于环境需具备稳定的“求解-验证不对称性”：模型能编写验证器代码，却无法可靠地用自然语言解决新实例。这种不对称性确保了奖励信号的有效性。研究者实例化为EvoEnv方法，通过合成Python环境并经过多阶段严格验证后才用于训练。在较强的Qwen3-4B-Thinking模型上测试表明，传统方法性能下降，而EvoEnv将其平均性能从72.4%提升至74.8%。这证明稳定的自我改进关键在于让模型学会构建结构上始终超越其当前能力的环境。

智能体推理论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

Nexus：一个用于时间序列预测的多智能体框架

时间序列预测需结合数值模式与上下文信息如新闻。研究团队推出Nexus框架，它将预测分解为多阶段：分离宏观与微观时序波动，整合非结构化上下文信息，再综合生成预测。该框架表明，当前大语言模型具备比以往认知更强的内在预测能力，关键在于组织数值与上下文推理。在知识截止日期后的Zillow房地产和波动股市数据上评估，Nexus持续匹配或超越了最先进的时序基础模型及大语言模型基线。此外，Nexus能生成高质量推理轨迹，明确展示预测背后的核心驱动因素，推动预测向代理推理问题发展。

智能体推理论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

精选71

Darwin Family：基于MRI-Trust加权的进化合并实现语言模型推理能力的免训练扩展

Darwin Family框架通过免训练的梯度无关权重重组，探索重组现有模型隐式能力以提升推理性能。其核心包括14维自适应合并基因组实现细粒度组件重组；MRI-Trust融合机制通过可学习参数平衡层重要性信号与进化搜索；架构映射器支持异构模型家族间的跨架构融合。旗舰模型Darwin-27B-Opus在GPQA Diamond基准上达到86.9%准确率，在1252个模型中排名第六，无需训练即超越其基础模型。该框架在4B至35B参数规模上均能持续提升性能，支持递归多代进化，并能实现Transformer与Mamba组件的免训练融合。

推理论文/研究

推荐理由：训练free的进化合并新思路，用MRI诊断引导基因重组，直接把GPQA Diamond拉到86.9%排第6，比全训练模型还高，搞模型蒸馏和推理优化的可以抄作业。

09:00

公众号：蚂蚁百灵（Ling）

Ring-2.6-1T 正式开源：为真实复杂任务打造的万亿级思考模型

Ring-2.6-1T 正式开源，这是为真实复杂任务打造的万亿级思考模型，Agent 执行能力全面增强，采用双档推理配置，兼顾效率、成本与能力上限。

开源生态推理模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

旋转位置编码在长上下文中既无法区分位置也无法区分标记，可证

本文从理论上证明了旋转位置编码在长上下文Transformer模型中的根本缺陷。研究发现，随着上下文长度增加，RoPE的注意力机制会变得不可预测并丧失两大核心特性：局部性偏置和标记相关性一致性，其失效概率趋近0.5，等同于随机。实验进一步证实，当键被移动或替换时，注意力得分可能保持不变，表明其无法有效区分位置与标记。虽然增大RoPE基础参数有助于区分标记，但不可避免地会牺牲位置区分能力，且多层多头架构无法克服这些内在限制。这表明未来可能需要全新的位置编码机制。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于学习可靠性的过程奖励模型

针对现有过程奖励模型（PRM）仅输出单一奖励分数、无法指示预测可靠性的缺陷，本文提出BetaPRM模型。该模型利用蒙特卡洛继续推演提供的监督信号，通过Beta-二项似然学习Beta信念分布，同时预测每个推理步骤的成功概率及其可靠性。基于这一可靠性信号，进一步引入自适应计算分配策略（ACA）用于PRM引导的最佳N选一推理。ACA能在奖励高且可靠时停止，并在预测不确定的候选方案上投入更多计算资源。实验表明，BetaPRM提升了PRM引导的选择性能；而ACA策略相比固定预算的最佳16选1方案，在提高最终答案准确率的同时，将token使用量最高减少了33.57%。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GRASP：基于多人非语言交互的社会推理学习

针对多模态大语言模型在多人视频中难以识别交互关系的问题，研究团队提出了GRASP数据集。该数据集包含29万个问答对，源自4.6万个视频共749小时，建立了涵盖注视、指示性手势及其组合推理的16类分类体系。同时发布配套评估基准GRASP-Bench，并提出社会情境奖励学习信号，利用这些细粒度事件引导模型推理交互参与者。实验表明，该方法提升了GRASP-Bench性能，并保持了在相关视频问答基准上的零样本能力。

多模态推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

PAGER：弥合点精确几何图形界面控制中的语义-执行鸿沟

研究针对需要点级精度的几何图形界面控制任务，揭示了现有视觉-语言模型存在的语义-执行鸿沟：通用模型动作类型准确率高但任务成功率极低。为此，我们构建了包含4,906个问题、超过22.4万次像素级动作的PAGE Bench基准，并提出了拓扑感知智能体PAGER。该智能体通过依赖结构规划与像素级执行分解任务，结合像素接地监督调优与精度对齐强化学习，将任务成功率提升至最强通用基线的4.1倍，步骤成功率从GUI专用智能体的不足9%提高到62%以上，实现了点精确GUI控制的新突破。

智能体多模态推理论文/研究

推荐理由：GUI agent一直绕着精确点击走，这篇直接硬碰硬，把成功率从6%拉到62%，做CAD自动化或工业软件的团队可以重点关注。

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

突破舒适区：面向RLVR的高效策略引导探索框架NudgeRL

强化学习与可验证奖励范式面临探索效率瓶颈。为此，研究团队提出NudgeRL框架，其核心是“策略助推”技术，通过为每次策略采样注入轻量级策略级上下文，引导模型产生多样化推理轨迹，无需依赖昂贵的外部监督。该框架进一步提出一个统一目标，将奖励分解为上下文间与上下文内组件，并通过蒸馏目标将有效行为迁移回基础策略。在五个高难度数学基准测试中，NudgeRL的表现优于标准GRPO方法，其效果相当于后者使用高达8倍采样预算的结果，且平均表现超过了依赖特权信息的Oracle引导基线，证明了结构化探索的高效性与可扩展性。

推理数据/训练论文/研究

推荐理由：NudgeRL 首次把结构化探索引入 RLVR，比 GRPO 节省 8 倍 rollout 预算，数学推理效果还更好。做 LLM 推理优化的团队，这篇值得复现。

05:47

HuggingFace Daily Papers（社区热门论文）

FlowCompile：结构化LLM工作流的优化编译器

研究者提出FlowCompile，一个从编译视角优化结构化大语言模型工作流的编译器。它在部署前全局探索工作流设计空间，通过将工作流分解为子智能体、分析其在不同配置下的性能，并利用结构感知代理组合这些结果，以估算工作流级的精度与延迟。该方法一次性生成一组覆盖不同精度-延迟权衡的可复用工作流配置，无需重新训练或在线调整。实验表明，FlowCompile在多种工作流和基准测试中均优于启发式优化与基于路由的基线方法，最高可实现6.4倍加速，其编译产出支持根据运行时偏好灵活部署及下游选择。

智能体推理论文/研究

03:18

Tomer Tunguz 博客（VC 分析）

精选65

AI电子邮件的成本分析

使用顶尖AI模型处理邮件的月度成本约为22至130美元，中位数26美元。若软件公司以75%毛利率定价，年费可能高达350美元，加上托管服务后标价或达500美元，约为Google企业邮箱费用的两倍。采用小型模型可降低成本10至20倍，而通过本地运行利用用户GPU，更能将成本削减至接近零。结合基础启发式方法和技术优化，总成本有望降低100倍。这种针对不同工作负载匹配模型并进行成本分层的推理市场细分，将是未来一两年AI软件发展的关键。

推理现象/趋势部署/工程

推荐理由：Tunguz 给 AI 邮件算了一笔账，SOTA 模型月费 22-130 美元，但他更重要的判断是推理分割可以把成本压到百分之一，这对做 AI 软件的定价逻辑是个关键风向。

5月14日

23:31

蚂蚁 inclusionAI：HuggingFace 新模型

精选59

蚂蚁 inclusionAI 推出万亿参数推理模型 Ring-2.6-1T

蚂蚁 inclusionAI 发布旗舰推理模型 Ring-2.6-1T，参数规模达万亿，面向智能体工作流、工程开发、科研分析等复杂场景。模型从“能回答”升级至“能执行”，在多步任务与工具协作中表现更优；支持 high/xhigh 两档推理强度，可灵活平衡效果与成本；采用异步强化学习结合 IcePop 算法提升训练效率。基准测试中，high 模式 PinchBench 得 87.60、ClawEval 63.82、Tau2-Bench 电信场景 95.32；xhigh 模式 ARC-AGI-V2 得 66.18、AIME 26 达 95.83、GPQA Diamond 88.27。上下文长度支持 128K 扩展至 256K（YaRN），已通过 HuggingFace 和 ModelScope 开放下载。

智能体开源/仓库推理模型发布

关联讨论 4 条

推荐理由：蚂蚁放出的万亿参数推理模型，Agent执行能力在PinchBench上超GPT-5.4，异步RL训练和可调推理强度对工程落地有参考价值，开源可试。

22:45

Hugging Face：Blog（RSS）

精选59

解锁连续批处理中的异步性

在连续批处理中，同步方式导致CPU与GPU交替工作，造成闲置浪费。测试显示，使用8B模型生成8K令牌时，GPU有24%的时间处于空闲状态。异步批处理通过分离工作负载，让CPU准备下一批次（N+1）的同时，GPU计算当前批次（N），从而消除闲置间隙。这可通过CUDA流实现操作并发，无需更改内核或模型，仅需协调硬件执行顺序。理论上，该方法可将总生成时间从300.6秒减少至228秒，实现24%的免费加速。相关技术已集成到transformers库的连续批处理中，显著提升推理性能。

Hugging Face 推理教程/实践部署/工程

推荐理由：文章手把手拆解了异步批处理如何用CUDA流和事件消除CPU与GPU的互相等待，把推理吞吐提升22%，搞推理优化的工程师值得细读。

21:45

The Decoder：AI News（RSS）

阿里巴巴的 Qwen-Image-2.0 将压缩率提升一倍，并将生成步骤从40步削减至4步

阿里巴巴发布图像模型 Qwen-Image-2.0，其图像压缩强度达到多数竞品的两倍。模型采用重新设计的Transformer架构以稳定训练，并配备专用模块，可将简短用户输入自动扩展为详细提示。其蒸馏版本仅需4步去噪即可完成图像生成，远少于通常的40步。在用户盲测平台LMArena上，该模型目前排名第9位。

图像生成推理模型发布

19:58

公众号：龙猫LongCat（美团）

美团 LongCat 开源 General 365：树立推理评测新标尺

开源/仓库推理评测/基准

18:46

HuggingFace Daily Papers（社区热门论文）

RealICU：超越行为模仿，评估LLM智能体对长上下文ICU数据的理解能力

RealICU是一个基于后见之明标注的基准，用于在真实ICU条件下评估大语言模型。它包含由资深医师审阅完整病程后创建的四项临床任务标签，并发布了RealICU-Gold（930个标注）和RealICU-Scale（11,862个标注）两个数据集。测试发现，现有LLM（包括记忆增强模型）表现不佳，暴露出临床推荐中的召回-安全权衡问题及对早期患者状态的锚定偏差。研究引入的ICU-Evo智能体虽能改进长程推理，但未能完全消除安全失误。该基准为高风险护理中AI序列决策支持提供了临床基础测试平台。

arXiv 推理论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

长上下文窗口下的思维链上下文学习研究：从检索缓冲到结构化课程

研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现，增加思维链示例数量主要惠及推理导向模型，而对非推理模型效果不稳定；基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效；示例顺序影响显著，性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习，并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法，在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。

arXiv 推理数据/训练论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

重访DAgger算法在长视野大语言模型智能体训练中的应用

研究将数据集聚合（DAgger）算法应用于长视野大语言模型智能体训练，以解决监督微调中的协变量偏移与强化学习反馈稀疏的困境。该方法通过学生与教师策略的逐轮插值收集交互轨迹，并利用教师提供的密集监督信号进行训练，使模型接触真实环境状态。在软件工程智能体训练中，经DAgger式训练的4B和8B学生模型在SWE-bench Verified基准上显著提升，最终4B智能体成功率超越已发布的代表性8B系统，8B智能体性能接近更强32B规模模型，验证了该方法的有效性。

智能体推理编码论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

MAP：一种面向长程交互式智能体推理的先建图后行动范式

针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题，本研究提出可插拔的先建图后行动范式（MAP）。该范式将环境理解前置，包含全局探索、任务特定建图与知识增强执行三个阶段，旨在突破认知瓶颈。实验表明，MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中，前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明，基于环境理解的训练优于单纯模仿专家轨迹，验证了先理解环境的核心价值。

智能体推理论文/研究

09:40

IT之家（RSS）

雷军谈小米自动驾驶模型 Xiaomi OneVL：业内率先通过潜空间推理将 VLA、世界模型统一到一套框架

小米技术正式发布并开源一步式潜空间语言视觉推理框架Xiaomi OneVL。该框架在业内率先通过潜空间推理，将视觉语言动作模型与世界模型统一到同一套框架中。在推理、规划等多个主流基准上，该模型全面刷新了潜在推理方法的性能上限，在精度上超越显式思维链方案，在速度上对齐“仅答案”预测的潜空间思维链方案。小米已全面开源其模型权重及训练、推理代码。

多模态开源生态推理模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

视频模型可通过可验证奖励进行推理

研究人员提出VideoRLVR方法，利用基于规则的反馈优化视频扩散模型，使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹，核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中，Early-Step Focus策略通过将优化集中在早期去噪阶段，减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中，VideoRLVR显著优于监督微调基线，尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型，表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EndPrompt：通过末端锚定高效扩展长上下文

传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练，计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文，其核心是将原始短上下文作为第一段，附加一个简短的末端提示作为第二段，并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离，同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式，表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时，EndPrompt在LongBench上平均得分最高（76.03），超越LCEG、LongLoRA等方法，且计算量更少，证明长上下文泛化可从稀疏位置监督诱导，挑战了密集训练的必要假设。

arXiv 开源/仓库推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

GQLA：面向硬件自适应的大语言模型解码的分组查询潜在注意力

本研究提出分组查询潜在注意力（GQLA），对DeepSeek-V2/V3中的多头潜在注意力（MLA）进行最小修改，使其在一套权重上暴露两种等效解码路径：与MLA相同的MQA吸收路径，以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径，无需重新训练。单一的GQLA权重能同时适配H100（采用MQA吸收）与H20（采用GQA及多令牌预测）的硬件性能上限，并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA，可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明，其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%，同时在分组路径上结构性保留了GQA级别的流量效率。

DeepSeek 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Learning from Failures：基于可验证奖励的纠错导向策略优化

研究提出了一种名为纠错导向策略优化的新方法，用于增强大型语言模型的推理能力。该方法将训练中产生的失败轨迹自动转化为纠错样本，并与标准的可验证奖励强化学习目标联合优化。在涵盖数学推理和代码生成的11个基准测试中，该方法在推理和纠错性能上均显著超越现有基线。实验表明，该方法能提升模型的内在推理能力，而不仅仅是重新分配已有正确答案的概率质量，具体体现在更强的pass@K增益上。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Solvita：通过智能体演化增强大语言模型的竞技编程能力

Solvita 是一个无需更新底层大语言模型权重的智能体演化框架，旨在提升模型在竞技编程中的推理能力。它将解题过程重组为由 Planner、Solver、Oracle、Hacker 四个专用智能体执行的闭环系统。每个智能体配备一个可训练的图结构知识网络，系统运行时产生的通过/失败结果、测试质量与对抗漏洞等信号，会转化为对这些网络的强化学习更新，使智能体能基于历史经验动态路由后续查询，持续积累可迁移的推理经验。在多个基准测试及实时编程比赛中，Solvita 在代码生成智能体中取得了新的最优性能，显著超越了现有方法。

智能体推理编码论文/研究

04:42

Berkeley RDI：Blog（AI 安全与评测）

同事件精选79

ExploitGym：AI智能体能否将安全漏洞转化为真实攻击？

由伯克利RDI、马克斯·普朗克安全与隐私研究所、Anthropic、OpenAI及谷歌等机构研究人员组成的团队，发布了名为ExploitGym的新基准测试。该测试包含898个真实漏洞，要求AI智能体根据漏洞描述生成完整的漏洞利用程序。结果显示，前沿AI模型已能成功利用相当数量的漏洞，即使在启用ASLR等标准防御措施后，部分攻击仍能成功。这证明AI已具备自主将漏洞转化为实际攻击的能力，该技术具有双重用途：既可帮助防御者评估漏洞严重性，也可能降低攻击者的技术门槛。

智能体 Anthropic OpenAI 安全/对齐

同一事件，精选展示《Anthropic 联合研究者测量 Claude Mythos Preview 漏洞利用能力》

推荐理由：顶级 AI 模型已能自己把已知软件漏洞变成可运行攻击代码，连 ASLR 等标准防御都挡不住部分攻击，研究更发现模型会主动寻找更危险的意外漏洞。安全行业不能再把这当成假设性问题了。

02:44

HuggingFace Daily Papers（社区热门论文）

精选73

解决循环：语言和推理的吸引子模型

吸引子模型解决了循环Transformer训练不稳定、成本高和深度固定的问题。它通过主干模块生成初始输出嵌入，吸引子模块迭代优化固定点，并利用隐式微分计算梯度，使训练内存与有效深度无关，迭代次数自适应收敛。在语言建模中，相比标准Transformer，困惑度最高降低46.6%，下游任务准确率最高提升19.7%，训练成本更低；一个770M参数的模型性能优于1.3B参数Transformer。在推理任务中，仅2700万参数模型在约1000个示例下，于Sudoku-Extreme和Maze-Hard上准确率分别达91.4%和93.1%，优于Claude、GPT o3等前沿模型。模型还展现出均衡内化现象，训练后初始输出嵌入接近均衡态，推理时可移除求解器而性能几乎无损，实现了迭代优化的可扩展性。

推理数据/训练论文/研究

推荐理由：这可能是要改写语言模型训练范式的架构，把迭代推理变成可学习的固定点，770M 性能超 1.3B Transformer，27M 小模型解数独秒杀 Claude、GPT o3。最反直觉的是，训练后模型能内化迭代过程，推理时直接一步到位。

01:44

HuggingFace Daily Papers（社区热门论文）

快与慢的学习：面向持续适应的大语言模型

研究团队提出一种面向大语言模型的快慢学习框架，将模型参数视为“慢”权重，优化的上下文视为“快”权重。该框架结合了参数更新与上下文学习的优势：快权重通过文本反馈快速吸收任务特定信息，而慢权重则保持接近基础模型以维护通用推理能力。在推理任务中，该方法比仅使用慢学习（如强化学习）的样本效率高出3倍，且达到更高性能上限。同时，训练后的模型更接近基础模型（KL散度降低达70%），显著缓解了灾难性遗忘，并保持了模型的可塑性，使其在持续学习场景中能更有效地适应后续新任务。

推理数据/训练论文/研究

5月13日

21:44

HuggingFace Daily Papers（社区热门论文）

UniPath：面向统一多模态推理的理解与生成自适应协调框架

针对统一多模态模型中理解与生成能力的协调问题，研究团队提出UniPath框架。该框架的核心是识别并利用“协调路径多样性”，即针对不同输入动态选择最优推理路径，而非采用固定模式。路径选项包括直接回答、文本推理、视觉思维构建及假设探索。UniPath通过角色对齐轨迹训练路径条件执行器，并引入轻量级规划器实现输入依赖的路径选择。实验表明，该方法在性能上超越了固定协调策略，同时提供了可解释的中间行为。代码已开源。

多模态推理论文/研究

18:44

HuggingFace Daily Papers（社区热门论文）

Multi-Stream LLMs：通过并行思维、输入与输出流解锁语言模型

研究提出将语言模型从单一顺序消息处理转向多并行计算流架构。模型在每个前向传播中同时从多个输入流读取，并向多个输出流生成令牌，所有流均因果依赖于先前时间步。这一数据驱动的变革解决了现有智能体无法在阅读时行动、在行动时响应新信息等阻塞问题，同时通过并行化提升了模型效率，通过更好的关注点分离增强了安全性，并改善了模型的可监控性。

智能体推理论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

AlphaGRPO：通过可分解可验证奖励解锁统一多模态模型的自反思生成能力

本文提出AlphaGRPO框架，将分组相对策略优化应用于AR-Diffusion统一多模态模型，无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理（如推断用户隐含意图）和自反思优化（自主诊断并修正生成错位）的内在潜力。针对实际监督难题，团队设计了可分解可验证奖励机制，利用大语言模型将复杂请求分解为原子化、可验证的子问题，再通过通用多模态大模型评估，提供可靠且可解释的反馈。实验表明，AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。

图像生成多模态推理论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

超越GRPO与策略蒸馏：语言模型后训练中稀疏到稠密奖励的实证原则

研究提出一种基于奖励密度的数据分配原则：在标注数据稀缺时，应将稀疏的序列级奖励用于强化上游大模型的探索能力，再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示，在固定部署学生模型为Qwen3-1.7B的情况下，先对8B教师模型进行强化学习改进，再通过稠密蒸馏传递至学生模型，其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略，而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。

推理数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

企业系统是否需要学习型世界模型？上下文对推断动态的重要性

企业系统的动态规则常因租户业务逻辑差异与演变而多变，导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”，通过在运行时读取系统配置来实时发现动态规则，而非仅依赖内部固化模型。同时，推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明，离线模型在分布内表现良好，但随规则变化性能下降；而基于发现的代理通过将预测锚定于当前实例，在部署偏移下展现出更强稳健性。结论认为，在可配置的企业环境中，智能体应结合运行时动态发现机制。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

KVServe：面向服务的KV缓存压缩实现高效通信的分布式LLM服务

在分布式LLM服务中，KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置，无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架，它统一了压缩策略空间，通过贝叶斯分析引擎将离线搜索开销降低50倍，并部署在线控制器动态调整策略。集成至vLLM后，KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速，在KV分离服务中实现最高32.8倍的首token生成时间缩短。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Physics-R1：一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程，发现了三个未被察觉的构建问题：训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题，团队发布了四个关键成果：经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A，以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3，在PhysReason上提升至39.6，超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv 多模态推理数据/训练