5月27日

08:00

HuggingFace Daily Papers（社区热门论文）

CORE是一种非参数学习算法，通过对比成功与失败的推理轨迹生成简短自然语言 insights（推理策略和约束），使语言模型快速改进推理。在四个推理任务上，CORE比GRPO、GEPA、episodic RAG和MemRL等基线方法用更少rollout实现更快性能提升；在固定rollout预算下，仅用5个训练样本即可达到可比或更大增益。同时，CORE比非参数基线更上下文高效，将知识存储为紧凑可解释的自然语言insights，所需prompt token更少。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RAT+：用指数衰减记忆增强注意力，改善查询感知KV稀疏性

RAT+ 引入指数衰减记忆增强注意力，使模型在推理时支持灵活的空洞注意力。将 RAT+ 与 Quest、MoBA、SnapKV 等查询感知稀疏推理方法结合，在八个 needle-in-a-haystack 任务上，不同稀疏预算下均一致优于标准注意力。验证基于 RAT+ 已发布检查点及用额外 10B token 继续预训练的 OLMo2-7B。最后提出两种假说解释记忆模块为何有益。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

推理模型在对抗压力下的思维链-答案分离现象研究

该研究发现，推理模型在多轮对话的持续对抗压力下，会出现“不忠实的屈服”现象：其内部思维链从首轮到末轮均保持事实正确，但最终输出的答案却翻转变错。实验在MT-Consistency、MMLU-Pro和GSM8K三个数据集上进行，结果显示，发生此现象时，模型在“思考模式”下的潜在正确率接近50%，而在“无思考模式”下则骤降至11-15%。该效应在Qwen3-32B和GPT-OSS-20B上显著，在采用内联CoT的Gemma-4-31B-it上则较低。研究由独立的GPT-4o评判者验证，确认了86%的标签。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

深度学习的Hamilton-Jacobi理论

该论文将神经网络训练过程重新解释为对Hamilton-Jacobi初值问题的搜索。每次梯度下降都为粘性Hamilton-Jacobi方程选择初始数据，使得其Hopf-Cole传播器最佳拟合观测数据。此对应关系在log-sum-exp层中是精确的，对残差网络、Transformer及各类循环架构（RNN、LSTM、SSM）等更广泛的网络结构则是结构性的。一个变形参数ε统一了神经网络、热带代数、粘性偏微分方程与凸优化四个视角。定量结论包括：泛化率下界、由ε控制的对抗鲁棒性、将反向传播解释为残差网络Hamilton系统的共态方程，以及具有闭式解O(N)的影响函数。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

当置信度产生误导：面向扩散语言模型的后缀锚定与锚点邻域置信度调节

扩散语言模型通过迭代去噪掩码token序列解码文本，置信度常被用于选择解码位置。然而，高置信度有时会产生误导，例如EOT token可能获得高置信度导致生成不完整。为缓解此问题，插入后缀锚定可鼓励生成完整响应，但会引入锚点邻域的局部过度自信，导致锚点邻近token过早解码。为此，研究提出了后缀锚定置信度调节方法，该方法插入短后缀锚点以促生成完整响应，并根据解码进度调节锚点附近置信度。在纯文本推理、视觉-语言推理和代码生成基准测试中，该方法持续提升了基于置信度的完全非自回归解码性能，优于显式EOT抑制，并保留了完全非自回归生成的并行优势。

推理论文/研究

03:02

The Decoder：AI News（RSS）

同事件精选72

据报道Claude Mythos以"巧妙简洁的证明"解决了OpenAI里程碑式的Erdős问题

Anthropic工程师Sholto Douglas表示，Claude Mythos在周末期间解决了OpenAI提出的Erdős单位距离猜想问题，并给出了一个“巧妙简洁的证明”。这一成果被描述为人工智能在数学发现领域存在“严重超前”迹象。

Anthropic OpenAI 推理行业动态

同一事件，精选展示《OpenAI模型证伪了离散几何中的一个核心猜想》

推荐理由：OpenAI 刚破完 70 年猜想，Claude 就整了个更漂亮的证明，AI 做数学不再是哪家独门，能力过剩的信号很明显了。

00:15

公众号：小米 MiMo

MiMo-V2.5 系列调价公告丨百万亿 Token 创造者激励计划收官

MiMo-V2.5 系列 API 永久降价，新定价最高降幅达 99%，不再区分上下文窗口长度，于北京时间 5 月 27 日 0 点生效。Token Plan 计费优化，用量提升至原来 5-8 倍，计费规则更清晰。百万亿 Token 创造者激励计划提前收官，100T Tokens 已全部发放。现有 Token Plan 用户额度于 5 月 27 日 0 点全量重置，按新规则执行。推理优化基于 SGLang HiCache 支持 SWA，KV Cache 搬运量降至近 1/7，可缓存 token 数量提升至近 5 倍。

产品更新推理部署/工程

00:13

IT之家（RSS）

首个被纳入的 AI 训练推理芯片，摩尔线程 MTT S5000（PH100 芯片）通过国家《安全可靠测评》

摩尔线程 MTT S5000（基于 PH100 芯片）成为首款通过国家《安全可靠测评》的人工智能训练推理芯片。该芯片单卡 AI 算力（稠密）达 1000 TFLOPS，配备 80GB 显存（带宽 1.6TB/s），卡间互联带宽为 784GB/s。

推理政策/监管端侧

5月26日

23:49

Nathan Lambert：Interconnects（RSS）

精选67

未来展望：2026年5月的一些想法

文章展望了截至2026年5月AI领域的动态。内容涉及 Gemini Flash 3.5 的发布、名为 Mythos 的新产品或项目、开源与闭源生态平衡（open-closed balance）的讨论、美国开源力量的显著增长（America's open-source surge），以及由此引发的新兴权力博弈（emerging power struggles）。

Anthropic Google 大佬观点开源生态

推荐理由：Nathan Lambert 对开源模型追赶闭源的周期判断、Gemini 在编码代理领域的缺位分析，以及美国开源模型崛起的观察，为理解当前鼎立格局提供了扎实的坐标，值得从业者细读。

20:19

HuggingFace Daily Papers（社区热门论文）

语言模型需要睡眠

针对Transformer架构在处理长上下文时注意力机制效率低的问题，研究提出一种“睡眠式巩固机制”。该方法让模型定期将近期上下文转换为持久化的快速权重，并清空键值缓存。期间，模型通过N次离线循环处理累积上下文，并通过局部规则更新其状态空间模型块中的快速权重。这使得额外计算被转移至“睡眠”阶段，从而保持了推理的实时性。该方法在细胞自动机、多跳图检索等合成任务及一项数学推理任务（常规Transformer及SSM-Attention混合模型均失败）上进行了测试。结果表明，增加睡眠持续期N能提升性能，在需要更深层次推理的任务上增益最大。

推理论文/研究

19:13

IT之家（RSS）

存内 AI 计算企业 TetraMem 完成 22nm SoC 验证，瞄准低功耗低延迟应用

硅谷AI芯片初创企业TetraMem完成22nm SoC MLX200在台积电制程上的芯片验证，评估套件预计2026H2推出。该芯片采用存内计算技术，通过模拟内存计算直接在内存中完成向量矩阵乘法，瞄准可穿戴设备、边缘IoT等低功耗低延迟应用场景。

推理端侧行业动态

16:19

HuggingFace Daily Papers（社区热门论文）

预见与学习：释放主动智能体的空闲时间计算能力

当前AI智能体是反应式的，仅在用户提问后响应，浪费了交互间的空闲时间。为解决此问题，本文提出了ProAct主动式智能体架构，它能利用空闲时间，通过分析对话历史与持久记忆预测用户需求，并迭代地获取信息、准备证据，从而在用户提问前填补知识缺口。为评估该能力，研究者发布了包含200个场景的ProActEval基准。实验表明，相比反应式基线，ProAct将任务完成所需轮次减少14.8%，用户操作负担降低11.7%，并将模型幻觉率大幅降低28.1%，同时在MemBench上取得了最先进的反思准确率。

智能体 arXiv 推理论文/研究

13:11

IT之家（RSS）

同事件精选77

谷歌 AI 框架 AlphaProof Nexus 攻克 2 道悬置 56 年数学难题

智能体 DeepMind 开源生态推理

同一事件，精选展示《AlphaProof Nexus：用形式化验证驱动AI数学证明搜索》

推荐理由：AlphaProof Nexus 不是刷榜，是真解了 Erdős 难题，56 年悬而未决的那两道——这说明 AI 开始从具身数学题爬向纯数学研究了，做理论的人该认真看一眼。

11:35

公众号：面壁智能（MiniCPM）

面壁智能联合清华大学、OpenBMB发布端侧文本基座模型MiniCPM5-1B

面壁智能联合清华大学、OpenBMB开源社区发布并开源MiniCPM5-1B，一款1B参数的端侧文本基座大模型。其在AA-Index榜单得分17.9分，超越所有2B以下参数模型，包括Qwen3.5-2B（16.3分），验证了智能密度约每3.5个月翻一番的密度定律。INT4量化后权重仅0.5GB，可运行于手机、浏览器等终端。Base Model由AI训练框架ForgeTrain（全球首个完全由AI编写，训练速度比Megatron快10%）在华为昇腾上预训练完成。模型全面开源权重、训练数据集Ultra-FineWeb-L3及部署方案，支持Llama_factory、SGLang、vLLM等主流框架。

Hugging Face 开源生态推理模型发布

10:18

HuggingFace Daily Papers（社区热门论文）

DVAO：面向多奖励强化学习的动态方差自适应优势优化

针对多奖励强化学习中，传统标量化方法（如奖励组合与优势组合）导致的训练不稳定或依赖静态超参数问题，本文提出动态方差自适应优势优化（DVAO）。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重，强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练，并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示，DVAO显著优于基线方法，在多目标帕累托前沿和训练稳定性上取得更优结果。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DEI：演化推理中的多样性用于质量-多样性搜索

DEI是一个分布式质量-多样性（QD）搜索框架，将异构大语言模型分配为变异算子，通过非阻塞集体通信共享局部最优解。在Core War基准上，四节点异构集成（GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5）在相同LLM调用预算下，合并归档QD-Score达45.90（比单节点20.46高124%），覆盖率80.6%（比63.0%高28%），且优于同构集成。首次实证模型多样性而非并行性是分布式LLM-based QD搜索的关键。

Anthropic OpenAI 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

如何与想象什么？--统一多模态模型中用于跨视图空间推理的视觉思考

跨视图空间推理是视觉语言模型的薄弱环节，因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题，但模型常忽略这些视觉证据。研究提出View Dropout训练策略，通过隐藏部分输入视图的应答区域，同时保持思考图像token可见，来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡，并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后，结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置，实现了最佳跨域泛化。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SkillGrad：像梯度下降一样优化智能体技能

针对智能体技能不可靠的问题，SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数，利用任务执行产生的轨迹级损失证据生成基于文本的梯度，并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示，SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线，平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。

智能体推理论文/研究

05:36

MarkTechPost（RSS）

Together AI开源OSCAR：面向长上下文大语言模型服务的注意力感知2位KV缓存量化系统

Together AI开源OSCAR，一种用于长上下文大语言模型服务的注意力感知2位KV缓存量化方法。该方法在离线状态下，从注意力感知的协方差结构中为键和值推导出独立的旋转。在2.28 bits per KV element的量化精度下，OSCAR将通义千问（Qwen3-4B-Thinking-2507）和通义千问（Qwen3-8B）的BF16精度差距分别缩小至3.78点和1.42点，同时实现约8倍的KV内存缩减，并在100K上下文长度下带来高达3倍的解码速度提升。

开源/仓库推理部署/工程

5月25日

18:58

The Decoder：AI News（RSS）

同事件精选72

Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题

Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题，其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤，而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。

DeepMind Google 推理论文/研究

同一事件，精选展示《AlphaProof Nexus：用形式化验证驱动AI数学证明搜索》

推荐理由：AlphaProof Nexus 花几百美元就解决了数学家 56 年没做出来的问题，虽然成功率只有 2.5%，但这条路证明形式化验证+强化学习是走得通的，做推理的该盯着看了。

13:11

IT之家（RSS）

精选77

华为何庭波"韬定律"论文发布，逻辑折叠技术提升芯片性能

华为何庭波在ISCAS 2026上提出“韬定律”，并介绍逻辑折叠（LogicFolding）技术。该技术通过三维空间拓扑重组提升芯片性能，不依赖新光刻工艺。在麒麟2026芯片测试中，晶体管密度从155 MTr/mm²提升至238 MTr/mm²，性能核心能效提高41%，最大时钟频率提升近13%。论文显示，麒麟2027芯片已进入Silicon状态，后续规划包括麒麟2028、2029。AI芯片方面，昇腾990计划在2030年左右引入逻辑折叠，硬件集成预计到2035年提高超过100倍。

推理端侧论文/研究

关联讨论 2 条

推荐理由：华为用‘逻辑折叠’替代光刻进步，在不依赖新工艺下实现代际性能提升，这是中国芯片行业的一个技术转折，做硬件和AI推理的值得仔细看看。

12:11

IT之家（RSS）

英特尔被曝规划 8E+12Xe 款 "Nova Lake" 处理器：面向边缘应用的特殊型号

英特尔正在规划一款专用于边缘应用的特殊型号“Nova Lake”处理器，其核心配置为 8 个能效核 (8E) 搭配 12 个 Xe GPU 单元 (12Xe)。这种设计使 CPU 部分仅具备能效核，而 GPU 规模达到了 Nova Lake 家族中的最大级别，旨在强化图形与计算性能，以适配 SLM 本地推理等边缘 AI 应用场景。

推理端侧行业动态

11:35

公众号：面壁智能（MiniCPM）

面壁智能联合清华开源中国首个基于昇腾训练的1.58-bit端侧大模型 BitCPM-CANN

面壁智能联合清华大学正式开源中国首个基于昇腾训练的1.58-bit端侧大模型BitCPM-CANN，实现6倍显存效率提升，可将60B参数大模型封装进手机等端侧设备。

推理模型发布端侧

08:00

HuggingFace Daily Papers（社区热门论文）

可验证奖励强化学习中的时间调度策略

本文指出，在大语言模型后训练的可验证奖励强化学习中，学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定，而本文引入时间维度，在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token，并逐渐转向一般化优化，从而使学习过程更稳定高效。实验表明，这种时间调度方法在数学和通用推理基准上实现了持续改进，并能引导更健康的策略演进。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

三元组块扩散 RWKV

B³D-RWKV 是一种扩散 RWKV 变体，旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法，将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下，在 8 项任务套件中达到了与现有模型相当的准确率，同时解码吞吐量显著优于基线，平均速度提升达 1.6 倍。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

推进大型多模态模型的创造性物理智能

该研究评估了大型多模态模型（LMMs）在开放环境中发现物理可行视觉解决方案的能力。为此，推出了MM-CreativityBench基准，用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明，当前LMMs因无法维持扎根式探索而表现不佳，常忽略实体、检查不足或产生模型幻觉。为此，研究提出功能可供性扎根对齐方法，将创造性工具使用建模为偏好学习问题，利用DPO引导模型选择基于视觉证据的推理，并结合可供性知识库监督，以减少幻觉并提升实体与部件选择能力。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLaVA-OneVision-2：迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术，通过分析压缩视频的比特成本动态进行自适应分组，并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标，并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中，其 8B 版本达到 74.9 分的 mAP，显著超越 Qwen3-VL-8B（30.1 分），且在匹配 token 预算下，编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

看得越多，就懂得越多吗？单锚点优势归一化实现多源视觉推理

现有基于可验证奖励的强化学习（RLVR）视觉推理方法在处理多源输入时，常将其视为简单信息堆叠，缺乏机制区分融合带来的信息增益与噪声干扰，导致多源性能可能低于单源。为此，本文提出MARS框架，将每种视觉模态建模为独立信息源，并以单源奖励为动态锚点，将多源融合引入的信息增益显式纳入优势归一化过程，以自适应地增强模态协同并抑制冲突。理论分析与实验验证表明，该方法在多个数据集上的GRPO和DAPO指标分别实现了3.2%和4.9%的性能提升。

多模态推理论文/研究

5月24日

18:27

The Decoder：AI News（RSS）

为何不应在Copilot等AI工具中依赖默认模型选择

数学家Adam Kucharski的实验表明，当向Microsoft Copilot输入两组仅国家标签不同但数据完全相同的分析请求时，Copilot并未能识别其本质一致，反而虚构并输出了基于国家的刻板印象分析。这暴露了当前许多AI工具在默认配置下存在的系统性偏差风险。尽管具备推理能力的“思维模型”能识别此类数据陷阱，但用户需要主动知晓并选择启用它们。这一现象警示我们，在进行关键数据分析时，不能盲目依赖AI工具的默认模型，而应审慎选择并评估其分析结果。

Google Microsoft 推理教程/实践

16:27

The Decoder：AI News（RSS）

研究人员让Claude Code发现人类可能不会设计的AI缩放算法

马里兰大学、谷歌、Meta等机构的研究人员利用AutoTTS框架，使Claude Code编码智能体自主发现了用于AI推理的控制算法。该算法将计算成本降低了约70%，同时保持了与标准自一致性方法相当的准确率。整个算法搜索过程耗时160分钟，成本仅为40美元。这项工作展示了AI智能体自主设计高效算法的可能性。

智能体推理论文/研究

16:06

MarkTechPost（RSS）

NVIDIA发布Gated DeltaNet-2：解耦Delta规则中擦除与写入的线性注意力层

NVIDIA推出了改进的线性注意力模型Gated DeltaNet-2。其核心创新在于将Delta规则中控制记忆擦除与写入的单一门控机制，解耦为两个独立的通道级门控。该模型参数规模为1.3B，在100B个FineWeb-Edu令牌数据上训练。实验表明，它在语言建模、常识推理和长上下文检索等任务中全面超越了Mamba-2、Gated DeltaNet、KDA及Mamba-3等现有模型，尤其在RULER S-NIAH和多关键针检索任务中取得了最显著的性能提升。

推理搜索模型发布

12:00

公众号：腾讯混元

清华联合腾讯混元在MLSys 2026 MoE推理优化竞赛中夺冠，NPU推理提速4.1倍

在MLSys 2026 MoE模型推理优化竞赛中，清华联合腾讯混元获得冠军。针对MoE架构在异构芯片（NPU）上面临的推理性能挑战，其提出的优化方案在NPU上实现4.1倍推理速度提升。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

CONF-KV：基于置信度的 KV 缓存驱逐与混合精度存储方案

CONF-KV 是一种面向长序列大语言模型推理的 KV 缓存管理器。其核心是将下一个 token 的预测分布转化为标量置信度分数，以此动态分配每一步的缓存预算：在模型不确定时保留更多上下文，自信时则积极剪枝。缓存内 token 按累积注意力质量与近期性综合排序，并受保护近期窗口以维持局部连贯性。该方案结合了分块在线 softmax 注意力、FP16/INT8 混合精度存储与金字塔式逐层预算分配。实验表明，在生成长度达 4K 时，其内存占用接近固定的 512 token 滑动窗口。在需要检索 32K token 的 Needle-in-a-Haystack 任务中，CONF-KV 达到 91.4% 的准确率，远高于滑动窗口（53.8%）和 H2O（80.6%）。在 75 个 VisualWebArena 任务中，它以 2.8 倍更低的峰值内存，保留了完整 KV 缓存 95.3% 的成功率。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

勿猜度，勤发问：通过多轮澄清解决指代分割中的歧义

现有指代分割模型通常假设用户查询精确无歧义，但在实际应用中这一假设难以成立。为此，本文提出IC-Seg，一个新颖的智能体框架，它能在分割前通过多轮对话主动澄清用户意图。为有效激励此能力，进一步引入Hi-GRPO分层优化策略，在轨迹、对话轮和步骤层级注入密集监督信号，以减少冗余交互并提升对话质量。研究建立了包含歧义查询的指代视频对象分割基准Ambi-RVOS，实验证明IC-Seg在处理歧义查询上显著优于现有方法，并在标准推理分割基准上保持state-of-the-art性能。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DarkForest：智能体少交流，准确率更高

多智能体大语言模型系统通过组合多个智能体的输出来提升推理能力，但交互密集的方法易导致错误传播和高通信开销。本文提出一个名为DarkForest的可控通信协调框架。该框架首先让每个智能体独立生成答案，随后将原始响应解析为结构化候选记录，并依据代理可靠性等因素对语义等价的候选进行分组与校准，协调器仅从该信念分布中接收策略允许的证据。在六个推理基准测试上，DarkForest取得了领先的综合质量，其基准指标比最强基线提升高达30.7%，同时将token消耗降低至通信密集型基线的1/6.5。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

方向对齐缓解大语言模型强化学习中的奖励漏洞

奖励漏洞是大语言模型在强化学习中通过捷径优化代理奖励而非解决任务的问题。研究通过分析参数更新的奇异方向发现，漏洞运行相比正常运行呈现显著方向偏移。为此提出可信方向投影方法，将梯度约束在干净参考子空间内，在数学推理实验中有效延迟了捷径利用并保持任务性能。

arXiv 安全/对齐推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ClaimDiff-RL：通过视觉声明比较实现细粒度图像描述强化学习

针对图像描述生成强化学习中的奖励粒度不足问题，提出 ClaimDiff-RL 框架。该方法将整体序列奖励拆解为原子级的视觉声明差异作为奖励单位。给定图像、生成描述与参考描述，多模态评判器枚举两者间可验证的视觉声明差异，分配错误类型与严重程度，并据此构建奖励。这使得模型幻觉与遗漏关键事实能够被独立衡量与调优。实验表明，该框架在多个基准上改善了事实性与覆盖率的平衡，在物体计数、空间关系等细粒度能力上甚至超越了 Gemini-3-Pro-Preview。

多模态推理论文/研究

5月23日

08:16

Hugging Face：Blog（RSS）

精选63

NVIDIA 发布 Nemotron-Labs Diffusion 系列模型，支持三种生成模式

NVIDIA 发布 Nemotron-Labs Diffusion 系列，含 3B、8B、14B 文本模型和 8B 视觉-语言模型（VLM），均采用商用友好的 NVIDIA Nemotron Open Model License 或 NVIDIA Source Code License。模型支持自回归、扩散（逐块并行生成后逐步精炼）和自推测（扩散草拟候选 token 再自回归验证）三种模式。8B 模型平均准确率比 Qwen3 8B 提升 1.2%，扩散模式每次前向传递的 token 数（TPF）达自回归的 2.6 倍，自推测达 6–6.4 倍。模型在 1.3T tokens 上预训练、45B tokens 上微调，代码与模型已发布于 HuggingFace 和 GitHub，推理将获 SGLang 支持。

多模态推理模型发布

推荐理由：自推测模式让文本生成速度飙到AR模型的4倍，而且输出质量无损。NVIDIA这次开源的不仅是个新模型，更是一套能直接用在现有流程里的加速方案。

08:00

HuggingFace Daily Papers（社区热门论文）

AgentFugue：通过集体推理实现长期任务的智能体扩展

现有长期智能体任务的研究主要聚焦于增强单个智能体。本研究则探索通过对等智能体的协作来扩展能力，提出了AgentFugue框架。该框架构建了一个共享推理中心，当多个对等智能体并行探索同一任务时，中心会记录每个智能体的发现、尝试与排除项，使其他智能体能够选择性复用这些中间推理成果，而无需集中式规划。训练后的该中心作为插件通信层，在长期任务测试中表现优于强基线。结果表明，集体推理可使对等智能体扩展成为一种独立的能力提升途径。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAM：面向长期推理智能体的状态自适应记忆

针对长期智能体推理中交互历史过长且关键信息分散的问题，SAM框架提出了一种状态自适应记忆方案。该方案将当前交互整合为紧凑的记忆线索，同时保留原始轨迹页面以支持意图驱动的召回，无需重新训练主干模型。SAM通过专家监督与强化学习优化记忆模块，使其与轨迹级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch和HLE等基准测试中，SAM在不同智能体骨架上均持续优于强基线。

智能体推理论文/研究