6月5日

08:00

HuggingFace Daily Papers（社区热门论文）

MemDreamer：通过层次化图记忆与智能体检索机制解耦感知与推理的长视频理解

MemDreamer 是一个即插即用框架，将长视频理解转化为智能体探索过程。它增量式处理视频，构建三层层次化图记忆（Hierarchical Graph Memory），用于语义抽象并捕获时空与因果关联。推理时，智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上，MemDreamer 达到 SOTA 效果，将人类专家差距缩小至 3.7 分，推理上下文窗口仅占全量输入的 2%，同时带来 12.5 个百分点的绝对准确率提升。统计分析发现，VLM 的逻辑推理能力与长视频理解性能呈强正线性相关，智能体能力扩展成为多模态理解新范式。

智能体多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DuMate-DeepResearch：具有递归搜索与准则推理的多智能体可审计深度研究框架

DuMate-DeepResearch 基于千帆智能体工厂构建，将负责任务理解、规划与调度的 Agent Core 与可扩展工具生态解耦，使中间决策与工具调用可追溯。框架引入三种机制：基于图的动态规划策略实现研究路线图由粗到细扩展与持续修正；递归两层执行将复杂搜索子任务委托给内层 Search Agent，隔离噪声并稳定长程执行；基于准则的测试时优化动态生成质量标准，作为证据合成与自适应停止的推理支架。在 DeepResearch Bench 和 DeepResearch Bench II 上分别取得 58.03% 和 61.95% 的最高总分，并在信息召回与分析维度排名第一。

智能体推理搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

论在线策略蒸馏的几何特性

研究对比了在线策略蒸馏（OPD）与监督微调（SFT）及带可验证奖励的强化学习（RLVR）在参数空间中的更新轨迹。OPD的更新影响更少权重，更强地避开主方向，且约束比RLVR松弛。OPD表现出子空间锁定：累积更新快速进入低维通道，且锁定子空间对OPD功能足够。控制实验表明，稀疏化更新token或off-policy生成不改变秩动态，而混合RLVR目标会改变。结论：OPD并非SFT与RLVR的中间点，而具有自身独特的更新几何。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于MLLM的人类视角视频理解：观看、记忆、推理

该综述从人类视角审视基于多模态大语言模型的视频理解，将其组织为观看、记忆、推理三项核心能力。论文提出统一框架，通过感知表征、记忆状态、推理轨迹和最终预测刻画系统，识别了时空感知、高效长视频处理、记忆建模、流式理解及忠实推理等关键挑战。工作梳理了细粒度/全面/音视频/高效感知（观看）、离线与流式记忆（记忆）、纯文本与视频思维推理（推理）的方法，覆盖自我中心、体育、教学、医学、叙事等应用，并整理了训练数据集与评估基准，最后指明可扩展、记忆感知和证据驱动的视频智能等开放问题。

arXiv 多模态推理视频

06:17

Hacker News 热门（buzzing.cc 中文翻译）

KVarN：华为开发的用于 KV-cache 量化的原生 vLLM 后端

华为发布 KVarN，一个原生 vLLM 后端，专门用于键值缓存（KV-cache）量化。项目已在 GitHub 上公开，在 Hacker News 上获得 100 点热度。

开源/仓库推理部署/工程

01:50

HuggingFace Daily Papers（社区热门论文）

上下文多实例学习

多实例学习（MIL）解决监督信号仅存在于包级别的问题，现有算法在低标注数据场景下表现不佳。本文提出在合成数据上预训练一个基于Perceiver架构的上下文学习器，能通过少量标注包解决新任务，推理时仅需单次前向传播，无需梯度更新。研究比较了多种包结构合成数据生成器，发现其互补的归纳偏置经混合预训练后能继承各自优势，在12个MIL基准测试上取得平均最佳性能，超越需要任务特定训练的监督基线。

推理数据/训练论文/研究

6月4日

22:43

HuggingFace Daily Papers（社区热门论文）

DAR：道义推理与智能体框架

DAR（Deontic Agentic Reasoning）是一种让模型按需与法规交互的智能体推理设置，用于解决应用规则和策略回答具体事实问题的道义推理任务。在DeonticBench困难子集上的评估发现，智能体框架能推动道义推理的前沿性能，但改进并不均匀：较弱的模型在数值任务中表现退化，同时消耗更多模型token。

智能体推理论文/研究

20:52

LMSYS：Blog（Chatbot Arena 团队）

SGLang 和 Miles 即日支持 NVIDIA Nemotron 3 Ultra

SGLang 与 Miles 在发布首日即支持 NVIDIA Nemotron 3 Ultra。该模型为开放前沿推理模型，总参数 550B、激活参数 55B，采用混合 Transformer-Mamba 架构的 MoE，支持最长 1M token 上下文。针对长运行自主智能体优化，具备工具调用、编码、深度研究与编排能力，后训练使用多环境强化学习（NeMo RL）。SGLang 提供高性能推理，支持 NVFP4 和 BF16 精度，NVFP4 检查点可在 Blackwell GPU 运行；Miles 支持强化学习工作流。模型权重、数据与配方均开源。在智能体生产力、指令遵循与长上下文任务上准确率领先，成本节省高达 30%。

智能体开源生态推理模型发布

关联讨论 9 条

20:36

HuggingFace Daily Papers（社区热门论文）

IR3DE：大语言模型的线性路由器

IR3DE是一个基于岭回归的线性路由器，为每个提示选择最合适的领域专家大语言模型。在两个因果语言建模（CLM）任务中，IR3DE性能与其他基线相当；在推理任务中，归一化性能达到98.4%，超越其他方法。该路由器支持动态添加或移除领域专家，无需重新训练，代码已开源。

推理论文/研究部署/工程

20:00

OpenRouter：Announcements（RSS）

同事件精选58

OpenRouter 横评 11 款 LLM 机器人冲刺对决：Claude 与 Grok 谁更胜一筹？

OpenRouter 在 30 场机器人冲刺对决中测试了 11 款大语言模型，共耗 482 美元推理成本。结果指向一个发现：应该重新审视模型 benchmark 的解读方式。

智能体 Anthropic xAI 推理

同一事件，精选展示《OpenRouter 翻遍 11 款 LLM 找最快的决策模型：Claude vs. Grok 领衔》

推荐理由：第一次看到对齐税被游戏化量化，Grok能赢是因为它没被训练成好人，Claude总想组队则拖后腿，怎么选模型得看你想要哪种人。

19:42

Hugging Face：Blog（RSS）

精选68

Nemotron 预训练的任务种子合成问答生成

在 Nemotron-3 Nano 模型的 100B token 续训练实验中，任务种子合成数据生成（Task-Seeded SDG）使 MMLU-Pro 提升 1.8 分，平均代码提升 1.9 分，常识理解提升 1.6 分，GPQA 提升 11.1 分，数学成绩保持稳定。该流程利用 lm-eval-harness 中约 70 个公开任务（约 700 子任务）的训练集作为种子，生成新示例并补充推理和上下文，经过格式校验、去重和答案验证后得到精选合成数据集，用于 Nemotron Ultra 和 Super 训练。

推理数据/训练论文/研究

推荐理由：NVIDIA 公开了 Nemotron 训练中造合成数据的详细方法论，用 70 个公开任务训练集做种子生成新题目，100B token 实验把 GPQA 拉高 11 个点，做预训练的人值得看看他们怎么造的数据。

12:10

Hacker News 热门（buzzing.cc 中文翻译）

它们是用哑铃做的

一篇来自 maxleiter.com 的博文，标题为“它们是用哑铃做的”。正文内容极为简短，仅包含一张图片和一句声明“They're made out of weights”（中文翻译为“它们是用哑铃做的”），未提供任何上下文或技术细节。该博文在 Hacker News 上获得 113 个点赞。由于缺少具体说明，读者无法得知所指对象以及“哑铃”的真实含义。

推理现象/趋势

11:42

HuggingFace Daily Papers（社区热门论文）

ThoughtFold：通过内省偏好学习折叠推理链

Large Reasoning Models (LRMs) 在基于可验证奖励的强化学习（RLVR）下取得进展，但长思维链中的试错和冗余探索被强化，导致过度思考。ThoughtFold 提出细粒度偏好学习框架：通过内省策略识别正确轨迹中的冗余段，生成候选子轨迹谱，并引入掩码偏好优化目标，显式惩罚冗余探索、鼓励模型直接桥接关键推理步骤，从而折叠推理链。在 DeepSeek-R1-Distill-Qwen-7B 上将 token 使用量减少约 56%，同时保持 SOTA 准确率。

推理数据/训练论文/研究

11:10

IT之家（RSS）

AMD 高管回应英伟达 RTX Spark 入局：欢迎竞争，自家 Strix Halo 系列足以应对

AMD 客户端业务高级副总裁拉胡尔·蒂库在 2026 台北国际电脑展上回应英伟达推出 RTX Spark 入局 AI PC 处理器市场，表示欢迎竞争，认为大容量本地内存对 AI 智能体工作负载至关重要。AMD 的 Strix Halo 及后续 Gorgon Halo 足以与 RTX Spark 竞争，Gorgon Halo 采用 Zen 5 CPU 和 RDNA 3.5 GPU，统一内存最高 192GB。软件生态方面，AMD 主推 ROCm，称 CUDA 的壁垒影响已较三年前下降，开发者迁移难度较低。

推理端侧行业动态

10:42

HuggingFace Daily Papers（社区热门论文）

精选73

StreamMA：多智能体推理中的流式通信

StreamMA 采用“流式通信”范式，每个推理步骤生成后立即流式传输给下游智能体，通过流水线相邻智能体降低端到端延迟。该方法还提升了效果，因为早期步骤更可靠，可避免错误后期步骤误导下游智能体。在数学、科学和代码八项推理基准上，使用 Claude Opus 4.6 和 GPT-5.4 两种大语言模型，及 Chain、Tree、Graph 三种拓扑，StreamMA 平均优于基线 +7.3 个百分点，在 HMMT 2026 上最高达 +22.4 个百分点。研究还发现“步骤级缩放定律”：增加每智能体步骤数可同时提升效果与效率。

智能体推理论文/研究

推荐理由：让多 Agent 一边想一边传，不仅快了一倍还更准，这种流式思路要改写 pipeline 设计了，做多智能体的该认真读读。

10:01

公众号：阶跃星辰（Step）

阶跃 Step 3.7 Flash 拿下 Artificial Analysis 多个第一

阶跃星辰的 Step 3.7 Flash 在 Artificial Analysis 最新榜单中多项关键维度领先。其输出速度达 409 tokens/s，位列主流模型第一；端到端响应时长仅 7.1 秒；智能效率与速度价格比均进入最吸引人的象限。模型在搜索、代码、多模态理解和 Agent 工作流中保持稳定表现，兼顾速度、智能与成本，适合大规模商业化部署。

智能体推理评测/基准

09:42

HuggingFace Daily Papers（社区热门论文）

GRAIL：面向可验证奖励强化学习的梯度重加权优势方法

可验证奖励强化学习（如GRPO）常用统一的序列级优势更新所有token，稀释了梯度信号。GRAIL提出内在的逐token优势重加权方法，利用梯度激活显著度为对最终答案更敏感的token赋予更高权重。在Qwen3、R1-distilled和OctoThinker家族共5个模型上的评估显示，GRAIL一致优于GRPO，平均准确率提升3.60%，Pass@3提升3.05%，无需过程级监督即可实现细粒度推理对齐。

arXiv 推理数据/训练论文/研究

09:10

IT之家（RSS）

苹果 iOS 27 Siri 部分查询将经 Google Cloud 调用授权版 Gemini，使用 NVIDIA Blackwell B200 集群处理

科技媒体 The Information 报道，苹果 iOS 27 版 Siri 的部分用户查询将跳转至 Google Cloud，调用授权版 Gemini 模型，并由谷歌的 NVIDIA Blackwell B200 GPU 集群处理。Blackwell B200 基于 Blackwell 架构，面向大模型训练与推理。为降低云端隐私风险，苹果将启用英伟达机密计算（confidential compute）硬件级安全功能，在 GPU 处理数据时加密，保护 AI 模型在共享云环境中的机密性与完整性。

Google 安全/对齐推理端侧

08:00

HuggingFace Daily Papers（社区热门论文）

PoLar：让大语言模型跳过或循环层，学习生成动态执行程序

研究发现，预训练LLM的层可作为模块，对每个输入灵活跳过或循环，形成动态程序（PoLar）。多数输入使用更少层即可达到相同或更高准确率，且原始模型的错误预测可通过更少层的替代程序纠正。为此，研究者提出轻量级PoLar预测网络，为每个输入生成动态跳过或重复层的执行程序。在数学推理基准上，PoLar一致优于标准推理和此前动态深度方法，常在使用更少层时提升准确率，在分布外评估中表现稳定。结果表明，固定深度执行仅捕捉了LLM潜在推理能力的一小部分。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MRAgent：面向LLM智能体的关联记忆图与主动重建机制

MRAgent 框架将记忆建模为 Cue-Tag-Content 关联图，并通过主动重建机制将 LLM 推理直接融入记忆访问，使智能体在推理过程中基于累积证据动态探索和剪枝检索路径，避免组合爆炸。在 LoCoMo 和 LongMemEval 基准上，MRAgent 相比强基线最高提升 23%，同时显著降低 token 和运行时开销。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

压缩-蒸馏：面向高效知识蒸馏的推理轨迹压缩

Qwen3.5-397B-A17B与gpt-oss-120B两教师模型各生成约283k条正确轨迹，经指令微调模型压缩至原始字符长度的8.6–21.0%。压缩轨迹使训练token降至原始的12–30%，训练速度提升2.0–7.6倍，推理输出长度缩短3–19倍。但原始轨迹在所有规模下保持最高下游准确率；压缩学生模型可保留高达96%的原始准确率，同时获得最高18倍的每token效率。在0.8B学生规模使用LoRA时，压缩轨迹缩小了与原始轨迹的差距，但未超过原始。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Astra：借助世界模拟器实现智能体视觉空间推理

视觉-语言模型（VLM）在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL（基于强化学习的VLM策略）与Astra-WM（基于Bagel的世界模拟器）耦合，后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习，训练模型仅在想象观测优于直接回答时调用模拟器。实验显示，Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5；Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8，在MindCube上从36.8提升至42.7。

具身智能多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WorldBench：一个挑战性强且视觉多样化的多模态推理基准

WorldBench是一个用于评估多模态大语言模型(MLLM)的推理基准，通过构建涵盖多个领域（如生物）的数千个视觉概念分类体系，从搜索引擎和现有数据集中广泛收集图片，并采用结构化试错方法手动设计前沿MLLM难以回答的挑战性问题。在15个MLLM上的评估显示，最强模型准确率仅达64.0%，部分模型性能略高于随机水平，揭示了现有模型在视觉理解上的不足。该基准在视觉多样性上优于现有任何多样化基准。

多模态推理论文/研究

04:39

Hacker News 热门（buzzing.cc 中文翻译）

随着人工智能迅速发展，数学家们发出警告

Science.org 报道称，数学家们对人工智能的快速进展发出警告。

推理现象/趋势

04:26

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选66

GPT-Rosalind 新功能发布

GPT-Rosalind 在生命科学研究领域推出新功能，增强了生物推理、药物化学专业知识、基因组学分析以及实验工作流处理能力。

OpenAI 推理模型发布

关联讨论 1 条

推荐理由：GPT-Rosalind 把 GPT-5.5 的智能带进了生命科学核心流程，从分子设计到 FDA 审评准备都能直接参与，是行业模型走向实用化的一个关键节点，虽然现在只对机构开放，但未来可能重塑药物研发工具链。

00:08

Hacker News 热门（buzzing.cc 中文翻译）

精选78

多伦多大学研究人员演示AI蠕虫可攻击任何联网设备

多伦多大学研究人员展示了一种人工智能蠕虫，能够主动传播并攻击任何联网设备，无需人工干预即可在系统间移动。这项研究揭示了AI驱动自主攻击的潜在威胁。

安全/对齐推理

推荐理由：多伦多大学团队首次证明能用公开AI模型构建自适应蠕虫，成本近乎零，所有联网设备都在射程内，而现有防御还没准备好。安全圈该坐不住了。

6月3日

23:42

HuggingFace Daily Papers（社区热门论文）

KVarN：方差归一化的KV-Cache量化方法可缓解推理任务中的误差累积

KVarN是一种免校准的KV-cache量化方法，通过Hadamard旋转结合双标度方差归一化，同时对K和V矩阵的两个轴进行归一化，以修复异常token尺度误差，大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下，KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。

arXiv 推理论文/研究部署/工程

22:16

The Verge：AI（RSS）

微软与OpenAI分手--如今他们准备开战

在年度Build大会上，微软宣布了一系列AI新举措，包括超级应用、自研推理模型、网络安全工具和OpenClaw风格的AI智能体。该公司此前长期依赖与OpenAI的独家合作，但这段充满戏剧性的关系已在4月底实质上破裂（微软仍保留OpenAI主要云合作伙伴身份）。微软正以独立姿态成为AI领域的重要玩家。

智能体 Microsoft 产品更新推理

21:46

The Decoder：AI News（RSS）

Perplexity 宣布推出混合 AI 系统，自动决定任务在本地还是云端运行

Perplexity 发布了一个编排器，将本地计算机上的 AI 模型与云端强大模型相结合，并自动决定每个任务分配至本地处理还是云端处理。

产品更新推理部署/工程

21:37

Tomer Tunguz 博客（VC 分析）

精选66

智能性价比

微软在模型发布卡中首次加入平均token使用量指标。其模型在SWE-Bench Verified上达71.6分，仅消耗约Claude Haiku 4.5三分之一的token。Artificial Analysis的Intelligence Index显示GPT 5.5与Claude Opus 4.8得分相近（约60分），但Opus 4.8运行成本高出40%（$4,685 vs $3,357）。Uber因四个月内AI预算超支而限制员工使用；Salesforce花费$3亿购买Anthropic tokens并冻结工程招聘。模型公司如今需同时在性能和成本两个维度竞争。

Microsoft OpenAI 推理现象/趋势

推荐理由：微软在模型发布卡上悄悄加了“平均token消耗”这个指标，这不是小改动，而是宣告AI从堆算力转向算账时代。Uber和Salesforce的预算教训已经很清楚了。

21:09

IT之家（RSS）

英特尔：2030 年八成数据中心新服务器将用 x86 架构

英特尔 CEO 陈立武在 2026 台北电脑展上预测，到 2030 年每 10 台新数据中心服务器中 8 台基于 x86 架构。智能体 AI 场景下 CPU 与 GPU 算力比例可能从传统 AI 的 7:1（偏向 GPU）反转至最高 1:1.3。英特尔同步发布 18A 制程至强 6+ “Clearwater Forest” 处理器（288 个 E 核），推出开放标准整机架方案 “Rack Scale Blueprint”，并宣布进入定制 ASIC 市场，已为谷歌供应 IPU，与爱立信合作开发无线通信 ASIC。

推理行业动态

19:16

The Decoder：AI News（RSS）

Build 2026：Microsoft 在图像生成上超越 Google，在推理上仍追赶

微软在 Build 2026 大会上发布七款自研新 AI 模型，其中包括其首款推理模型。公司还推出了一种新的调优方法和一个自主后台 AI 智能体。

Microsoft 图像生成推理模型发布

关联讨论 3 条

19:09

IT之家（RSS）

中兴与腾讯合作，将发布搭载混元大模型的 WorkBuddy AI 云电脑

中兴通讯在 AI 云电脑体验日宣布与腾讯达成合作，推出搭载腾讯原生 WorkBuddy 的 AI 云电脑，融合腾讯云算力和混元大模型能力，面向学生、职场人士、小微团队。中兴副总裁华新海指出，我国家庭电脑拥有率为 67.5%，20% 设备长期闲置。2025 年中兴云电脑终端销量突破 200 万台，连续两年蝉联中国云终端市场冠军。

产品更新推理

13:42

HuggingFace Daily Papers（社区热门论文）

Small RL Controller， Large Language Model： RL-Guided Adaptive Sampling for Test-Time Scaling

该研究将大语言模型推理测试时扩展的自适应采样过程建模为马尔可夫决策过程，并使用强化学习训练一个轻量级采样控制器。该控制器在每一轮决定是停止采样还是获取更多样本，仅依赖最终答案的统计信息，并能联合权衡答案正确性、延迟与计算成本，且可在CPU上训练和部署。实验在Qwen2.5-7B和Llama-3.1-8B模型上进行，与ASC等强基线相比，该方法在正确性、采样轮数和总样本数之间取得了更优的权衡。

推理论文/研究

12:42

HuggingFace Daily Papers（社区热门论文）

面向推理模型的价值感知随机KV缓存淘汰策略

推理模型通过延长思考链提高准确率，但长输出导致内存与计算瓶颈。现有KV缓存淘汰方法因准确率常不及保留完整缓存的稀疏注意力方法而受限。研究发现，淘汰少量大数值价值状态会导致模型陷入重复推理循环；引入随机性则能提升缓存多样性以改善准确率。基于此，本文提出无需训练的“价值感知随机KV缓存淘汰”方案。在Qwen3模型上的实验表明，该方法进行4倍缓存压缩时，在六个推理任务上的平均准确率高于同等稀疏度下的SOTA选择方法，并比最强淘汰方法提升超过4%。

推理论文/研究部署/工程

12:42

HuggingFace Daily Papers（社区热门论文）

精选70

世界模型与语言模型：论具体推理与抽象推理的互补性

本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹，但可能视觉合理却任务错误；多模态大语言模型则擅长抽象推理。为此，研究提出了“受控的具体推理”框架，并构建了VRQABench和OpenWorldQA两个基准。同时，提出了Privileged-Future On-Policy Self-Distillation（PF-OPSD）方法，该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹，但部署时无需真实未来。实验结果显示，PF-OPSD在两个基准上分别比基线高出10.6%和10.9%，并提升了对噪声或冲突轨迹的鲁棒性。

智能体多模态开源/仓库推理

推荐理由：世界模型靠视觉预测，语言模型靠抽象推理，这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%，还给全开源，做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。

10:09

IT之家（RSS）

江苏无锡打造城市智算云平台"词元超市"：汇聚 AI 智算资源超 13000PFLOPS、已服务近五十家客户

江苏全省首个商用万卡集群“词元超市（Token 超市）”已试运行，汇聚智算资源超 13000PFLOPS。平台接驳了三十余家厂商，提供阿里通义、DeepSeek、阶跃星辰等主流大模型，用户可按需选择文本创作、智能问答等业务场景，并依据实际 Token 用量按需付费。该模式已服务近五十家客户，帮助本地企业降低研发成本。

推理行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

SparDA：面向长上下文LLM推理的高效稀疏解耦注意力架构

SparDA提出解耦稀疏注意力架构，在QKV外引入第四层投影Forecast，预测下一层所需KV块，使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数，训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度，实现prefill加速1.25倍、decode加速1.7倍；相比非offload稀疏基线，单GPU上decode吞吐量提升5.3倍。代码已开源。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Imaginative Perception Tokens 增强多模态语言模型的空间推理

多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征，使模型能在保持与输入观测一致的前提下，外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL，构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能，在 MVC 上准确率提升 3.4%，在 PT 上与强闭源模型相当，且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号，同时生成可解释的中间表征。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DistIL：基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误，忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法，使学习器局部访问当前策略下状态的专家分布，优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界，而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线，并提升Pass@N。

arXiv 推理数据/训练论文/研究