6月16日

13:27

HuggingFace Daily Papers（社区热门论文）

GAM（Geometric Action Model）是一种语言条件操作策略，通过直接利用预训练几何基础模型（GFM）作为共享基座，在中间层分割GFM，浅层作观察编码器，插入因果未来预测器预测未来潜在token，再经剩余GFM块解码。设计让GFM以最小架构改动获得语言条件时间世界建模能力，同时保留丰富几何先验。在模拟和真实机器人操作基准上，GAM比当前基础模型规模基线更准确、鲁棒、快速且轻量。

具身智能论文/研究

12:27

HuggingFace Daily Papers（社区热门论文）

BadWorld：针对世界模型的对抗攻击

BadWorld 提出无标签对抗攻击框架，专门攻击自回归视觉世界模型（VWM）。通过自监督速度攻击破坏模型早期去噪动态，并采用轨迹自适应双层优化挖掘困难控制序列，生成控制无关扰动。在连续与离散控制的 VWM 上测试表明，视觉不可辨别的对抗图像能触发未来视频 rollout 的灾难性退化，包括去噪不完整、结构崩溃和控制不一致。该工作揭示了 VWM 在安全关键系统中部署的严重结构脆弱性，同时为隐私保护提供了可行机制。

安全/对齐论文/研究

12:27

HuggingFace Daily Papers（社区热门论文）

OneRank：面向多任务推荐的统一Transformer原生排序架构

OneRank是一种Transformer原生的多任务排序框架，消除编码器与预测器分离。前向通过任务条件信息选择、候选感知上下文化和受控跨任务交互自底向上学习任务特定表示；后向通过跨任务梯度隔离防止负迁移。采用动态匹配评分替代静态MLP评分器，实现上下文感知排序。大规模工业数据集上的离线和在线实验表明，OneRank优于基线且保持计算效率。

数据/训练论文/研究

12:27

HuggingFace Daily Papers（社区热门论文）

VibeThinker-3B：小模型可验证推理前沿探索技术报告

HuggingFace社区热门论文发布VibeThinker-3B技术报告。该3B参数模型基于Spectrum-to-Signal后训练范式，经课程监督微调、多域强化学习和离线知识蒸馏优化。在AIME26上得分94.3（借助claim-level test-time scaling提升至97.1），LiveCodeBench v6 Pass@1达80.2，最近LeetCode未见题接受率96.1%，性能匹敌DeepSeek V3.2、GLM-5、Gemini 3 Pro等更大旗舰模型。IFEval得分93.4，表明极端推理增强未损害指令可控性。论文提出参数压缩-覆盖假说。

推理编码论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

UniDDT：解耦扩散Transformer统一多模态理解与生成

UniDDT 利用 Noisy ViT 编码器与 LLM 统一视觉生成与理解的语义编码，并采用独立扩散解码器将扩散解码与文本解码解耦，以缓解多模态任务间的学习冲突与视觉空间不一致。它从同一图像-文本对构建双数据结构，利用生成与理解数据的相互依存关系。实验结果显示，视觉生成任务 GenEval 得分 0.87，DPG 得分 86.9；多模态理解任务 MME 得分 1699.5，SEEDbench 综合得分 76.5。

多模态数据/训练论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

TuneJury：开放的音乐生成偏好对齐奖励模型

TuneJury 是一个开放的实例级成对奖励模型，从文本提示和音频片段预测音乐偏好分数。其检查点基于公开的人类偏好标签训练，涵盖竞技场风格 A vs B 投票、度量对齐偏好对、众包成对比较和专家美学评级。预测分数差距在 held-out 测试集上校准良好，支持通过简单阈值过滤数据。TuneJury 可泛化到分布外基准，优于先前基线。引入 anchor calibration（事后、每系统的 Bradley-Terry 校准），以比从头再训练更高的数据效率恢复一致性。相同冻结奖励在 best-of-N 选择、DITTO 风格潜在优化和专家迭代后训练三个下游应用中驱动一致奖励轴增益。

多模态数据/训练论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

TIE：基于轨迹的掩码扩散语言模型集成框架

研究发现掩码扩散语言模型（MDLM）中，成功的生成在答案相关位置呈现稳定置信度动态，不可靠轨迹可通过注入其他模型的中间状态纠正。基于此，提出TIE（Trajectory-based Iterative Ensembling）框架，通过追踪置信度动态识别可靠解码轨迹并在模型间传递部分去噪序列，使不同模型在不同生成阶段贡献互补优势。在多种推理任务上取得强性能，为MDLM集成提供了实用方案。

推理数据/训练论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

Qwen-RobotWorld 技术报告：基于语言条件视频生成的具身世界模型

Qwen-RobotWorld 是一个语言条件视频世界模型，以自然语言为统一动作接口，从当前观测预测物理可行的未来视觉轨迹，覆盖机器人操作、自动驾驶、室内导航和人到机器人迁移。其核心设计包括：60 层双流 Diffusion Transformer（Double-Stream MMDiT）耦合冻结的 Qwen2.5-VL 语义与视频-VAE 隐特征；具身世界知识语料库（860 万视频-文本对，超 2 亿帧，含 20 余种具身形态和 500 余种动作）；通用+专家渐进式课程训练，先学习通用视觉先验再注入具身专用知识。在 EWMBench 和 DreamGen Bench 上总分第一，在 WorldModelBench 和 PBench 上超越所有开源模型，RoboTwin-IF 零样本分析验证了泛化性与多视角一致性。

具身智能论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

DreamX-World 1.0：通用交互式世界模型

DreamX-World 1.0 是一款通用交互式文图生视频世界模型，支持可控长序列生成、相机导航、回溯已观测区域及提示事件，覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE（PRoPE 投影位置编码的轻量变体）。通过因果强制、DMD 风格蒸馏和长序列训练，将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收，并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中，相机控制得分 73.75，总体 84.76，优于 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。

具身智能视频论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

BRDFusion：物理与生成融合的城市场景逆渲染框架

BRDFusion是一个统一框架，结合物理建模和生成先验，用于从视频中恢复城市场景的显式、一致的场景属性，同时缓解优化歧义。在正向渲染中，物理模型提供基于场景配置的可控渲染，生成模型负责去噪和修复伪影，从而生成高质量视频并支持精确控制。该方法在真实和合成场景中均优于基线，并支持新视角重光照、夜间模拟以及动态物体插入/编辑。

图像生成多模态论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

VisualClaw：面向物理世界的实时个性化多模态智能体

VisualClaw是一个自进化多模态智能体，通过级联门过滤流式帧与热/冷top-k注入技能库，将单问题API成本降至全帧上传的-98%、均匀8帧基线的-25.9%。技能进化模块从失败中学习并更新技能库，在4个视频QA基准上平均准确率提升+3.85%，EgoSchema上Gemini 3 Flash达+15.80%。研究者构建了VisualClawArena（200场景多模态智能体基准），在该基准上结合计算机使用后端使Codex (GPT-5.5)宏观准确率+2.9%、Claude Code (Sonnet 4.6)+3.2%，成本降低-9.5%。级联机制将1小时流媒体从~3,600次API调用降至5-20次，适合边缘部署。

智能体多模态视频论文/研究

10:27

HuggingFace Daily Papers（社区热门论文）

TokenPilot：面向LLM智能体的缓存高效上下文管理框架

TokenPilot是一种双粒度上下文管理框架，旨在解决长对话场景中LLM智能体因上下文累积导致的高推理成本。全局层面，Ingestion-Aware Compaction稳定提示词前缀并消除环境噪声；局部层面，Lifecycle-Aware Eviction监控上下文片段剩余效用，仅在任务相关性过期时卸载。在PinchBench和Claw-Eval上，孤立模式成本降低61%和56%，连续模式降低61%和87%，同时保持竞争力。该框架已集成至LightMem2。

智能体论文/研究部署/工程

10:20

Artificial Analysis@ArtificialAnlys

Artificial Analysis Intelligence Index v4.1 发布：转向智能体任务评测

Artificial Analysis 发布 Intelligence Index v4.1，转向智能体任务。升级 Terminal-Bench 2.1、τ³-Bench Banking、GDPval-AA v2（Elo 重基线、引入前沿模型评审、回合上限增至250），移除饱和的 IFBench。新增每任务成本、时间、输出 token 指标及缓存 token 影响。关键结果：Claude Fable 5（60分）领先但不可用；可用模型中 Claude Opus 4.8（max）56分居首，GPT-5.5（xhigh）55分。开源 DeepSeek V4 Pro 与 MiniMax M3 均44分。成本方面，Opus 4.8 每任务 $1.78，GPT-5.5 $0.99，DeepSeek V4 Pro 仅 $0.04。时间方面，Grok 4.3 最快（1.5分钟），Opus 4.8 需6.4分钟，GPT-5.5 需3.7分钟，Gemini 3.1 Pro Preview 以1.6分钟得46分。

智能体 Anthropic DeepSeek 推理

09:59

Berkeley RDI：Blog（AI 安全与评测）

精选83

伯克利RDI发布Agents' Last Exam基准

2026年6月，伯克利RDI发布Agents’ Last Exam（ALE）基准，包含1,500余项源于真实工作的任务，覆盖55个非体力职业。对Fable 5、GPT-5.5、Composer 2.5等前沿智能体的测评显示：在最困难层级成功率均为0%；整体任务表现接近，但单任务成本差异巨大（Fable 5约$15.70，GPT-5.5约$3.80，Composer 2.5约$1.33）。CLI子集ALE-CLI最佳通过率仅25.2%。主要失败模式是智能体未验证输出即宣称完成。数据集、代码及CLI子集已开源。

智能体 arXiv Hugging Face 开源生态

推荐理由：在Fable 5发布后，Berkeley的ALE基准首次大规模量化了agent在专业任务上的真实水平，最难任务0%成功率的结果值得所有押注agent落地的团队冷静下来。

08:00

HuggingFace Daily Papers（社区热门论文）

超越NL2Code：多模态代码智能结构化综述

本文系统综述了多模态代码智能，即在视觉输入输出下生成、编辑、优化或推理代码的系统。首先按代码角色将任务分为：渲染制品、可编辑符号结构、科学表示、中间推理轨迹、可执行策略/工具接口。随后将基准与方法归为四类：图形用户界面、科学可视化、结构化图形、前沿任务与框架。最后提出四个以验证为中心的未来方向：多信号验证、多状态验证、跨任务迁移测试、可验证的智能体轨迹，以期从单输出模仿转向证据驱动的可执行系统。

arXiv 多模态编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MCompassRAG：主题元数据作为段落级检索的语义指南针

MCompassRAG是一个元数据引导的检索框架，利用主题级信号作为语义指南针，通过LLM教师蒸馏训练轻量检索器，在不额外调用LLM的情况下实现主题感知检索。在6个复杂检索基准上，MCompassRAG的信息效率（IE）平均提升8.24%，延迟比最强高效RAG基线低5倍以上。代码已开源。

arXiv 检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GeneralVLA-2：几何感知重建与受控记忆用于机器人规划

GeneralVLA-2针对通用视觉-语言-动作系统的两个瓶颈提出改进：引入GeoFuse-MV3D几何先验引导的多视图重建分支，通过输入视图掩码验证外部几何线索、软视觉外壳支持及轴对齐精炼，仅融合几何信息并保留外观，缓解单目SAM3D式重建的姿态与不可见几何幻觉；将原有KnowledgeBank升级为受控长期记忆系统，显式管理质量、置信度、生命周期、验证器与冲突元数据，并配合面向精度的检索。在GSO-30上，GeoFuse-MV3D相比MV-SAM3D基线将CD降低2.20%、LPIPS降低2.02%，PSNR提升2.36%、SSIM提升1.03%。在Terminal-Bench 2.0与SWE-Bench Verified上，KnowledgeBank相比ReasoningBank在Terminal-Bench SR上提升4.53%，SWE-Bench resolve rate提升3.73%，AS分别降低4.95%和5.65%。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LegalHalluLens：面向可信法律AI的类型化幻觉审计与校准多智能体辩论

法律AI聚合幻觉率约52%，但掩盖了错误集中方向。LegalHalluLens审计框架包含：类型化幻觉档案（数字、时间、义务权利、事实四类）、风险方向指数（RDI）及校准辩论管线。在510份合同、249,252条款实例中，同一模型内义务/数字类与时间类幻觉率差距达38-40个百分点；两个均报告52%幻觉率的系统RDI可能相反。辩论管线将虚假检测减少45%，以4B参数匹配商业API。类型档案和RDI暴露隐藏失败模式，作为多智能体辩论校准输入。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

轨迹级监督何时支持高效离线强化学习？

本文提出OPAC算法，从仅含轨迹级标签（标量回报）的离线数据中学习隐式奖励模型并优化策略。理论证明其高概率保证为tilde O(H^2C_{sa(π^star)}/n)并给出匹配下界。该框架可扩展至偏好反馈。进一步研究发现，当目标和监督均为轨迹级非线性聚合时，一般情形不可学习（全成功目标需Ω(2^H)条轨迹）；引入结构系数κ_μ(σ)和χ_μ(σ)后，广义OPAC可实现多项式样本复杂度。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MaineCoon：首个实时音频-视频社交世界模型

MaineCoon 是一个 22B 参数的实时音频‑视频自回归模型，在单 GPU 上实现最高 47.5 FPS 的流式生成与亚秒级交互，是首个专为社交交互场景优化的实时音视频生成模型。训练中引入自重采样、跨模态表示对齐、领域偏好优化和 Reinforced Online‑Policy Distillation（ROPD）。同时设计了首个智能体流推理框架，通过智能缓存管理与提示规划支持千秒级以上的长序列生成并缓解漂移。该模型在高质量、低延迟、长时域音视频自回归建模上确立了新 SOTA 基准。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LLM-as-Environment-Engineer：让策略模型自主设计强化学习训练环境

提出 LLM-as-Environment-Engineer 框架，使当前策略模型能基于失败轨迹与上下文自动修改下一阶段训练环境配置。引入可控测试床 MAPF-FrozenLake，支持多维环境配置生成与基准评估。以 Qwen3-4B 为骨干，该框架在基准测试中取得最强综合性能，超越 GPT、Gemini 等更大专有模型及固定环境基线。分析发现，成功环境更新依赖失败证据并保留已有配置；当前 RL 检查点作为环境工程师优于原始基座模型，表明策略学习提升了模型诊断自身弱点的能力。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

SAE干预不可靠：干预后抑制行为的恢复

稀疏自编码器（SAE）将残差流激活分解为可解释特征，但干预特定特征后，通过优化残差扰动可恢复原有行为。研究发现这是一种可恢复失败模式：干预阻断一条可见行为路径，却未消除行为本身。即使干预在整个优化和生成期间保持激活，恢复依然可行。在TPP、遗忘、IOI和拒绝引导场景中均观察到可恢复行为。安全关键的拒绝引导场景下有效样本恢复率达95.8%，被防御特征的相对漂移仅0.131。归因分析将恢复路径定位到SAE重建残差，表明控制SAE特征并不能保证控制底层行为。

安全/对齐推理

推荐理由：这篇论文给 SAE 防御泼了冷水，恢复率高达 95.8%，让我觉得仅靠钳制特征来控制模型行为很不靠谱，安全社区需要重新审视干预路径。

08:00

HuggingFace Daily Papers（社区热门论文）

SR-REAL：空间视觉语言模型的双路径推理增强

SR‑REAL 为空间 VLM 配备两条互补推理路径：纯语言推理（LOR）和检测后推理（DTR）。LOR 执行逐步语言演绎，DTR 先通过区域 token 检测 3D 几何线索（中心点或边界框），再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督，随后用准确率和格式奖励进行强化学习优化，DTR 额外使用基于离散中心的检测奖励。在多个空间基准上，SR‑REAL 显著优于基线：单个 RL 训练模型支持两种路径，联合训练实现互相增强，且模型无需调优即可跨数据集和领域泛化。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Kairos：面向Physical AI的原生世界模型栈

Kairos是面向Physical AI的原生世界模型栈。它采用跨具身数据课程进行原生预训练，融合开放世界视频、人类行为数据和机器人交互。其统一架构配备混合线性时间注意力：滑动窗口捕获局部动态，扩张滑动窗口捕获中距离依赖，门控线性注意力维持持久全局记忆，理论上保证长时域状态传播误差可控。通过部署感知系统协同设计，在服务器和消费级硬件上实现低延迟的观察-行动-反馈循环。在具身世界模型、长时域和行为策略基准上，Kairos达到顶级性能并展现强效率-能力权衡。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

信任正确的教师：面向GUI Grounding的质量感知自蒸馏

GUI grounding要求视觉语言模型在高分辨率截图中识别小目标并预测精确坐标。OPSD（在策略自蒸馏）虽能提供密集token级教师信号，但朴素OPSD中学生生成前缀偏离目标时坐标token信号质量下降。本文提出质量感知自蒸馏，通过软正确性感知门控和教师概率缩放改善信号质量：门控检查教师当前坐标预测能否在给定前缀下完成到真实框，否则降权；教师概率缩放用置信度校准监督强度。两个组件单独无效，组合持续有效。在六个GUI grounding基准上一致提升基础模型并超越强基线。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Guava：面向具身操作的高效通用框架

Guava 是一个用于具身工具使用的框架，通过系统探索智能体工作流、动作空间和观察空间，确定了三个关键设计：迭代感知-推理-动作循环、语义动作抽象和多模态观察。研究还开发了端到端训练流程，将具身操作能力蒸馏至一个 4B 开源模型，仅用少于 2K 条模拟轨迹。仿真与真实实验表明，Guava 性能接近前沿专有模型，对未见物体、新指令和长时任务有强泛化能力。结果表明，精心设计的框架可作为模型无关的具身操作接口，以极少数据为紧凑开源模型带来涌现能力。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CEO-Bench：智能体能玩长期游戏吗？

CEO-Bench通过模拟初创公司500天运营，评估AI智能体在不确定性中规划、获取信息、适应变化和协调多目标的能力。智能体需通过Python接口管理定价、营销、预算等决策，并处理嘈杂数据库。最强模型（Claude Opus 4.8、GPT-5.5）虽能编写复杂代码预测现金流、挖掘客户偏好，但仅勉强使余额维持起始的100万美元以上，无法持续盈利。该基准首次衡量驱动长期自适应进展所需的智能。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

PAIWorld：面向机器人操作的三维一致世界基础模型

PAIWorld 是一种基于扩散 Transformer 的世界基础模型，通过三大组件解决多视图三维不一致问题：几何感知跨视图注意力模块建立显式视图间通信，几何旋转位置编码将相机光线方向和外部位姿编码进注意力机制，潜在三维 REPA 从冻结的三维基础模型中蒸馏三维感知特征。它在机器人操作基准上达到最优多视图三维一致性，WorldArena 排行榜第一，AgiBot-Challenge2026 排行榜第二，并支持基于模型的规划、世界动作模型和多视图策略后训练等下游应用。

具身智能论文/研究

04:49

Rohan Paul@rohanpaul_ai

MiniMax Sparse Attention

MiniMax Sparse Attention（MSA）在1M token时，将注意力计算量削减28.4倍，H800 GPU上预填充提速14.2倍、解码提速7.6倍，同时基准性能基本持平全量版本。MSA不放弃softmax注意力，而是在分组查询注意力旁增设一个小型路由分支，让每个查询组自主选择应查看的key-value块，主分支仅对该子集执行精确注意力。该方法将长上下文视为延迟约束下的检索问题，通过架构内建选择器，用模型自身注意力模式训练路由，使注意力变得有选择性而非穷举。

推理论文/研究部署/工程

00:26

Microsoft Research@MSFTResearch

30倍更快的分析，从SQL自动生成的GPU内核，AI与实验室培育的肿瘤模型匹配用于癌症治疗，以及无需重新训练即可跨任务学习的大语言模型。深入探索最新一期Research Focus：https://msft.it/6010vcYZ4

Microsoft 数据/训练论文/研究

6月15日

21:43

OpenBMB@OpenBMB

面壁智能 OpenBMB 联合发布 FactNet：十亿级开源多语言知识图谱

面壁智能 OpenBMB 联合清华NLP、慕尼黑工业大学等发布 FactNet，构建十亿级开源多语言知识图谱。它将 1.7B 原子断言统一为 1.55B FactSynsets，附带 3.01B 来自 316 种语言维基百科的字节级可追溯证据（页面ID、修订版ID、Unicode偏移），99.63% 精确重定位。人工审计 4,200 项，设计加权精度 92.1%（低资源语言 88.5%）。FactNet-Bench 包含 KGC、MKQA、MFC 三项任务，显式惩罚信息泄露，为可验证 AI 提供结构化事实基础。

检索增强数据/训练论文/研究

21:30

公众号：百度智能云（文心）

上海交大🤝百度智能云：首破世界-动作模型时间绑定，无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM，突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型，真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz，轻量版AHA-WAM-Flash达56.95Hz，提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究

15:42

IT之家（RSS）

研究发现：超大质量黑洞周边可能孕育数百万颗行星

科学家构建计算机模型发现，活动星系核内超大质量黑洞的吸积盘边缘，在距离黑洞数十秒差距的区域可通过流体不稳定性形成数百万颗质量堪比木星的气态巨行星。这些行星外观如同炽热熔岩球，但可能逐渐远离黑洞。相比普通恒星周围仅能形成少数行星，黑洞周边行星形成潜力大幅提升。研究预印本已发布在arxiv平台，未来有望借助引力透镜效应实际探测这类行星。

其他

08:00

HuggingFace Daily Papers（社区热门论文）

后训练如何塑造生物推理模型

研究分析后训练各阶段对生物推理模型泛化能力的影响。在基因组学、转录组学、蛋白质组学上训练并评估超过100个模型，控制backbone、继续预训练（CPT）、监督微调（SFT）和强化学习（RL）的变化，测量域内（ID）与域外（OOD）性能。结果发现：CPT通过对齐生物语言提升下游性能；SFT持续提高ID但导致OOD先升后降；RL作用于强SFT检查点时可改善OOD并部分恢复泛化。生物推理不随监督或计算量单调提升，最佳ID-OOD权衡来自短SFT、大RL分配和跨阶段非对称适应能力。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CoffeeBench：长期异构多智能体经济系统中的大语言模型智能体基准测试

CoffeeBench评估大语言模型智能体在长期多智能体经济系统中的表现。模拟由两个农民、两个烘焙师和两个零售商组成的90天异构企业经济，每个智能体通过通信和交易最大化累计净收入。评测模型控制一个咖啡烘焙师，其余由固定参考智能体控制。测试多个开源和专有LLM，所有模型均优于不采取行动的被动基线，多数实现正净收入。表现更好的模型通信更频繁，而Claude Haiku 4.5出现空闲漂移失败模式，反复选择不作为。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

RL-Index：面向检索索引推理的强化学习方法

RL-Index 是一种智能体索引框架，将检索索引推理形式化为强化学习问题。它在索引阶段利用 LLM 生成的推理（rationales）增强文档，并采用 Group Relative Policy Optimization（GRPO）与检索相似度作为可验证奖励信号，直接优化索引决策以提升检索效果。在 BRIGHT 基准上，RL-Index 持续提升检索与下游问答性能，显著降低在线推理延迟，且所学的推理增强可跨不同检索器与生成器泛化，作为一种即插即用的索引策略。

检索增强推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

反思掩码（RM）激发掩码扩散模型的推理能力

自回归模型推理依赖链式思维和反思，但局部修改仍需完全顺序生成。掩码扩散模型(MDMs)的掩码机制天然支持选择性局部编辑，但现有MDMs不支持多轮掩码与去噪。本文提出反思掩码(RM)，通过轻量后训练激发MDMs的多轮掩码能力，迭代修改先前输出。RM还引入免参数的历史参考机制，利用中间去噪状态提升修订效果。无需架构改动，在文本生成、数独、图像编辑等任务上一致优于标准掩码基线。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MemSlides：面向个性化幻灯片生成的多轮局部修订分层记忆驱动智能体框架

MemSlides提出分层记忆框架，将长期记忆与工作记忆分离。长期记忆再分为用户画像记忆（存储面向意图的配置，支持初始个性化）和工具记忆（存储可复用执行经验，支持可靠局部编辑）；工作记忆在多轮修订中承载当前偏好与会话约束。框架采用范围限定的幻灯片局部修订机制，仅更新最小影响区域。实验表明：用户画像记忆提升多人物多意图场景的人物对齐效果，工具记忆改善闭环修改行为，工作记忆能有效传递偏好。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ContextRL：面向智能体与多模态大语言模型的上下文感知强化学习

ContextRL 是一种上下文感知强化学习方法，通过让模型从两个相似上下文中选出支持查询-答案对的上下文，改善长上下文和多模态细粒度理解。针对代码智能体用轨迹构建 1k 对对比数据，针对多模态推理用图像构建 7k 对。在 5 个长程推理基准上平均提升 +2.2%，在 12 个多模态视觉问答基准上平均提升 +1.8%。与使用相同数据但仅作为标准示例的基线对比，后者几乎无改进，表明增益来自上下文选择目标而非额外数据。

多模态推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

无资源、无基准、没问题？评估与改进LLM在无资源语言上的代码生成

针对LLM几乎未见训练数据的无资源编程语言，团队构建并发布了三个代码生成基准。实验发现，在目标语言上进一步预训练能最大提升性能，但直接用于指令微调模型会损害指令遵循能力。为此，从基础模型出发，先预训练再通过权重差异迁移从指令模型注入指令遵循能力，显著提升了无资源场景的代码生成表现，使公司能以低成本部署专用指令模型。

数据/训练编码论文/研究