AIHOT

5月12日

08:00

HuggingFace Daily Papers（社区热门论文）

57

自动化智能体评估的实证研究

研究发现，直接使用前沿代码助手（如GPT、Claude）进行智能体评估效果不佳，其执行成功率仅为30%，且生成的评估指标平均超过12项，过于复杂。为此，研究者提出了EvalAgent，它能将评估领域知识编码为可组合的“评估技能”，自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估，EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%，并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要，移除后Eval@1会从65%骤降至30%。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

61

从通用模型到专家模型：非参数设定下的可识别性理论

本文在完全非参数设定下，为从通用模型学习任务相关的专家表示建立了可识别性理论基础。首先证明，即使序列缺乏严格时间依赖且任务分配结构任意复杂，时间步与任务间的结构仍可在无监督下被识别。其次证明，在单个时间步内，仅需简单的稀疏性正则化即可将任务相关潜在表示与无关部分解耦，无需额外约束。这两项结果共同构成了层次化的可识别性保证：任务结构在时间步间可识别，任务相关表示在步内可识别。这是首个通用的非参数可识别性理论，为从通用模型向可证明的专家模型转变提供了依据。

arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

Learning to Explore：通过探索感知策略优化扩展智能体推理能力

研究提出了一种探索感知的强化学习框架，使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数，评估探索性行动对改善未来决策的潜力，并引入探索感知分组机制，在优化过程中将探索行动与任务完成行动分离。实验表明，该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。

智能体arXiv推理论文/研究

推荐理由：让 Agent 拥有了「感知自己不知道什么」的能力，只在信息不足时才探索，而不是盲目试错，是 Agent 训练方法的一个重要转向，做强化学习或 Agent 的值得认真看下。

08:00

HuggingFace Daily Papers（社区热门论文）

69

Learning Agentic Policy from Action Guidance

针对大型语言模型的智能体强化学习提出新方法ActGuide-RL，通过引入日常人类交互产生的海量动作数据作为规划式参考指引，帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则，仅在必要时自适应启用指引以匹配任务难度，同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中，ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点，性能与需要大量监督微调数据的流程相当，为智能体强化学习提供了减少对繁重监督微调依赖的新范式。

智能体arXiv推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

基于文本-表格建模的陌生AI智能体决策预测方法

研究提出一种目标自适应的文本-表格预测方法，用于预测陌生AI智能体在谈判与交易中的决策。该方法将每个决策点构建为表格行，整合游戏状态、报价历史和对话文本，并在提示中提供目标智能体先前的K轮游戏作为适应示例。模型基于表格基础模型，结合了结构化特征、文本表示以及创新的“LLM作为观察者”隐藏状态特征。在13个前沿LLM智能体上训练，并在91个保留的支架智能体上测试，完整模型性能优于直接提示法和基线模型。当K=16时，观察者特征将响应预测AUC提升约4个百分点，并将议价报价预测误差降低14%，证明隐藏的LLM表征能捕捉直接提示无法获取的决策信号。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征（几何潜在与跟踪潜在）和时序RoPE对齐两项核心设计，将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式，仅需LoRA微调。给定单目视频及其逐帧重建点云图，模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能，同时以1.3倍的速度和仅需1/4.6的峰值内存运行，并对大幅运动和长视频保持鲁棒性。

arXiv多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

ShapeCodeBench：一个用于合成形状场景感知到程序重建的可再生基准

ShapeCodeBench是一个用于感知到程序重建的合成基准测试。给定一张渲染的光栅图像，模型必须输出一个可执行的绘图程序，由确定性评估器重新渲染并与目标图像比对。其v1版本在512x512黑白画布上定义了四种基本图形，每个实例均由随机数生成器生成，可创建全新的测试集以减少数据污染。基准发布了一个包含150个样本的固定评估集，涵盖简单、中等和困难三个级别，评估指标包括精确匹配、像素精度、前景IoU等。测试结果显示，传统计算机视觉启发式方法在简单场景中表现尚可，但在图形重叠时失效；最强的多模态配置能保留大部分前景结构，但因细微参数误差仍无法达到精确匹配。目前最佳精确匹配率仍然很低，表明该基准远未饱和。相关代码、数据集及论文资源均已开源。

多模态开源/仓库推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Orthrus：基于双视图扩散的内存高效并行令牌生成

Orthrus 提出一种双架构框架，将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块，构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存：自回归头负责上下文预填充以构建准确表示，扩散头则执行并行令牌生成。通过严格的共识机制，Orthrus 在保证无损推理的前提下，仅增加 O(1) 内存开销与极少参数量，即实现了最高 7.8 倍的生成加速。

arXivHugging Face推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

观点：应将大语言模型推理评估为"能量到Token的生产过程"

当前大模型推理评估过于侧重准确性、延迟等软件指标，忽视了部署规模下的核心约束：在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程，并建立了统一的Token生产函数模型，其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下，KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此，呼吁未来研究与基准测试在报告传统指标时，应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。

arXiv推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

60

世界-动作交互模型的曙光：DAWN

研究团队提出世界-动作交互模型（WAIMs）概念，并针对自动驾驶实例化出DAWN模型。DAWN在紧凑的语义潜在空间中，通过世界预测器与条件动作去噪器的耦合进行交互式推理：预测的世界为动作去噪提供条件，而去噪后的动作又反馈以更新世界预测，两者在推理中递归优化。该方法无需在像素空间展开完整未来预测，仅通过短时潜在推演即可支持复杂交互场景中的长时程轨迹生成。实验表明，DAWN在多个自动驾驶基准测试中取得了优异的规划性能与安全相关结果，证明交互式世界-动作生成是构建真正可操作世界模型的有效路径。

arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

PresentAgent-2：迈向通用多模态演示智能体

PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题，并从演示友好型来源进行深度研究，收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片，生成特定模式的脚本，并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式：单人演示（单解说员）、讨论式演示（多演讲者结构化角色）和交互式演示（基于生成内容回答观众问题）。研究团队构建了涵盖三种场景的多模态演示基准，并制定了内容质量、媒体相关性、动态媒体使用等评估标准，从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。

智能体arXiv多模态视频

08:00

HuggingFace Daily Papers（社区热门论文）

61

WriteSAE：用于循环状态矩阵缓存写入的稀疏自编码器

研究团队提出了WriteSAE，这是首个专门用于分解和编辑状态空间及混合循环语言模型矩阵缓存写入的稀疏自编码器，解决了传统残差SAE无法处理的领域。该方法将解码原子分解为原生写入形态，并提供每个token对数偏移的闭式解。在Qwen3.5-0.8B模型上的测试表明，原子替换在92.4%的触发案例中优于匹配范数消融，闭式解预测效果达R^2=0.98。在Mamba-2-370M模型上，替换成功率也达到88.1%。通过持续三位置安装，成功将贪婪解码下的中位目标延续率从33.3%提升至100%，首次实现了矩阵循环写入站点的行为级安装。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

视觉美学基准：前沿模型能评判美吗？

针对现有美学评估常简化为单图像打分的问题，研究提出了视觉美学基准（VAB），将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像，每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现，最强模型仅在26.5%的任务中准确识别最佳和最差图像，远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型，其性能可接近大得多的开源模型，表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。

arXiv多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

62

覆盖计算机使用中的人类操作空间：数据合成与基准测试

研究指出，GPT-4等计算机使用智能体在复杂、低频的屏幕交互中可靠性不足，失败案例呈长尾分布。为解决复杂交互数据稀缺问题，团队提出了新基准CUActSpot，用于评估模型在GUI、文本、表格、画布和自然图像五种模态及点击、拖拽等多种操作上的能力，其覆盖的交互类型远超以往以点击为中心的基准。同时，团队设计了一个基于渲染器的数据合成流程，可自动生成多模态场景并由大语言模型生成指令与操作轨迹。在此合成数据上训练的Phi-Ground-Any-4B模型，性能超越了参数量小于320亿的开源模型。相关资源已在GitHub开源。

智能体Microsoft多模态论文/研究

07:52

Apple Machine Learning Research（RSS）

52

BalCapRL：基于强化学习的MLLM图像描述平衡框架

研究团队针对多模态大语言模型图像描述任务提出BalCapRL平衡框架。该框架通过设计多维度奖励函数，系统解决了现有强化学习方法在追求描述效用时引发的幻觉、噪声和冗长等问题。实验表明，BalCapRL在保持描述准确性的同时，显著提升了信息密度与可读性，在多个基准测试中实现了更均衡的性能表现，有效突破了传统方法在核心维度间的权衡局限。

多模态论文/研究

5月11日

08:00

HuggingFace Daily Papers（社区热门论文）

62

无监督过程奖励模型

本研究提出一种无需人类标注的无监督过程奖励模型（uPRM）训练方法。该方法基于大语言模型下一个token的概率设计评分函数，能够联合评估一批推理轨迹中首个错误步骤的可能位置，实现完全无监督训练。实验表明，uPRM在ProcessBench数据集上识别首个错误步骤的准确率比“LLM作为裁判”方法最高提升15%；作为测试时验证器，其性能与监督PRM相当，比多数投票基线高出最多6.9%；在强化学习中作为奖励信号，训练过程比使用真实标签的监督PRM更稳定。该工作为复杂推理任务的可扩展奖励建模提供了新途径。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

审计多模态LLM评估者：临床序数评分中的趋中倾向偏差

本研究评估多模态大语言模型（LLM）作为临床评分自动评估器的表现，以画钟测试（CDT）图像评分任务为例。在两个公开数据集上，使用Shulman评分标准，比较三大前沿LLM家族（如GPT-5）与监督深度学习模型。零样本LLM在容差一致性上具有竞争力，但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”：预测分数系统性向量表中间压缩，高估低分、低估高分，严重影响认知障碍筛查的关键极端分数。消融实验证明，提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域，强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。

arXiv多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

AR-VLA：视觉语言动作模型的真正自回归动作专家

本文提出AR-VLA，一种独立的自回归动作专家模型。它通过可刷新的视觉-语言前缀生成连续的动作序列，并维护长期记忆以保持上下文感知，克服了传统模型每次观测都重置时序的局限。该架构解决了快速控制与慢速推理间的频率失配问题，实现了运动学语法的独立预训练，并可与复杂感知网络模块化集成。通过重锚定机制处理感知延迟，实验证明AR-VLA能生成更平滑的动作轨迹，其任务成功率保持或超越现有最优反应式模型，为机器人策略训练提供了可扩展的上下文感知框架。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

基于多边形序列生成的平面图重建方法

本文提出Raster2Seq方法，将复杂平面图的重建任务转化为序列到序列学习问题。该方法将房间、门窗等平面图元素表示为同时编码几何与语义信息的多边形序列，并通过自回归解码器，利用可学习锚点引导注意力机制，依据图像特征与已生成角点预测下一个角点。这种设计使模型能够灵活、高效地处理包含大量房间和复杂多边形结构的平面图。实验表明，Raster2Seq在多个标准基准上取得了领先性能，并在更具挑战性的数据集上展现出强大的泛化能力。

arXiv图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

WildClawBench：面向真实世界长周期智能体评估的基准

WildClawBench是一个原生运行环境基准，包含60项人工编写的双语多模态任务，涵盖六大主题。任务平均耗时约8分钟，涉及超20次工具调用，并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分，结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中，表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%，其余均低于60%，且仅更换框架就可使同一模型得分波动高达18分。结果表明，当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。

智能体arXiv论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

55

PREPING：无需任务的代理记忆构建

PREPING 框架旨在解决智能体在新环境中的冷启动问题，使其无需观察目标任务，仅通过自我生成的合成练习构建程序记忆。其核心是提议者记忆，一个结构化控制状态，用于引导练习。系统包含提议者、求解器和验证器：提议者生成合成任务，求解器执行，验证器筛选轨迹存入记忆并提供反馈。在 AppWorld、BFCL v3 和 MCP-Universe 上的实验表明，PREPING 显著优于无记忆基线，性能与基于离线或在线经验的强剧本方法竞争，且部署成本更低。分析显示，优势主要来自提议者对可行性、冗余性和覆盖度的控制，结合选择性记忆更新，而非单纯数据量。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

Active Tabular Augmentation via Policy-Guided Diffusion Inpainting

研究揭示了表格数据生成增强中存在的“保真度-效用差距”，即仅追求分布真实性未必能提升下游模型性能。为此提出的TAP方法将扩散修复技术与轻量级策略相结合，该策略根据学习器状态动态引导生成高效用样本，并通过显式门控和保守窗口承诺控制安全注入。在七个真实数据集上的实验表明，在数据极度稀缺时，TAP显著优于现有生成基线，最高提升分类准确率15.6个百分点，降低回归任务RMSE达32%。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

BEACON：一个从游戏数据中学习行为指纹的多模态数据集

本文发布BEACON大规模多模态数据集，旨在通过竞技游戏《Valorant》的高认知与操作负荷场景，为连续身份验证提供细粒度行为信号。该数据集包含约430GB同步多模态数据，涵盖28名玩家79次会话、总计102.51小时的实战记录，采集了高频鼠标动态、击键事件、网络数据包、屏幕录像、硬件元数据及游戏配置上下文。BEACON利用战术射击游戏固有的高精度操作与认知压力，为行为生物识别的鲁棒性提供了严格测试环境，支持连续认证、行为画像、用户漂移及多模态表征学习的研究。数据集与代码已开源。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

M2Retinexformer：用于低光图像增强的多模态Retinexformer

低光图像增强面临噪声、伪影和颜色失真等挑战。现有基于Retinex的深度学习方法主要依赖单模态RGB信息，性能有限。本文提出M2Retinexformer，一个新型多模态框架，在Retinexformer基础上扩展，融合深度线索、亮度先验和语义特征，采用渐进式细化流程。深度提供光照不变的几何上下文，亮度特征显式指导亮度分布，语义特征增强场景理解。多模态信息在多尺度提取，通过交叉注意力机制融合，自适应门控根据辅助线索可靠性动态平衡光照引导的自注意力和交叉注意力。在LOL、SID、SMID和SDSD基准测试上的评估表明，其性能整体优于Retinexformer及近期其他先进方法。代码与预训练权重已开源。

多模态开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

MulTaBench：面向文本与图像的跨模态表格学习基准测试

针对现有表格基础模型依赖冻结预训练嵌入处理文本、图像等非结构化模态导致信息丢失的问题，研究团队推出了包含40个数据集的MulTaBench基准。该基准专注于模态间提供互补预测信息的任务，避免以往基准中模态简单共现带来的高方差问题。实验表明，针对具体任务调整嵌入能显著提升模型性能，且这一收益在文本与图像模态、多种表格学习器及不同模型规模上均具普适性。作为迄今规模最大的图像-表格基准，MulTaBench覆盖医疗、电商等高影响领域，旨在推动融合联合建模与目标感知表征的新架构研究，为开发新一代多模态表格基础模型奠定基础。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

MemReread：通过记忆引导重读增强智能体长上下文推理能力

研究提出MemReread方法，以解决基于记忆的智能体在长文档推理中可能丢失潜在证据的问题。该方法在线性流式阅读基础上，当最终记忆不足时触发问题分解与重读，从而恢复被过早丢弃的间接事实，支持非线性推理同时保持文档理解逻辑。通过强化学习框架动态决定重读轮数以适配任务复杂度，灵活控制计算开销。实验表明，MemReread在长上下文推理任务中持续优于基线框架，且保持相对于上下文长度的线性时间复杂度。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

HAGE：通过强化学习驱动的加权图演化利用智能体记忆

本文提出HAGE，一种加权多关系记忆框架，将记忆检索重新定义为在统一关系图上进行查询条件化的顺序遍历。该框架将记忆组织为共享节点上的关系特定视图，每条边配有可训练的关系特征向量。面对查询时，基于大语言模型的分类器先识别关系意图，路由网络随后动态调整边嵌入的对应维度，遍历分数通过语义相似性与条件化边表示的学习组合计算。此外，HAGE引入基于强化学习的训练框架，共同优化路由行为与边表示。实验表明，相比现有先进系统，HAGE提升了长程推理准确性，并在准确性与效率间取得了更优平衡。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

SleepWalk：一个用于压力测试指令引导视觉语言导航的三级基准

SleepWalk 是一个用于评估单场景3D世界中指令接地轨迹预测能力的基准。它基于文本描述生成可导航3D环境，要求模型根据视觉观察和语言指令，预测符合场景几何、避免碰撞且能终止于可操作位置的轨迹。该基准涵盖多样环境，并将任务按时空难度分为三级，以分析组合复杂性增加时的接地能力。在2,472个场景上对三个前沿视觉语言模型的测试显示，它们在遮挡、交互约束及多步指令下存在系统性空间推理缺陷，任务难度增加时性能显著下降。SleepWalk为推进接地的多模态推理与具身智能体研究提供了关键基准。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

EVOCHAMBER：多智能体测试时协同进化框架

EVOCHAMBER 是一个无需训练的多智能体测试时进化框架，在智能体池中实现个体、团队和群体三层协同进化。其核心 CODREAM 协议在团队失败或分歧时触发，让智能体协作反思并非对称传递知识，以保持专业化。团队级和群体级算子分别管理协作结构和智能体生命周期。基于 Qwen3-8B 在三个异构任务流测试中，该框架在数学、代码和多领域推理任务上表现优异，数学准确率相对最佳基线提升 32%。消融实验证实非对称知识传递是性能提升关键。系统从相同初始化智能体涌现出稳定专家，体现了多智能体进化的独特结构特征。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

Urban-ImageNet：一个用于城市空间感知的大规模多模态数据集与评估框架

Urban-ImageNet是一个用于城市空间感知的大规模多模态数据集与评估基准，包含从2019年至2025年间在中国24个城市的61个地点从微博收集的超过200万张图像及配对文本。它提供1K、10K和100K规模的受控子集及完整语料库，基于HUSIC层次分类框架定义了10个类别，以区分激活与非激活公共空间、内外环境、住宿、消费、人像及非空间内容。基准支持城市场景语义分类、跨模态图文检索和实例分割三项任务。实验显示，模型在有监督场景分类上表现良好，但在跨模态检索和实例分割上更具挑战性；多尺度研究探讨了训练数据从1K增至100K时性能的变化，为AI系统感知城市空间提供了统一评估工具。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

IndustryBench：探究大语言模型的工业知识边界

研究团队发布IndustryBench，这是一个基于中国国家标准（GB/T）和工业产品记录构建的2049项中文工业采购问答基准，并提供了多语言对齐版本。构建中，基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题，凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现：最佳系统得分（0-3分制）仅为2.083分，提升空间巨大；“标准与术语”是普遍能力短板；扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数；安全违规检查会显著改变模型排名。研究表明，工业领域的大语言模型评估需基于源文本、具备安全意识，而非依赖简单的聚合准确率。

arXivHugging Face推理数据/训练

推荐理由：工业采购场景下，LLM的准确率远不够用，而且推理模型越想越多反而越不安全，这个基准把幻觉和安全风险摆上了台面。

08:00

HuggingFace Daily Papers（社区热门论文）

65

GLiNER-Relex：用于联合命名实体识别与关系抽取的统一框架

GLiNER-Relex 是一个统一框架，扩展自 GLiNER，能在单一模型中同时执行命名实体识别和关系抽取。它利用共享的双向 Transformer 编码器联合表示文本、实体与关系类型标签，支持在推理时零样本抽取任意指定类型。模型通过专用模块从识别出的实体构建配对表示并进行关系评分。在 CoNLL04、DocRED 等四个标准基准测试中，其性能与专用关系抽取模型及大语言模型相当，同时保持了 GLiNER 系列的高计算效率。该模型已开源，提供简洁的 API，允许用户通过单次调用获取实体及关系三元组。

开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

面向视觉原生多模态深度搜索代理的策略上数据演化

本文针对多模态深度搜索代理提出两项改进。首先，设计了一个以图像库引用协议为核心的视觉原生代理框架，将工具返回的图像注册为可寻址引用，使中间视觉证据能被后续工具复用。其次，在此基础上构建了策略上数据演化框架，通过运行闭环数据生成器，依据被训练策略的推演结果进行多轮自我优化，使每轮数据都针对当前策略的待学习需求。该框架能同时生成多样化的监督微调数据和策略感知的强化学习数据。在8个基准测试中，该方法显著提升了不同规模代理模型的性能，分析证实图像库重用对需迭代视觉细化的复杂任务尤其有效。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

62

FocuSFT：面向注意力稀释问题的双层优化长上下文微调框架

针对大语言模型在长上下文微调中因位置偏见和注意力汇聚导致的注意力稀释问题，本研究提出了FocuSFT双层优化框架。该方法通过内循环快速权重参数形成参数化记忆，集中注意力于相关内容，外循环则基于此锐化表征进行监督微调。实验表明，在BABILong基准上准确率最高提升14个百分点；在RULER的16K长度下，CWE分数从72.9%提升至81.1%；在GPQA工具使用任务中pass@1相对提升24%。注意力分析显示，该方法将训练时的注意力汇聚效应降低529倍，并显著提升了上下文参与度。

arXiv论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

Agent-ValueBench：首个评估智能体价值的综合基准

研究团队发布了首个专门评估智能体价值的基准测试Agent-ValueBench，以弥补现有基准仅局限于大语言模型的不足。该基准包含16个领域的394个可执行环境，提供了4,335个覆盖28个价值体系的价值冲突任务。每个任务均通过定制流程合成并由心理学家审定，配备两条极性对齐的黄金轨迹用于评估。基于对14个前沿模型的测试，研究发现智能体价值呈现“价值潮汐”同质化现象，其表现受执行框架非叠加性影响，而嵌入式技能能产生更决定性的调控效果。这表明智能体对齐的重点正从模型与提示词引导转向框架对齐与技能引导。

智能体安全/对齐论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

60

Continual Harness：面向具身智能体的在线自适应与自我改进框架

研究团队提出Continual Harness，一种无需环境重置、可在线自我改进的具身智能体框架。该框架源于Gemini Plays Pokemon实验，其智能体在人工优化后首次实现了《宝可梦》系列游戏的无败绩通关。Continual Harness实现了完全自动化：智能体仅从基础环境接口出发，在单一运行中交替执行行动与自我优化，动态改进提示、子智能体、技能和记忆。在《宝可梦红/绿宝石》测试中，该框架显著降低了操作成本，并弥补了与人工设计专家系统的大部分性能差距。研究进一步实现了在线过程-奖励协同学习循环，通过前沿教师模型标注轨迹并更新模型，最终在无需重置的情况下持续推动了游戏进展。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

RubricEM：超越可验证奖励的、基于评分标准引导策略分解的元强化学习框架

本文提出RubricEM框架，将评分标准作为结构化策略执行、反馈与记忆共享的核心接口，以训练深度研究智能体。该框架通过自生成评分标准使研究过程具备阶段意识，并采用阶段结构化GRPO进行更密集的语义信用分配。同时，它训练一个共享骨干的反思元策略，将已评估轨迹提炼为可重用的评分标准指导。最终实现的RubricEM-8B模型在四个长文本研究基准测试中表现优异，超越同类开源模型并接近专业系统水平。分析结果揭示了该框架各组成部分的关键作用。

智能体MCP/工具数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

策略蒸馏的多重困境：失效机制与修复方案

研究发现，大型语言模型的后训练方法——策略蒸馏（OPD）与策略自蒸馏（OPSD）效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感；OPSD则在测试时缺乏实例特定特权信息时容易失效，但在系统提示等共享规则场景下有效。失效机制主要包括：师生分布不匹配、TopK反向KL梯度导致的优化不稳定，以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。

arXiv推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

68

教语言模型用代码思考

针对现有工具集成推理范式存在代码仅用于事后验证、自然语言中间计算易错等问题，研究团队提出ThinC框架，将代码本身作为核心推理器。该框架仅以简短自然语言规划开始，后续所有推理均通过代码块及其执行输出串联完成。团队从教师模型中提取了12.2万条代码轨迹，并训练出ThinC-1.7B和ThinC-4B模型。在五项竞赛级数学基准测试中，ThinC-4B全面超越了所有工具集成推理基线，甚至优于规模大得多的Qwen3-235B-A22B-Thinking模型。分析表明，其99.2%的最终答案基于解释器输出，且能在代码执行失败时可靠恢复。

推理论文/研究

5月10日

22:07

The Decoder：AI News（RSS）

61

AI agents 现已能入侵计算机并自我复制，且能力正快速提升

Palisade Research 的研究显示，AI agents 能够入侵远程计算机，将自身复制到目标设备上并形成复制链。其入侵成功率在一年内从 6% 大幅跃升至 81%。研究人员预计，随着模型在入侵能力上的持续进步，剩余的技术障碍也将被突破。

智能体安全/对齐