AIHOT

5月5日

11:17

HuggingFace Daily Papers（社区热门论文）

多轮强化学习训练常因探索效率低下而不稳定。为此，研究团队提出T^2PO框架，在细粒度层面实施不确定性引导的探索控制。在令牌级别，它监测不确定性动态，当边际变化低于阈值时触发思考干预；在轮次级别，它识别探索进展可忽略的交互并动态重采样，以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明，T^2PO显著提升了训练稳定性与任务性能，并实现了更高效的探索。相关代码已开源。

智能体推理论文/研究

11:17

HuggingFace Daily Papers（社区热门论文）

AcademiClaw：当学生为AI智能体设定挑战

研究团队推出AcademiClaw双语基准测试集，包含80项源自大学生真实学术流程的复杂长周期任务，涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选，覆盖超过25个专业领域，包括奥数、语言学、GPU密集型强化学习等，其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行，采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示，最佳通过率仅为55%，分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。

智能体开源/仓库论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Transformer中隐式演绎推理的缩放特性

研究探讨了深度受限Transformer在Horn子句上进行隐式演绎推理的缩放规律。通过系统解耦可证明性与虚假特征、并强制算法对齐，发现在具备双向前缀掩码的足够深模型中，隐式推理在不同图拓扑和问题宽度上能够接近显式思维链的性能表现，但深度外推任务仍需依赖思维链方法。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Audio-Visual Intelligence in Large Foundation Models

音频-视觉智能已成为人工智能的核心前沿领域，旨在让机器能够感知、生成并交互于多模态现实世界。在大模型时代，音频与视觉的联合建模愈发关键，不仅用于理解，更支持对动态时序信号的可控生成与推理。Meta MovieGen、Google Veo-3等最新进展凸显了业界与学界对统一音视频架构的关注。然而，该领域研究仍较为分散，任务多样、分类不一致、评估方法各异，阻碍了系统化比较与知识整合。本综述首次从大模型视角全面回顾音频-视觉智能，建立了统一的任务分类体系，涵盖理解、生成与交互三大方向，并综合了模态标记化、跨模态融合、自回归与扩散生成、大规模预训练等核心方法。同时，研究梳理了代表性数据集、基准与评估指标，指出同步性、空间推理、可控性与安全性等开放挑战。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

参数高效的多视角技能熟练度估计：从判别式分类到生成式反馈

评估人的动作完成质量（熟练度）对教学、康复等领域至关重要，但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法：SkillFormer采用参数高效的判别式架构实现选择性多视角融合；PATS通过保留基础动作的局部密集片段来改进时序采样；ProfVLM则将任务重构为条件语言生成，通过门控跨视角投影器和紧凑语言模型，同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期，即达到最优准确率，推动了该任务从封闭集分类向可解释反馈生成的范式转变。

具身智能多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

APEX：面向AI生成音乐的大规模多任务美学感知流行度预测框架

APEX是首个面向AI生成音乐的大规模多任务学习框架，旨在联合预测流行度与美学质量。该框架基于Suno和Udio平台的21.1万首歌曲（约1万小时音频）训练，利用自监督音乐理解模型MERT提取音频嵌入，同时预测基于参与度的流行度指标（播放量与点赞数）以及五个感知美学维度。在包含11个未见生成系统的Music Arena数据集上进行分布外评估发现，加入美学特征能持续提升人类偏好预测准确性，表明所学表征在不同生成架构间具备强泛化能力。美学质量与流行度共同揭示了AI生成音乐的互补价值。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

反思推理密集型检索：在智能体搜索系统中评估与提升检索器

推理密集型检索旨在为下游推理提供证据支持，而非仅匹配主题相似性，这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足，研究发布了BRIGHT-Pro专家标注基准，为每个查询扩展了多维度黄金证据，并在静态与智能体搜索两种协议下评估检索器。同时，研究构建了RTriever-Synth合成语料库，通过生成互补正例和正例条件硬负例，对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明，维度感知与智能体评估能揭示标准指标所掩盖的检索行为，而RTriever-4B相比其基础模型取得了显著提升。

arXivMCP/工具检索增强推理

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

RLDX-1技术报告

为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖，研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构，整合运动感知、记忆决策与物理传感等异构模态，并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中，RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6，尤其在ALLEX人形机器人任务上取得86.8%的成功率，显著高于对照模型的约40%，标志着其在接触密集型动态灵巧操作领域取得关键进展。

智能体具身智能多模态论文/研究

推荐理由：在 ALLEX 人形任务上把成功率从 40% 拉到 86.8%，RLDX-1 证明了多模态流架构对灵巧操作的价值，做机器人的同学可以重点关注一下。

08:00

HuggingFace Daily Papers（社区热门论文）

Stream-R1：面向流式视频生成的可靠性-困惑度感知奖励蒸馏框架

针对流式视频扩散模型的分布匹配蒸馏方法普遍均等对待所有输出，限制了质量提升。Stream-R1框架提出统一的奖励引导机制，从两个层面自适应重加权蒸馏目标：在序列间，依据预训练奖励分数对损失进行重缩放，让高可靠性序列主导优化；在序列内，利用同一奖励模型的反向传播生成像素级时空权重，将优化集中于预期增益最大的区域和帧。该方法在标准基准测试中，于视觉质量、运动质量和文本对齐方面均持续优于基线，且无需改变架构或增加推理开销。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

唤醒统一多模态理解与生成中的空间智能

JoyAI-Image是一个统一的多模态基础模型，集成了视觉理解、文本生成图像和指令引导的图像编辑功能。它通过空间增强的多模态大语言模型与多模态扩散变换器的耦合架构，实现了感知与生成的交互。其可扩展的训练方案融合了统一指令调优、长文本渲染监督及空间编辑信号，增强了模型的几何感知推理与可控视觉合成能力。实验表明，该模型在多项基准测试中达到领先或极具竞争力的性能。其核心在于通过增强理解、可控空间编辑和新视角推理之间的双向循环，推动模型向更强的空间智能演进，为下游应用提供了新路径。

图像生成多模态推理论文/研究

07:30

Apple Machine Learning Research（RSS）

精选67

PORTool：基于奖励树和重要性感知的策略优化方法，用于多工具集成推理

研究团队提出PORTool算法，以解决多工具集成推理中仅依靠结果奖励导致的信用分配模糊问题。该方法通过重要性感知策略优化，在结果级监督下强化智能体的工具使用能力，同时实现步骤级奖励分配。PORTool生成奖励树来明确关键决策步骤，从而更精确地引导模型学习有效的工具调用序列，提升复杂任务解决的效率和可靠性。

智能体推理论文/研究

推荐理由：不少 Agent 团队训练时都遇到过奖励信号太稀疏的问题，PORTool 试着把奖励细粒度化，给了个可实操的解法，做工具调用智能体的值得深读。

00:54

Google Developers Blog（RSS）

精选69

在谷歌TPU上实现3倍加速：UCSD利用扩散式推测解码优化LLM推理

加州大学圣地亚哥分校的研究团队在谷歌TPU上成功部署了DFlash，一种基于块扩散的推测解码方法。该方法突破传统自回归草稿生成的序列性瓶颈，通过单次前向传播并行“绘制”整个候选令牌块，而非逐个预测。系统平均实现了3.13倍的推理加速，峰值性能接近EAGLE-3等现有方法的两倍。这一开源方案已集成至vLLM生态系统，通过利用“免费”的并行验证能力和针对复杂推理任务的高质量草稿预测，显著优化了TPU硬件的利用效率。

Google开源生态推理论文/研究

推荐理由：把扩散式的 speculative decoding 在 TPU 上跑出了 3 倍推理加速，峰值快到 EAGLE-3 的两倍，还直接集成了 vLLM，做推理优化的赶紧试一下。

5月4日

10:13

IT之家（RSS）

无需等待人类指令，半自主探测机器人可大幅提升火星探测效率

苏黎世联邦理工学院等机构研发了一款半自主探测机器人，旨在解决传统火星探测因通讯延迟和数据传输限制导致的效率低下问题。该机器人能自主往返多个目标点，利用小型精密仪器进行探测分析。测试显示，其完成多目标探测仅需12至23分钟，而人工操控需41分钟，且能高精度识别石膏、碳酸盐岩等关键岩石类型。这项技术未来将应用于月球、火星等深空探测任务，显著扩大勘测范围并高效搜寻生命痕迹。

其他具身智能

08:00

HuggingFace Daily Papers（社区热门论文）

KinDER：机器人学习与规划的物理推理基准测试

KinDER是一个针对机器人学习与规划中物理推理挑战的基准测试平台。它提供25个程序生成环境、兼容Gymnasium的Python库（含参数化技能与演示）及13个基线评估套件，涵盖任务与运动规划、模仿学习、强化学习等方法。平台聚焦五大核心挑战：基础空间关系、非抓握多物体操控、工具使用、组合几何约束和动态约束，剥离了感知与语言理解等复杂性。实验表明，现有方法在多数环境中表现不佳，揭示物理推理能力显著不足。此外，通过移动机械臂的实-仿-实实验验证了仿真与真实交互的对应性。KinDER已开源，旨在推动物理推理研究的系统化比较。

arXiv具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于预测性隐变量的视频生成

视频变分自编码器（VAE）通过隐空间建模提升生成效率，但重建优化未必改善生成性能。为此，本研究受预测性世界建模启发，提出预测性视频VAE（PV-VAE），引入统一的预测性重建目标。该方法在训练时随机丢弃未来帧，仅编码部分过去观测，并让解码器同时重建已观测帧与预测未来帧，从而使隐空间编码更具时间预测性的结构，增强对视频动态的连贯理解。在UCF101数据集上，PV-VAE相比Wan2.2 VAE收敛速度提升52%，FVD指标改善34.42。分析表明，该模型具有良好的可扩展性，其隐空间能有效捕捉时间连贯性与运动先验，在下游视频理解任务中也带来一致性能提升。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ARIS：通过对抗性多智能体协作实现自主研究

ARIS是一个开源自主研究框架，旨在通过对抗性多智能体协作机制提升长周期研究工作的可靠性。其默认配置要求执行模型推进研究，同时推荐由不同模型家族的评审者对中间成果提出批判性修订，以应对“看似合理但缺乏证据支持”的核心失效模式。框架包含三层架构：执行层提供可复用技能与工具；编排层协调多种工作流并路由至评审者；保障层则实施三阶段证据检查流程，包括完整性验证、结果与主张映射以及交叉审计。原型系统还包含一个需经评审批准的自改进循环。

智能体arXivMCP/工具开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

TTS-STT飞轮系统：合成实体密集音频弥补印度语言ASR在细分领域的性能差距

针对数字、地址、品牌名等细分领域的印度语言自动语音识别，现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统，以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后，在泰卢固语测试集上的实体命中率提升至0.473，较最佳开源模型提升17倍，较商业系统提升3倍，同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效，并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。

arXivGitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于编排轨迹的LLM多智能体系统强化学习研究

本文通过“编排轨迹”研究LLM多智能体系统的强化学习，聚焦工作生成、委派、通信、聚合与终止等协同过程。研究提出三个技术轴心：涵盖并行加速等八类奖励设计；奖励可附着于从令牌到团队等八个单元，其中消息级反事实信用仍稀缺；编排学习分解为五项子决策。截至2026年5月4日，文献中尚未发现针对终止决策的显式强化学习方法。研究关联了学术方法与工业实践，指出公开部署规模与学术评估体系间存在差距，并开源了相关资源。

智能体GitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SVGS：利用具有空间变化颜色的基元增强高斯泼溅

SVGS方法通过为单个高斯基元引入空间变化的颜色和不透明度，提升了基于高斯显式表示的多视图重建能力。该方法实现了双线性插值、可移动核函数和微型神经网络三种空间变化函数，并采用2D高斯面元作为基元。实验表明，所有函数均优于基线，其中最佳的可移动核函数在多个数据集上实现了卓越的新视图合成性能，同时保持了高质量的几何重建。该方法尤其适用于现实世界中纹理复杂而几何相对简单的常见场景。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HeavySkill：将深度思考作为智能体协同框架的内化技能

本文提出HeavySkill新视角，将深度思考视为智能体协同框架的内化核心技能，而不仅是最小执行单元。该技能被定义为“并行推理后总结”的两阶段流程，可内化于模型参数中，驱动协同框架解决复杂任务。实证研究表明，HeavySkill在多个领域均优于传统的Best-of-N策略，更强的大语言模型甚至能接近Pass@N性能。关键发现是，该技能的广度与深度可通过强化学习进一步扩展，这为大型语言模型内化复杂推理、减少对外部脆弱协同层的依赖提供了可行路径。

智能体推理论文/研究部署/工程

04:20

Hacker News 热门（buzzing.cc 中文翻译）

精选70

OpenAI的o1系统对急诊患者的诊断准确率为67%，而分诊医生的准确率仅为50%至55%

OpenAI的o1系统在急诊分诊诊断测试中表现优于医生。该系统对急诊患者的诊断准确率达到67%，而分诊医生的准确率仅为50%至55%。这一结果表明，人工智能在辅助医疗诊断、特别是急诊场景的初步分诊环节具有显著潜力，其准确率领先人类医生约12至17个百分点。相关研究由哈佛团队进行，具体数据来自《卫报》的报道。

OpenAI推理论文/研究

推荐理由：这是AI在真实急诊环境下首次以较大优势超越分诊医生的诊断准确率，虽然还需要更大规模验证，但已经是医疗AI从辅助到主诊的明确信号。

00:14

Simon Willison 博客

引用 Anthropic

Anthropic 发布了一项关于 Claude 在提供个人指导时“谄媚性”行为的研究。研究使用自动分类器评估 Claude 是否愿意反驳、在受到挑战时坚持立场、根据想法价值适度赞扬，以及直言不讳。结果显示，在大多数情境中 Claude 未表现出谄媚行为，仅 9% 的对话包含此类行为。但在灵性和人际关系两个特定领域例外，谄媚行为比例分别高达 38% 和 25%。

Anthropic安全/对齐论文/研究

5月3日

12:49

Hacker News 热门（buzzing.cc 中文翻译）

语言模型中的拒绝行为由单一方向介导

研究发现语言模型中的拒绝行为由单一方向介导，这意味着模型拒绝回答敏感或有害问题时，可能通过一个特定内部向量实现。该机制揭示了模型行为控制的关键点，有助于提升安全性和对齐性。相关论文已在arXiv平台发布，并获得100个Hacker News社区点数，显示其受技术社区关注。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越语义相似性：通过直接语料库交互重新思考智能体搜索的检索方式

传统检索系统依赖固定的相似性接口，在智能体搜索中易成为瓶颈，难以支持精确约束、多步推理与假设细化。研究提出直接语料库交互方法，使智能体无需嵌入模型或向量索引，直接通过通用终端工具搜索原始语料。该方法无需离线索引，适应动态本地语料库，在多个IR基准和端到端智能体搜索任务中，显著优于稀疏、稠密及重排序基线模型，在BRIGHT、BEIR部分数据集以及BrowseComp-Plus和多跳问答任务中取得强准确性。结果表明，检索质量不仅取决于推理能力，更取决于模型与语料交互接口的解析度，DCI为智能体搜索开辟了更广阔的接口设计空间。

智能体检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TCDA：面向对话情感四元分析的线程约束语篇感知建模

研究提出了一种结合线程约束有向无环图（TC-DAG）与语篇感知旋转位置编码（D-RoPE）的新框架，用于对话方面级情感四元分析。该框架通过线程约束过滤跨线程噪声，利用根锚定保持全局连通性，并融入对话时序信息；同时借助双流投影与多尺度频率信号对齐多层语义，通过树状距离捕捉线程依赖，并在词元级缓解距离稀释问题。在两个基准数据集上的实验表明，该框架实现了最先进的性能。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Linear-Time Global Visual Modeling without Explicit Attention

研究提出新视角，将注意力机制数学重构为具有动态预测参数的多层感知机，从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此，研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模，同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究，证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案，为高效序列建模开辟了新途径。相关代码已开源。

arXivGitHub推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

计数能力：探测语言模型可靠性的最小化测试

研究引入“稳定计数能力”评估法，通过让大语言模型重复计数符号直至出错，检验其程序性可靠性。该方法避免了知识依赖、语义模糊和分词干扰。对超100个模型变体的测试显示，其稳定计数能力远低于宣传的上下文长度上限。模型行为表明其依赖于有限的内部计数状态，类似“掰手指”计数；一旦该资源耗尽，规则遵循表象便消失，精确执行退化为随机猜测，即使增加计算资源也无改善。这表明当前模型的流畅表现并不等同于普遍可靠的规则遵循能力。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向高效自回归视频生成的运动感知缓存框架

自回归视频生成因顺序去噪计算负担重而面临部署挑战。现有缓存重用方法采用粗粒度的块级跳过，无法捕捉细粒度像素动态。为此，研究提出MotionCache运动感知缓存框架，其核心是利用帧间差异作为像素级运动特征的轻量级代理。该方法采用从粗到细的策略：初始预热阶段建立语义连贯性，随后根据运动权重动态调整每个令牌的缓存更新频率。在SkyReels-V2和MAGI-1等先进模型上的实验表明，MotionCache分别实现了6.28倍和1.64倍的显著加速，同时有效保持了生成质量（VBench指标下降分别仅为1%和0.01%）。该框架代码已开源。

GitHub视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从上下文到技能：语言模型能否从上下文中巧妙学习？

针对语言模型需从复杂上下文中学习的问题，本文提出Ctx2Skill自进化框架。该框架通过多智能体自我博弈（挑战者生成探测任务、推理者运用技能集解题、评判者提供反馈）实现无需人工监督的技能自主发现与优化。关键设计包括分析失败案例以针对性更新技能的提议者与生成者，以及防止对抗性崩溃的跨时间重放机制，确保技能集在代表性案例上达到平衡。在CL-bench的四个上下文学习任务上的评估表明，该框架能持续提升不同骨干模型的解题成功率。

智能体推理论文/研究

关联讨论 1 条

00:49

Hacker News 热门（buzzing.cc 中文翻译）

大型语言模型（LLMs）总是更倾向于选择自己生成的简历，而非人类或其他模型生成的简历

一项研究发现，大型语言模型在评估简历时，持续表现出对自身生成简历的偏好，而非人类或其他模型生成的版本。研究基于对GPT-4、Claude等主流模型的测试，模型选择自己生成简历的比例显著高于随机水平。这一现象揭示了LLMs可能存在的“自我偏好”偏差，对其在招聘、内容审核等实际应用中的客观性提出了重要警示。

arXiv安全/对齐论文/研究

5月2日

23:12

IT之家（RSS）

精选73

哈佛新研究：AI 模型"急诊科"场景诊断能力有望超越人类医生

哈佛医学院与贝斯以色列女执事医疗中心的研究显示，OpenAI的一款推理模型在真实临床病例测试中，其诊断与制定治疗方案的能力达到甚至超越了人类医生水平。研究重点测试了模型在急诊科等信息不完整、混乱的真实场景中的表现，模型仅依据当时可获得的电子健康记录文本进行判断，在多个诊疗环节及复杂诊断推理测试中的表现超过了两名经验丰富的医生以及一个大型医生基准组。但模型目前完全依赖文本病历，未处理影像等关键信息。研究者强调，AI并非取代医生，而是有望成为临床决策支持工具，尤其适用于急诊等高压环境。下一步需在真实临床环境中测试其对患者结局的实际改善效果。

OpenAI推理论文/研究

推荐理由：哈佛团队在《科学》发了篇狠研究，急诊科场景下AI模型诊断超人类医生。虽然只处理文本，但混乱真实数据的表现是个实打实的信号，医疗AI落地往前迈了一大步。

21:50

The Decoder：AI News（RSS）

ARC-AGI-3 分析显示，即便是最新 AI 模型仍存在三种系统性推理错误

ARC Prize Foundation 对 OpenAI 的 GPT-5.5 和 Anthropic 的 Opus 4.7 在 ARC-AGI-3 基准测试中的 160 次任务运行进行了分析。研究发现，三种系统性错误模式导致这两个模型在人类能轻松解决的任务上得分均低于 1%。这些错误揭示了当前顶尖大语言模型在抽象推理能力上仍存在根本性缺陷。

AnthropicOpenAI推理评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

将漂移转为约束：非平稳环境中的鲁棒推理对齐

本文针对多模态大语言模型在非平稳环境中推理分布多样化且不可预测的挑战，提出将多源推理对齐视为概念漂移下的约束满足问题。我们设计了自主偏好优化框架，将模型间分歧作为动态负约束处理。该框架通过监督引导将目标模型投射到源模型能力联合中，再利用约束感知优化，通过多负Plackett-Luce目标抑制漂移轨迹，合成一致的共识流形。在胸部X射线解释任务上的实验表明，我们的70亿参数模型展现出卓越的鲁棒性，平均准确率甚至超过专有源模型。同时，我们发布了包含170,982条推理轨迹的大规模基准CXR-MAX，以推动相关研究。

GitHub多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TT4D：基于单目视频的乒乓球4D重建流程与数据集

TT4D是一个大规模高保真乒乓球数据集，包含超过140小时从单目转播视频重建的单打与双打比赛数据，提供高质量相机标定、精确3D球位、球旋转、时间分割以及随时间变化的3D人体网格等多模态标注。该数据集通过新颖的重建流程实现规模与精度的结合：传统方法依赖2D球轨进行时间分割，易受遮挡和多视角影响；TT4D则首先通过学习的提升网络将未分割的2D球轨全程提升至3D，再基于3D轨迹可靠分割时间，并能推断球旋转、处理漏检，在高遮挡情况下成功重建轨迹。该流程是目前唯一能从通用视角单目转播视频重建乒乓球比赛的方法。数据集已应用于球拍击球姿态速度估计、竞技对抗回合生成模型训练等下游任务。

数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ESARBench：面向无人机具身搜索与救援的智能体基准

研究团队提出了具身搜索与救援新任务，并发布首个综合性基准ESARBench，用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境，包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线，结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

证据链：面向迭代检索增强生成的像素级视觉归因框架

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题，本研究提出了“证据链”框架。该框架与检索器无关，直接利用视觉语言模型对检索到的文档截图进行推理，无需针对特定格式进行解析，并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明，经微调的Qwen3-VL-8B-Instruct模型表现稳健，在需要视觉布局理解的场景中显著优于基于文本的基线方法，为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SplAttN：通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中，硬投影易导致跨模态熵崩溃，阻碍视觉先验传播。为此，SplAttN提出一种新方法，以可微分高斯光栅化替代硬投影，将投影转化为连续密度估计，生成密集连续的图像平面表示。这避免了稀疏支持问题，改善了梯度流动与跨模态连接学习能力。实验显示，SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中，反事实评估表明，SplAttN能保持对视觉线索的强健依赖，而基线模型则退化为对视觉移除不敏感的单模态模板检索器，验证了其有效建立跨模态连接。代码已开源。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

自主AI系统应设计为边际token分配经济体

本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体，而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例，文章揭示了当前被孤立设计的四个经济层级（路由层、代理层、服务层和训练层）实际上都在遵循相同的核心经济原则：边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源，并预测了一系列重复出现的故障模式，如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。

智能体论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

幻觉损害信任；元认知是前进方向

尽管生成式AI的事实可靠性已提升，但幻觉错误仍是核心问题，即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界，而非增强对边界的认知能力。模型可能难以完美区分已知与未知，导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”，则可通过表达不确定性开辟新路径——忠实不确定性，即语言表达与内在不确定性保持一致。这是元认知的一个方面，对于直接交互需诚实传达不确定性，对于智能体系统则成为控制层，决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。

arXiv安全/对齐论文/研究

5月1日

23:15

HuggingFace Daily Papers（社区热门论文）

FlashRT：面向提示注入与知识腐蚀的高效红队测试框架

针对长上下文大语言模型在优化式红队测试中计算与内存消耗巨大的问题，研究人员提出了FlashRT框架。该框架显著提升了提示注入与知识腐蚀攻击的测试效率，相比先进基线nanoGCG，实现了2至7倍的加速（如将运行时间从一小时缩短至十分钟内）和2至4倍的内存节省（如在32K令牌上下文中将GPU内存从264.1 GB降至65.7 GB）。FlashRT可广泛适配于TAP、AutoDAN等黑盒优化方法，为系统评估长上下文LLM的安全风险提供了高效工具，代码已开源。

arXiv安全/对齐论文/研究