AIHOT

5月7日

08:00

HuggingFace Daily Papers（社区热门论文）

为应对LLM智能体工具使用能力增强带来的安全风险，研究团队提出了SafeHarbor框架。该框架通过增强对抗生成提取上下文感知的防御规则，并设计了本地分层记忆系统进行动态规则注入，提供无需训练、高效即插即用的安全解决方案。其基于信息熵的自进化机制能通过动态节点分裂与合并持续优化记忆结构。实验表明，SafeHarbor在模糊良性任务和明确恶意攻击上均达到最优性能，在GPT-4o上实现了63.6%的峰值良性效用，同时对有害请求保持超过93%的拒绝率。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

高效预训练：令牌叠加训练法

研究团队提出令牌叠加训练法，这是一种即插即用的高效预训练方法。该方法无需改动模型架构、并行策略等核心组件，通过将连续令牌合并为包并进行多热交叉熵目标训练，随后恢复标准训练的两阶段设计，显著提升了数据吞吐效率。在2.7亿至100亿参数的不同模型规模上验证表明，该方法具有高度鲁棒性，能持续优于基线模型的损失表现与下游任务结果。在同等损失条件下，该方法在100亿参数规模上实现了预训练总时间最多减少2.5倍的成效。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Relit-LiVE：通过联合学习环境视频实现视频重照明

Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于，将原始参考图像显式引入渲染过程，以恢复固有表示中丢失的关键场景信息；同时，通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图，增强了几何-光照对齐性，显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明，该方法在合成与真实场景基准测试中均优于现有先进方法，并支持场景渲染、材质编辑等下游应用。

arXiv图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Conformal Agent Error Attribution

针对基于大语言模型的多智能体系统因交互轨迹长而难以定位错误的问题，研究者提出一个基于保形预测的误差归因框架。该框架提供有限样本且与分布无关的覆盖保证，并引入了专为序列数据设计的新算法，能预测出连续的序列集合以支持高效的系统回滚与调试。方法具有模型无关性，经多种智能体和数据集验证，可精确隔离错误并利用预测集使多智能体系统回滚至早期状态以自行修正错误。相关代码已开源。

智能体MCP/工具开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

信念空间动力学中可容许学习率步长的闭形式上界

研究将学习率步长从超参数提升为可计算量。在概率单纯形上，当更新被建模为投影前向步时，可容许性意味着在自然KL/Bregman几何中的收缩性。该模型表明，可容许步长的上界并非调参口号，而是一个明确的闭形公式。这一成果为优化算法提供了基于几何结构的理论步长界限，将步长选择从经验调优转向可计算的局部信念空间动力学。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

无需训练的多模态大语言模型密集手部接触估计方法

针对密集手部接触估计任务，本文提出了一种无需训练、零样本的方法ContactPrompt，以利用多模态大语言模型（MLLMs）的推理能力。该方法通过引入详细的手部分割和基于部分的顶点网格表示，有效编码了3D手部几何结构。同时，采用多阶段结构化接触推理与部分条件化机制，逐步融合全局语义理解与细粒度几何分析，从而实现精确的顶点级接触定位。实验表明，该方法在无需任何训练的情况下，性能优于此前基于大规模数据集训练的有监督方法，展现了MLLMs处理复杂视觉任务的潜力。代码将公开。

arXiv多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

X-OmniClaw技术报告：一个用于多模态理解与交互的统一移动智能体

本文介绍了X-OmniClaw，这是一个为安卓系统设计的统一移动智能体，旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块：Omni Perception提供统一的多模态输入管道，整合UI状态、视觉上下文与语音，并分解为结构化意图表示；Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆，以增强个性化与上下文感知；Omni Action采用结合XML元数据与视觉感知的混合落地策略，通过行为克隆与轨迹回放捕获用户导航技能，实现精确的直接访问执行。多场景演示表明，该系统能有效提升交互效率与任务可靠性，为下一代移动原生个人助手提供了实用蓝图。

智能体arXiv多模态端侧

08:00

HuggingFace Daily Papers（社区热门论文）

揭示多模态知识编辑中的实体身份混淆现象

多模态知识编辑旨在修正视觉语言模型的知识，但编辑后模型会出现“实体身份混淆”的系统性故障：仅文本查询时，会将原实体身份错误关联到新实体。研究构建了诊断基准EC-Bench，发现现有方法未能区分模型的图像-实体绑定知识与实体-关系知识，导致模型过度依赖实体关联作为捷径，使新实体名成为虚假标签。实验表明，将编辑限制在图像-实体处理阶段，能促使编辑更忠实作用于图像绑定，从而显著减少身份混淆。这为未来研究提供了方法论指导。

多模态安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PACEvolve++：改进进化搜索代理的测试时学习

研究提出PACEvolve++，一个用于进化搜索代理测试时策略适应的顾问模型强化学习框架。它将战略决策与实施解耦：可训练的顾问模型生成并评估假设，更强的前沿模型则将其转化为候选方案。针对非平稳反馈，研究提出阶段自适应训练方法，使顾问模型在进化早期学习广泛搜索偏好，后期则聚焦于最优前沿贡献以支持稳定优化。在负载均衡、序列推荐和蛋白质适应性外推等任务中，该框架均优于当前最先进的基于前沿模型的进化搜索方法，实现了更快收敛与更稳定的测试时训练。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

反思强化学习对大语言模型推理的作用：是稀疏策略选择，而非能力学习

研究发现，强化学习改进大语言模型推理时，并非教授新策略，而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上，且所提升的token始终位于基础模型前5个备选之中。基于此，研究者提出无需强化学习的ReasonMaxxer方法，仅在熵选通的决策点施加对比损失，仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中，该方法达到或超越了完整强化学习的性能，而训练仅需数十道题目、数分钟的单GPU时间，成本降低约三个数量级。

arXiv推理数据/训练论文/研究

推荐理由：这篇论文直接挑战当前主流 RL 训练范式，认为 RL 只是在选择已有策略而非学习新能力，并给出千分之一成本就能追平的替代方案，做 reasoning 的同行可以认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

PrefixGuard：从LLM智能体轨迹到在线故障预警监控器

PrefixGuard是一个将LLM智能体执行轨迹自动转换为在线预警监控器的框架。它通过离线的StepView归纳步骤，从原始轨迹样本中推导出确定性的类型化步骤适配器，并基于最终结果监督式地学习事件抽象和前缀风险评分器。在四个基准测试中，其最强监控器的AUPRC值分别达到0.900、0.710、0.533和0.557，平均比原始文本对照方法提升0.137 AUPRC。研究还揭示了基于AUPRC的观测性上限，并指出强排名不等同于部署实用性：例如在WebArena上难以实现低误报预警，而τ^2-Bench和TerminalBench则能保留更多可操作的早期预警。

智能体arXiv论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

门控QKAN-FWP：一种可扩展的量子启发的序列学习框架

本研究提出门控QKAN-FWP，一种将快速权重编程器与量子启发的Kolmogorov-Arnold网络相结合的新型框架。它采用单量子位数据重上传电路作为可学习激活函数，并引入了标量门控的快速权重更新规则以稳定参数。在时间序列预测任务中，一个仅含12.5k参数的模型，在太阳活动周期长期预测上，其性能超越了一系列参数规模大得多的经典循环模型。该模型成功在IonQ和IBM量子处理器上部署，在1024次测量下预测精度与无噪声模拟器差距在0.1%以内，证明了其在含噪声量子设备上的兼容性与可扩展性。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

MACE-Dance：基于运动-外观级联专家的音乐驱动舞蹈视频生成

针对音乐驱动舞蹈视频生成任务，本文提出了MACE-Dance框架。该框架采用级联专家混合模型，包含运动专家与外观专家两个核心模块。运动专家基于BiMamba-Transformer混合架构的扩散模型及免引导训练策略，从音乐生成高表现力且运动学合理的3D舞蹈动作。外观专家通过解耦的运动-美学微调策略，在动作驱动下合成具有时空一致性和视觉身份保持的视频。研究同时构建了大规模数据集与评估标准，实验表明该框架在3D舞蹈生成与姿态驱动图像动画两项任务上均达到了最先进性能。代码已开源。

多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

均值模式尖叫：用于千层扩散变换器的均值-方差分割残差方法

研究发现，当扩散变换器扩展到数百层时，会因结构脆弱性进入“均值主导崩溃”状态，即表征同质化且中心化变异被抑制，此现象被定义为均值模式尖叫。其触发机制源于残差写入器的均值相干反向冲击。为解决此问题，研究提出了均值-方差分割残差方法，它将独立增益的中心化残差更新与泄漏主干均值替换相结合。在400层单流扩散变换器上，该方法有效防止了基线模型的崩溃性发散，性能显著优于LayerScale等各向同性门控方法。最终，研究成功训练了一个1000层的扩散变换器，验证了该架构在极深尺度下仍能保持稳定训练。

数据/训练论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Empirical Evidence for Simply Connected Decision Regions in Image Classifiers

研究通过迭代四边形网格填充方法，为深度神经网络决策区域的拓扑结构提供了新的经验证据。该方法能构造出完全位于同一决策区域内、由给定环路界定的有限分辨率标签保持曲面。实验评估了多种现代图像分类模型，结果表明这些模型的决策区域不仅是路径连通的，而且是单连通的。这支持了决策区域更强的拓扑性质假设，即区域内的任何闭合环路都可在不离开该区域的情况下连续收缩至一点。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

浅层预填充与深层解码：通过层非对称KV可见性实现高效长上下文推理

研究团队提出SPEED方法，一种阶段非对称的KV可见性策略，以降低仅解码器语言模型的长上下文推理成本。该方法在预填充阶段，仅让非锚点的提示词KV状态在模型下层生成和缓存；而在解码生成阶段，则对所有令牌进行完整的深度计算。在Llama-3.1-8B的指令调优实验中，当仅使用75%的层处理提示词时，SPEED在基准测试中取得了与完整深度基线近乎持平的平均得分（51.2 vs. 51.4）。同时，它显著提升了推理效率：首令牌时间减少33%，每个输出令牌时间减少22%，并在128K上下文长度下将活跃KV内存降低25%。分析表明，该方法保留了完整深度模型中关键的提示词选择和表征稳定功能。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

UniSD：面向大型语言模型的统一自蒸馏框架

本文提出统一自蒸馏框架UniSD，系统研究大型语言模型的自蒸馏方法。该框架整合多教师一致性、指数移动平均教师稳定、词元级对比学习、特征匹配和散度裁剪等机制，以应对监督可靠性、表示对齐和训练稳定性三大挑战。通过在三个模型家族的六个模型和六个基准上的实验，UniSD揭示了自蒸馏优于静态模仿的条件、各组件的贡献及其跨任务交互机制。基于此构建的完整流程UniSDfull，在基础模型上提升5.4个百分点，较最强基线提升2.8个百分点，实现了无需更强外部教师的高效模型适配。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LiVeAction：一种轻量级、通用且非对称的神经编解码器设计

现代传感器生成丰富数据，但可穿戴或遥感设备受带宽和功耗限制。标准编解码器如JPEG为人类感知设计，不适用于机器任务和非传统模态；通用压缩方案未利用信号冗余，性能次优；生成神经编解码器参数多、数据需求大且模态特定，难以实用。为此，研究团队提出LiVeAction，一种轻量级、通用且非对称神经编解码器架构。其关键创新包括：采用类似FFT结构并缩减神经网络分析变换的规模和深度，以降低编码器复杂度；使用基于方差的码率惩罚替代对抗性和感知损失，以支持任意信号模态并简化训练。相比最先进生成分词器，LiVeAction在码率-失真性能上更优，且可实际部署于低功耗传感器。相关代码、实验和Python库已开源。

多模态开源/仓库端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Steering Visual Generation in Unified Multimodal Models with Understanding Supervision

研究团队提出了理解导向的后训练框架UNO，旨在通过理解任务直接引导生成表征，以增强统一多模态模型中理解与生成组件间的协同。该框架整合了语义抽象（如图像描述）和结构细节（如视觉回归）目标，实现了从理解到生成的有效梯度流动。在图像生成与编辑任务上的实验表明，理解监督能显著提升生成质量，证实了理解对生成的催化作用。

图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CPCANet：基于深度展开通用主成分分析的领域泛化方法

CPCANet是一种新颖的领域泛化框架，其核心是将通用主成分分析（CPCA）的迭代式Flury-Gautschi算法展开为完全可微的神经层。该方法将CPCA的统计特性融入端到端可训练框架，强制模型从不同领域中发现一个共享的、具有可解释性的子空间。在四个标准领域泛化基准测试上的实验表明，CPCANet在零样本迁移任务中取得了最先进的性能。该框架与具体网络架构无关，且无需针对特定数据集进行调优，为在分布偏移下学习鲁棒表征提供了一种简单高效的解决方案。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

4DThinker：利用4D心理意象进行动态空间理解

4DThinker是首个让视觉语言模型通过动态潜在心理意象进行“4D思考”的框架，使其能在连续隐藏空间内模拟场景演变。该研究提出了一个从原始视频合成4D推理数据的可扩展无标注流程，并设计了动态意象微调方法，通过联合监督文本标记与4D潜在表征来锚定模型的动态视觉语义。在此基础上，4D强化学习利用基于结果的奖励处理复杂推理任务，并将策略梯度限制于文本标记以确保优化稳定。在多个动态空间推理基准测试中，4DThinker均显著优于现有基线模型。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

A^2RD：用于长视频一致性的智能自回归扩散架构

针对长视频合成中的语义漂移和叙事崩溃问题，本文提出A^2RD架构。它将创意合成与一致性维护解耦，通过“检索-合成-优化-更新”的闭环过程逐段生成并自我改进视频。其核心包括跨模态视频记忆、自适应片段生成和分层测试时自优化机制。研究还引入了包含非线性转换的挑战性基准LVBench-C。在长达1至10分钟的视频测试中，A^2RD在一致性上优于现有最佳基线达30%，叙事连贯性提升20%，人类评估也证实其在运动与转场平滑度上有显著改进。

论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

From Storage to Experience： LLM Agent 记忆机制演进综述

该研究提出一个大型语言模型智能体记忆机制的三阶段演进框架：存储、反思与经验。存储阶段聚焦轨迹保存，反思阶段进行轨迹提炼，经验阶段则实现轨迹抽象。演进的核心驱动力包括保持长期一致性、应对动态环境挑战以及实现持续学习的目标。在前沿的经验阶段，研究重点探讨了主动探索和跨轨迹抽象两大变革性机制。这一综合框架为下一代LLM智能体的发展提供了统一的设计原则与技术路线图。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

UniPrefill：通过分块动态稀疏化实现通用长上下文预填充加速

针对长上下文处理效率问题，研究团队提出了通用预填充加速框架UniPrefill。该框架直接在令牌级别加速模型计算，适用于线性/全注意力混合、滑动窗口/全注意力混合等几乎所有架构。UniPrefill被实现为连续批处理算子，并扩展了vLLM的调度策略，原生支持预填充-解码协同处理与张量并行，从而能无缝集成到vLLM等现代推理引擎中。实验表明，该框架可将首令牌生成时间最高加速2.1倍，且加速效果随并发请求数量增加而愈发显著。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

HumanNet：将人类中心视频学习扩展到百万小时

HumanNet是一个百万小时规模的人类中心视频数据集，涵盖第一和第三人称视角，包含精细活动、人-物交互、工具使用及长期行为。它提供交互中心标注，如描述文本、动作说明及身体信号，支持动作与交互感知学习。数据构建强调人类中心筛选、时序结构化、视角多样性和标注增强，将互联网视频转化为可扩展学习基础。实验表明，用其1000小时第一人称视频训练Qwen VLM模型，效果优于100小时真实机器人数据，提示人类视频可作为机器人数据的可扩展且经济高效替代。该项目旨在探索通过人类视频扩展具身基础模型。

arXiv具身智能数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

MDN：面向Delta线性注意力的步进动量并行化

针对线性注意力模型中传统在线随机梯度下降存在的信息衰减快、收敛欠佳问题，本研究提出了一种结合步进动量规则的块状并行算法。从动力系统视角分析，该动量循环被视为引入复共轭特征值的二阶系统，从而指导了稳定门控约束的设计。新模型Momentum DeltaNet（MDN）利用Triton内核，实现了与Mamba2、KDA等模型相当的训练吞吐量。在4亿和13亿参数模型上的实验表明，MDN在多种下游评估基准上均优于Transformer、Mamba2和GDN等强基线模型。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

IntentGrasp：意图理解综合基准

本文推出IntentGrasp基准，用于评估大语言模型的意图理解能力。该基准从12个领域的49个语料库构建，包含超26万实例的训练集及“全集”、“精选集”两个测试集。对20个前沿模型的评估显示，其在全集和精选集上的得分分别低于60%和25%，显著低于约81.1%的人类估计表现，提升空间巨大。研究提出的意图微调方法使模型性能显著提升，在全集和精选集上F1分数分别增加30分和20分以上，留一领域实验也验证了其强大的跨领域泛化能力。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

列表式策略优化：基于分组的RLVR作为大语言模型响应单纯形上的目标投影

本研究提出列表式策略优化（LPO），为大语言模型可验证奖励强化学习提供新方法。现有分组策略梯度方法隐式地在响应单纯形上定义目标分布并进行一阶近似投影，LPO则将其显式化：先限制近端目标于单纯形以明确目标，再通过精确散度最小化投影策略。该框架能在列表目标上实现单调改进，其投影梯度有界、零和且自校正，并通过解耦的投影步骤灵活选择散度。实验表明，在相同目标下，LPO训练性能持续优于典型策略梯度基线，同时保持了优化稳定性与响应多样性。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EMO：为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型，旨在实现模块化部署，允许独立使用和组合专家子集，而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家，仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当，但关键优势在于支持选择性使用专家：仅保留25%的专家仅导致1%的绝对性能下降，保留12.5%时下降3%，而标准MoE在相同设置下会失效。此外，EMO中的专家子集在语义层面（如数学、代码等领域）实现专业化，不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv推理论文/研究部署/工程

06:30

Apple Machine Learning Research（RSS）

精选72

从位置认知到功能理解：为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力，但未能触及具身智能所需的高阶认知。为此，研究团队推出了空间功能智能基准SFI-Bench，该基准包含超过1700个问题，数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力，标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由：Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解，这个方向很对，做具身智能和空间推理的团队该跟一下。

5月6日

12:20

HuggingFace Daily Papers（社区热门论文）

PatRe：一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限，本文提出了PatRe，首个模拟完整专利审查生命周期（包括审查意见生成与申请人答复）的基准。它包含480个真实案例，支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现，专有与开源模型性能存在差异，且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时，兼具潜力与当前局限。相关代码与数据集已开源。

arXiv论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

SymptomAI：面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中，SymptomAI的诊断准确性显著高于独立临床医生（OR = 2.47）。采用专用症状访谈策略（在诊断前获取额外信息）的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外，利用SymptomAI诊断标签分析超50万天可穿戴数据发现，急性感染（如流感）与生理指标变化存在强关联（OR > 7）。

智能体arXiv论文/研究

10:20

HuggingFace Daily Papers（社区热门论文）

精选72

OpenSeeker-v2：利用高信息量、高难度轨迹突破搜索智能体的极限

本研究提出了一种仅通过监督微调（SFT）训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进：扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2，在四个基准测试中均取得了领先性能，全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体，其模型权重将开源以促进社区研究。

智能体开源生态搜索论文/研究

推荐理由：纯学术团队仅靠SFT和一万条数据，就在多个搜索基准上反超工业级管线，并且开源模型。这证明高质量数据比烧钱RL更关键，做Agent的朋友值得认真看。

10:20

HuggingFace Daily Papers（社区热门论文）

Workspace-Bench 1.0：针对具有大规模文件依赖的工作空间任务的AI智能体基准测试

本文提出了Workspace-Bench 1.0基准，用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件（最大20GB）的模拟工作空间，并设计了388项附带文件依赖图的任务，总计7399个评分项，要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite（100项任务）可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明，最佳智能体得分仅为68.7%，远低于人类表现的80.7%，平均表现仅47.4%，揭示出现有AI在此类任务上仍远未达到可靠水平。

智能体论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力，研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集，并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题，研究设计了一个统一的动作生成框架，构建了六类任务共4900个测试样本，以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估，研究揭示了当前关键局限，为未来方向提供了见解。相关排行榜已公开。

arXiv具身智能多模态论文/研究

08:01

Hacker News 热门（buzzing.cc 中文翻译）

GLM-5V-Turbo：迈向多模态智能体的原生基础模型

GLM-5V-Turbo作为一款原生多模态基础模型发布，旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异，在MMBench基准测试上达到90.1分，在MathVista测试中取得78.5%的准确率，并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力，为构建更高效的端到端多模态智能体提供了新的模型基础。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FaithfulFaces：面向文本到视频生成的面部姿态忠实身份保持

现有身份保持文本到视频生成方法在面部姿态变化或遮挡时常出现身份失真。为此，研究团队提出FaithfulFaces框架，其核心是一个姿态共享身份对齐器，通过姿态共享字典与姿态变化-身份不变性约束，在不同视角间对齐面部姿态，并将单视角输入映射为包含显式欧拉角嵌入的全局面部姿态表示，为生成模型提供忠实的面部先验。团队还构建了一个包含丰富姿态变化的高质量视频数据集用于训练。实验表明，该框架在动态复杂场景中实现了最先进的性能，能有效保持身份一致性与结构清晰度。

arXiv视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DecodingTrust-Agent Platform （DTap）：一个可控且交互式的AI智能体红队测试平台

随着AI智能体在复杂工作流中的广泛应用，其安全风险日益凸显。研究团队推出DecodingTrust-Agent Platform (DTap)，这是首个可控、交互式的AI智能体红队测试平台，覆盖14个真实世界领域和超过50个模拟环境，复现了Google Workspace、Paypal和Slack等系统。平台进一步提出自主红队测试智能体DTap-Red，能系统探索提示、工具、技能、环境等注入向量，并自主发现针对恶意目标的攻击策略。利用DTap-Red构建了大规模红队测试数据集DTap-Bench，包含跨领域高质量实例，每个配有可验证评判器以自动确认攻击结果。通过DTap对基于多种骨干模型的流行AI智能体进行大规模评估，揭示了系统性漏洞模式，为开发安全下一代智能体提供了重要洞见。

智能体安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

超越检索：代码搜索的多任务基准与模型

本文提出了CoREB，一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准，并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建，采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括：专用代码嵌入在代码到代码检索上优势显著（约2倍于通用编码器），但无单一模型全胜；接近真实开发者搜索的短关键词查询会使所有模型性能骤降；现有重排序器存在任务不对称性，而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。

arXiv搜索编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

KernelBench-X：评估LLM生成的GPU内核的综合基准测试

KernelBench-X基准测试系统评估LLM生成的Triton GPU内核，涵盖15个类别共176项任务。研究比较五种代表性方法，发现：任务结构对正确性的影响远超方法设计，类别因素解释的方差是方法的近三倍；迭代优化将编译成功率从52.3%提升至68.8%，但平均加速比从1.58倍降至1.44倍；46.6%的正确内核性能低于PyTorch基线，量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。

数据/训练编码论文/研究