5月23日

21:27

Rohan Paul@rohanpaul_ai

本研究指出，AI代理的实际性能更多取决于围绕模型的外部控制系统（即代理框架），而非单纯的提示词。当前许多代理看似单一模型，其行为实则由规划、工具调用、记忆管理等周边代码驱动，导致长任务易因状态丢失、验证漂移等环节失败。为此，论文提出“自然语言代理框架”理念，旨在将控制流程以结构化自然语言显式表达，使其可检查、可迁移且可测试。研究发现，虽然更复杂的框架能显著改变代理行为，但并未带来稳定的性能提升，这表明框架设计是保障可靠性的关键选择，而非一种立竿见影的万能方案。

智能体论文/研究

20:27

Rohan Paul@rohanpaul_ai

AI检测器为何容易失效：学生写作风格的多样性挑战

该研究指出，AI检测器频繁失效的根本原因在于学生写作风格的多样性，使得仅凭单份文档判断是否为AI生成变得极为困难。问题不仅在于AI写作能力在提升，更在于许多真实学生的写作风格，在统计特征上已与AI输出高度相似。检测器无法事先掌握每个学生独特的写作习惯，因此“人类写作”不存在一个固定的判断标准。这意味着任何能有效识别大量AI文本的检测器，都不可避免地会误判一部分真实学生，尤其是写作更规范、公式化或受英语学习影响的学生。现有技术或许能降低错误率，但无法根除基于“单次判断”模式所带来的结构性误判问题。

arXiv 安全/对齐论文/研究

18:35

MarkTechPost（RSS）

Nous Research 发布对比神经元归因（CNA）：无需SAE训练或权重修改的稀疏MLP电路引导

Nous Research 推出对比神经元归因（CNA）技术，通过识别并抑制稀疏MLP神经元电路来引导大语言模型的行为输出。该方法无需进行稀疏自编码器训练，也无需修改模型权重，同时能在引导行为的同时保持模型在通用能力基准测试上的性能不发生退化。这为控制LLM行为提供了一种更轻量、无侵入性的新途径。

安全/对齐论文/研究

10:57

Hacker News 热门（buzzing.cc 中文翻译）

CODA：将Transformer模块重写为GEMM-Epilogue程序

论文提出CODA技术，旨在优化Transformer架构的核心计算。其核心思想是将Transformer块中的复杂操作（如注意力机制、前馈网络）统一抽象并重写为“通用矩阵乘法（GEMM）+ 后续操作（Epilogue）”的程序化组合。这种方法能够更高效地映射到现代硬件（如GPU）上执行，通过融合计算、减少内存访问来提升整体效率。该成果已发布于arXiv，并在Hacker News社区获得关注（100点热度），反映了业界对大模型底层计算优化的持续探索。

论文/研究部署/工程

08:27

Rohan Paul@rohanpaul_ai

谷歌新研究：AI学习生理模式提升可穿戴设备价值

谷歌研究院提出基础模型SensorFM，通过学习超过500万人产生的逾1万亿分钟可穿戴设备传感器数据，掌握了人类生理活动的一般性模式。该模型超越了将数据压缩为简单指标的传统方法，能够从数据中提取出有意义的结构并将其复用于多种健康预测任务。实验显示，模型规模和数据量越大性能越强，且其学习到的数据表征在35项预测任务中的34项上，均优于基于工程特征的基线方法。

Google 数据/训练端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于激活补丁技术的LLM知识遗忘深度测量

大语言模型的知识遗忘是实现隐私保护和AI安全的关键机制，但现有评估方法难以验证目标知识是否从模型内部被真正擦除。本文提出了一种新的度量指标UDS，用于量化遗忘的机制深度。该方法首先在保留模型上定位编码目标知识的层，然后在遗忘后模型上评估其擦除程度（0-1分）。在涵盖8种方法、150个遗忘模型的元评估中，UDS的可靠性与稳健性表现最佳。研究还揭示了不同白盒度量在层级评估上可能存在差异。代码与数据已开源。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv 具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

预测动力学能否存在于物理世界中？

预测性物理AI系统的输出（如状态预测、行动规划）即使误差低，也不一定物理可行。本研究提出了“物理可接受性”评估框架，将解码后的提案视为候选动力学，在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功，但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中，该完整验证门的AUC达0.957，残差过滤器能预防87-89%的无效提案，同时保持99.8%的任务正常进展。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向应用对地观测的组合图像检索基准评测

论文建立了针对遥感组合图像检索（RSCIR）的统一基准评测框架。研究在PatternCom数据集上，系统评估了六种视觉语言骨干网络支持的代表性组合图像检索方法。同时，引入了一个名为xView2-CIR、以灾害和损毁监测为中心的新数据集。结果表明，无需训练的组合方法可作为遥感图像检索强健且可扩展的基线；而以变化为中心的检索任务，因需保持场景身份不变，带来了与基于属性检索不同的挑战。

GitHub 多模态搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AgentFugue：通过集体推理实现长期任务的智能体扩展

现有长期智能体任务的研究主要聚焦于增强单个智能体。本研究则探索通过对等智能体的协作来扩展能力，提出了AgentFugue框架。该框架构建了一个共享推理中心，当多个对等智能体并行探索同一任务时，中心会记录每个智能体的发现、尝试与排除项，使其他智能体能够选择性复用这些中间推理成果，而无需集中式规划。训练后的该中心作为插件通信层，在长期任务测试中表现优于强基线。结果表明，集体推理可使对等智能体扩展成为一种独立的能力提升途径。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SAM：面向长期推理智能体的状态自适应记忆

针对长期智能体推理中交互历史过长且关键信息分散的问题，SAM框架提出了一种状态自适应记忆方案。该方案将当前交互整合为紧凑的记忆线索，同时保留原始轨迹页面以支持意图驱动的召回，无需重新训练主干模型。SAM通过专家监督与强化学习优化记忆模块，使其与轨迹级效用对齐。在BrowseComp、BrowseComp-ZH、WideSearch和HLE等基准测试中，SAM在不同智能体骨架上均持续优于强基线。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ECHO：终端智能体免费学习世界模型

ECHO（环境交叉熵混合目标）是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上，增加了一个辅助损失项，训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明，在TerminalBench-2.0上，ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%，Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范，能使基础模型匹配专家SFT后GRPO的性能，并在部分场景下可能实现无验证器的自我改进。

智能体 arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SEAL：智能体与学习环境的协同进化

针对大语言模型智能体自我进化中，策略与环境被单独优化导致的错位问题，本文提出SEAL框架。它构建了一个闭环协同进化系统：通过收集策略轨迹并诊断失败，将失败诊断作为共享信号，同时优化智能体的模型策略和训练环境。环境侧进化其学习接口，提供更明确的工具可用性提示；策略侧则利用诊断信息更新模型。实验表明，仅使用400个训练样本，SEAL在三种骨干网络上平均提升了8.25至26.25个点，并展现出跨领域迁移能力。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Mix-MoE：通过混合 MoE 改进大语言模型的多语言机器翻译

Mix-MoE 框架通过两阶段训练改进大语言模型的多语言翻译能力：先在单语语料上用混合专家进行后预训练，再在平行语料上训练。它将专家层分为语言模型专家和机器翻译专家，分别保留单语知识和学习翻译知识，并引入基于傅里叶变换特征的路由机制促进专家交互。实验表明，该框架在多语言翻译任务上显著优于现有基线，有效缓解了参数干扰问题。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VaaWIT：面向多语网页图像翻译的视觉感知大语言模型适配框架

翻译网页图像中的文本对提升内容可访问性至关重要。现有大型视觉语言模型因视觉表征差距，常忽视识别多样字符形态所需的细粒度视觉细节，导致在此任务上表现不佳。为此，本研究提出VaaWIT框架，它通过双流注意力模块实现多语义特征与视觉细节的双向交互，并利用视觉感知适配器以参数高效微调方式将融合特征注入冻结的大语言模型骨干。实验表明，该框架在三个公开基准的八个任务上显著超越了SOTA开源基线模型，性能可与闭源模型相媲美。

图像生成多模态论文/研究

06:57

Rohan Paul@rohanpaul_ai

精选79

AlphaProof Nexus：用形式化验证驱动AI数学证明搜索

Google DeepMind提出了AlphaProof Nexus系统，它将大型语言模型与Lean形式化验证工具相结合。该系统允许LLM在生成证明的过程中，不断读取Lean的编译错误并进行修正，还可调用更强的工具辅助解决子问题。这一机制迫使模型将每一步逻辑都转化为可编译、可验证的代码，从而将其角色从“令人信服的叙述者”转变为“候选方案生成器”。在针对353个Erdős问题和492个开放猜想的测试中，系统成功解决了9个Erdős问题并证明了44个序列猜想。该研究展示了形式化验证在暴露AI逻辑错误、建立“人类提问-模型探索-验证器把关”新分工中的关键作用。

arXiv DeepMind 推理论文/研究

关联讨论 2 条

推荐理由：DeepMind 把 AI 的'数学直觉'塞进 Lean 编译器里，每步都必须编译通过，结果解决 9 个 Erdős 问题，失败也暴露了隐藏错误。这篇论文重新定义了 AI 做数学的范式。

05:27

Hacker News 热门（buzzing.cc 中文翻译）

"玻璃翼"项目：初步进展报告

Anthropic发布了“玻璃翼”项目的初步进展报告。该项目详情尚待公开，相关链接已指向其官方研究页面。该报告目前已引起技术社区关注，在Hacker News上获得119个积分。

Anthropic 安全/对齐论文/研究

关联讨论 5 条

04:16

HuggingFace Daily Papers（社区热门论文）

现场音乐扩散模型：交互式扩散音乐生成器的高效微调与后训练

本研究探索将开源音频扩散模型改造为可在消费级硬件上运行的交互式音乐生成器。通过分析发现，传统的分块外扩扩散流程在推理时效率较低。为此，提出了现场音乐扩散模型（LMDMs），通过引入分块KV缓存优化生成过程，显著提升了推理效率。同时，LMDMs采用ARC-Forcing范式实现稳定的后训练对齐，减少了误差累积，无需依赖强化学习或奖励模型。该模型已应用于文本生成音乐、草图合成音乐及实时即兴合奏等场景，并能以“生成式延迟”效果器的形式在游戏笔记本电脑上本地运行，为音乐创作提供实时音色变换支持。

推理论文/研究部署/工程

01:30

Apple Machine Learning Research（RSS）

精选66

VSAS-Bench：视觉流式辅助模型的实时评估基准

现有视觉语言模型框架主要在离线场景下评估性能，但实时视觉助手所依赖的流式模型还需考量额外指标，如反映响应时效性的“主动性”和捕捉随时间推移响应稳定性的“一致性”。为此，研究团队提出了VSAS-Bench，这是一个新的评估基准，专门针对流式视觉语言模型在实时交互任务中的表现，填补了当前评估方法在动态、持续生成场景下的空白。

多模态论文/研究评测/基准

推荐理由：苹果搞了个实时视觉助手的评估基准，把离线评测拉到了流式场景，多模态 agent 和实时 VLM 方向的研究者值得跟进一下评估方法。

01:16

HuggingFace Daily Papers（社区热门论文）

评估人工智能预测科学进展的能力：CUSP基准研究

本研究引入CUSP基准，基于4760个科学事件评估AI预测进展的能力。测试发现，当前前沿模型存在系统性局限：虽然能从候选中识别合理方向，但无法可靠预测进展能否实现，且常错误估计时间。性能在不同领域差异显著，AI进展比其他学科更易预测。模型表现对训练截止时间不敏感，表明限制不仅源于训练知识。增加事前知识可提升性能，但无法达到完全信息状态。模型还表现出过度自信和响应偏差。总体而言，当前AI作为科学进展预测工具尚不成熟。

论文/研究

00:16

HuggingFace Daily Papers（社区热门论文）

通过自我调节的模拟规划实现高效智能体推理

针对当前自适应计算策略导致的推理冗长与低效问题，本文提出将智能体决策分解为模拟推理、自我调节和反应执行三系统。研究开发了SR²AM模型，其两个版本v0.1-8B和v1.0-30B分别通过提示多模块系统和重建训练推理LLM的结构化计划实现。在多项基准测试中，v1.0-30B以25.8%-95.3%更少的推理token，达到了与更大参数量系统相当的性能。引入强化学习后，模型规划深度提升22.8%，而频率仅增2.0%，表明其学会了更前瞻性的规划。这为构建高效、自适应的智能体提供了新范式。

智能体推理论文/研究部署/工程

5月22日

23:16

HuggingFace Daily Papers（社区热门论文）

AnyMo：一种设置无关的可穿戴IMU运动理解框架

针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置，难以跨设备迁移的挑战，本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真，在身体表面密集采样生成多样合成信号，用于预训练图编码器。随后，将多位置IMU信号转化为全身运动标记，并与大语言模型对齐以理解运动语义。实验表明，AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升，证明了其作为野外可穿戴运动理解通才模型的潜力。

具身智能多模态论文/研究

22:16

HuggingFace Daily Papers（社区热门论文）

FashionLens：基于任务自适应学习的通用时尚图像检索框架

为了解决现有时尚图像检索方法难以支持多样化查询与意图的问题，研究提出了统一框架FashionLens。首先构建了综合性基准数据集U-FIRE，整合并增强了现有数据以支持跨场景评估与泛化测试。在此基础上，基于多模态大语言模型，提出了两大核心模块：一是通过自适应球面插值将查询动态映射到任务对齐空间的查询校准器；二是根据学习难度与数据规模自动调整任务权重的自适应采样策略。实验表明，该方法在U-FIRE上取得了最先进性能，并能稳健泛化至未见任务。相关代码与数据已开源。

arXiv GitHub 多模态搜索

21:26

Rohan Paul@rohanpaul_ai

这个RAI研究所的机器人通过动态手部调整管理三球抛接。它处理视觉和接触信息以维持模式，无需外部辅助。

具身智能论文/研究

21:16

HuggingFace Daily Papers（社区热门论文）

SEGA：基于频谱-能量引导注意力的扩散 Transformer 分辨率外推方法

研究团队提出一种名为 SEGA 的无训练方法，用于解决扩散 Transformer 在生成超出训练分辨率图像时性能下降的问题。该方法根据去噪过程中潜变量的空间-频谱结构，对旋转位置编码的不同频率分量进行动态、自适应的注意力缩放，从而在提升图像全局结构连贯性的同时，更好地恢复细节保真度。实验表明，SEGA 在多种目标分辨率上均能稳定提升高分辨率图像合成质量，优于当前最先进的无训练基线方法。

图像生成论文/研究

18:16

HuggingFace Daily Papers（社区热门论文）

DecQ：用于增强表征自编码器重建与生成质量的细节凝练查询

表征自编码器（RAEs）使用冻结的视觉模型作为编码器，这在提供高质量生成的同时，限制了其空间重建能力。针对微调能改善重建但会损害生成质量这一权衡难题，本文提出了DecQ框架。该框架引入轻量级的“细节凝练查询”模块，从视觉模型的中间层提取细粒度信息，并将其融合到解码器和生成过程中。实验表明，仅增加8个查询和3.9%的计算量，DecQ就能将基于DINOv2的表征自编码器的峰值信噪比从19.13 dB显著提升至22.76 dB；在生成任务上，其收敛速度比原始框架快3.3倍，FID分数在无引导和有引导下分别达到1.41和1.05，有效兼顾了重建与生成性能。

图像生成编码论文/研究

16:15

HuggingFace Daily Papers（社区热门论文）

TransitLM：用于无地图公交路线生成的大规模数据集与基准测试

TransitLM是首个支持绕过地图依赖的公交路线规划数据集，包含来自中国四个城市超过1300万条记录。它既提供大规模语料用于持续预训练，也设立了三项互补的评估任务。实验表明，基于该数据集训练的大语言模型能高准确率地生成结构合理的路线，并能隐式地将GPS坐标匹配至站点，无需显式地图。这证明公交路线规划可完全从数据中学习，实现直接从起终点信息生成路线的端到端无地图模式。数据集与基准测试代码已开源。

Hugging Face 数据/训练论文/研究

15:56

Hacker News 热门（buzzing.cc 中文翻译）

多流大型语言模型：关于提示、推理和I/O并行化/分离的新论文

一篇关于多流大型语言模型的新研究论文提出了将提示处理、推理计算以及输入输出过程进行分离与并行化的架构设计。该方法旨在提升大型语言模型在处理复杂任务时的效率与可扩展性，为构建更灵活、高效的AI系统提供了新的技术思路。

推理论文/研究部署/工程

15:14

HuggingFace Daily Papers（社区热门论文）

本研究探讨在句子级价值观检测中，上下文与显式道德知识的作用。通过对比句子、窗口和全文输入，以及有无检索增强（基于道德知识库）的设置，实验了监督式DeBERTa编码器与零样本大语言模型。结果发现：全文上下文能显著提升DeBERTa性能，但对零样本大模型并无稳定助益；而检索到的道德知识则能一致性地提升各类模型性能。模型规模的扩大并不保证性能增益。分析表明，上下文与检索对易混淆的价值观类别帮助最大。因此，价值观敏感的NLP应综合评估上下文、知识与模型，而非简单依赖更长输入或更大模型。

安全/对齐论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

基于运动、几何与语义自适应的复杂非线性视觉目标跟踪框架

传统视觉目标跟踪方法依赖特定任务的监督训练，泛化能力有限。近期以SAM 2为代表的基础模型虽具强大视频理解能力，但直接用于跟踪时缺乏对目标运动、几何一致性和语义偏移的显式建模。为此，本研究提出SAMOSA框架，通过引入轻量级非线性运动预测器建模目标动态，利用语义线索检测偏移并恢复跟踪，并结合几何约束提升稳定性，从而将SAM 2的通用先验适配到复杂跟踪任务。实验表明，SAMOSA在通用基准上优于现有SAM 2方法，并在反无人机等非线性运动场景中取得显著性能提升。

GitHub 视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

一句一剧：基于多智能体系统的个性化短剧生成

针对现有短剧生成方法在叙事节奏、空间一致性及生产级质控方面的不足，本研究提出了“一句一剧”分层多智能体框架。该框架包含三大核心组件：多智能体辩论式故事生成以保障叙事张力、3D锚定首帧生成以维护跨片段空间一致、以及多阶段审核循环以实现全流程质量控制。此外，系统引入了场景级BGM匹配与转场规划以增强沉浸感。团队还构建了专用基准Short-Drama-Bench进行评估。实验表明，该方法在叙事连贯性、角色场景一致性及整体观看体验上均显著优于现有流程。

智能体多模态视频论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

SpaceDG：视觉退化下的空间智能基准测试

SpaceDG是首个大规模退化感知空间理解数据集，包含约100万个问答对，源自近1000个室内场景。其核心是物理基础的退化合成引擎，能将退化过程嵌入3D高斯泼溅渲染，真实模拟运动模糊、低光等九种退化类型。配套的SpaceDG-Bench基准包含1102个人工验证问题，覆盖11类推理任务。对25个模型的评估揭示，视觉退化会严重损害空间推理能力。研究表明，在SpaceDG上进行微调能显著提升模型在退化场景下的鲁棒性，性能甚至可超越人类，且不影响其在清晰图像上的表现。

arXiv 多模态数据/训练论文/研究

13:14

HuggingFace Daily Papers（社区热门论文）

LatentOmni：通过统一的音视频潜在推理重新思考全模态理解

当前多模态大语言模型在音视频联合推理中存在局限，因其将连续信号压缩为离散文本，损害了时序定位能力。为此，研究提出LatentOmni框架，构建统一的潜在空间以保留密集的感官信息，并交错执行文本推理与音视频潜态更新。该方法引入特征级监督以对齐推理状态与感官特征，并利用Omni-Sync位置嵌入维持音视频潜态的时序一致性。同时，构建了包含3.5万条轨迹的LatentOmni-Instruct-35K数据集。实验证明，LatentOmni在多个基准测试中取得了开源模型的最佳性能，并优于显式文本链式推理基线。

多模态推理论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

SceneAligner：基于3D重建的平面图定位方法

SceneAligner是一种基于3D重建的平面图定位方法。针对现有技术对环境规模和地图格式的限制，该方法从无约束图像集合重建重力对齐的3D场景，并投影为2D密度图作为平面图代理。通过2D相似变换实现与输入平面图的对齐。为克服密度图与建筑平面图之间的视觉差异，引入跨模态学习机制，利用2D基础模型进行语义对齐，同时保持结构一致性。实验结果显示，该方法在多种场景中显著优于先前方法，特别是在极稀疏输入（如仅单张图像）时仍能有效工作。代码和数据将公开，以促进进一步研究。

多模态端侧论文/研究

11:14

HuggingFace Daily Papers（社区热门论文）

感知还是偏见：多模态大语言模型能否超越人格的第一印象？

多模态大语言模型在需要人格感知的人机交互中应用广泛，但现有评估仅关注大五人格分数的预测。本研究提出了一个新的接地人格推理任务，并发布了包含1104个视频的MM-OCEAN数据集。研究通过三层评估框架对27个模型进行测试，发现一个关键的“偏见鸿沟”：在所有模型中，有51%的正确评分并未基于检索到的行为线索，且整体证据归因率仅在0-33.5%之间。这表明模型往往只是“猜对”了分数，而非基于正确的推理依据，为未来提升模型的接地社交认知能力指明了方向。

arXiv 多模态论文/研究评测/基准

11:14

HuggingFace Daily Papers（社区热门论文）

Maestro：基于强化学习的层级化模型-技能编排框架

Maestro是一个用于多模态任务的强化学习编排框架。它通过训练一个轻量策略，动态组合冻结的专家模型与双层技能库，实现步骤级的实时决策：何时调用专家、选择何种模型-技能组合，以及何时终止。在十个代表性多模态基准测试中，仅4B参数的Maestro平均准确率达70.1%，超越了GPT-5和Gemini-2.5-Pro。其策略可泛化至未见过的模型和技能，无需重新训练；在扩展外部专家后，仍显著优于闭源基线，同时保持高效率和低延迟。代码已开源。

智能体 MCP/工具多模态论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

通过结构化表发现实现多样化模型发现

针对现有模型搜索系统结果同质化的问题，本文提出 StructuredSemanticSearch 框架。该框架将语义基线与结构化表发现相结合，通过表格发现算子检索相关模型卡片表格，并控制预算以公平比较文本与表格检索效果。创新性地采用方向感知的表格集成技术，生成紧凑的集成视图。评估采用基于“要点”的可审计协议，在597个查询上的实验表明，该结构化感知方法相比纯语义基线，能显著提升证据覆盖率和结果多样性，为动态模型库的评估提供了可扩展的路径。

搜索论文/研究评测/基准

10:14

HuggingFace Daily Papers（社区热门论文）

智能体上下文编译：面向长上下文训练的轨迹编制方法

为解决智能体监督微调中存在的“监督空白”问题，即标准流程忽略了分散在多轮交互中回答问题所需的关键证据，本文提出智能体上下文编译方法。该方法将智能体求解问题时产生的长轨迹，转化为整合了原始问题与远距离工具响应的长上下文问答对，以此直接训练模型的长距离推理能力。实验表明，经ACC训练的轻量模型在长依赖任务上性能大幅提升，可比肩更大规模模型，同时保留通用能力，并展现出自适应的注意力重组与专家化特性。

推理数据/训练论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

基于泰勒级数的时间突变帧选择算法

该研究提出Swift Sampling，一种免训练的视频帧选择算法。其灵感源自人脑的预测编码机制，将视频建模为视觉潜在空间中的可微轨迹，计算特征的速度与加速度，并通过泰勒展开预测后续帧的预期路径。算法识别出大幅偏离预测轨迹的帧，即“时间信息突变帧”，作为包含关键信息的帧进行采样。该方法极其轻量，仅增加0.02倍计算开销，比主流方法低30倍。在长视频问答的多个基准测试中，它均优于均匀采样等方法，在帧预算有限时尤为有效，准确率最高可提升12.5个百分点。

arXiv 数据/训练视频论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

精选70

Gated DeltaNet-2：解耦线性注意力中的擦除与写入

线性注意力通过固定循环状态替代无界缓存，但面临精确编辑压缩记忆的挑战。现有模型如Delta-rule与KDA使用单一标量门同时控制“擦除”与“写入”两个操作。本文提出Gated DeltaNet-2，引入独立的通道级擦除门和写入门，实现了这两个操作的解耦，从而泛化并改进了前代模型。该模型在1.3B参数规模、100B tokens训练下，在语言建模、常识推理等任务中表现优异，尤其在长上下文RULER多键检索基准上优势显著。

推理论文/研究

推荐理由：把线性注意力里擦除和写入的解耦，像给模型装了独立刹车和油门，在长上下文检索上直接拉开差距，做架构的值得细读。