全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2713 条

全部一手资讯 X 论文

标签「论文/研究」清除

5月27日周三

08:00HuggingFace Daily Papers（社区热门论文）61AsyncTool：异步工具调用能力评测基准

08:00HuggingFace Daily Papers（社区热门论文）54SmartDirector：基于关键帧条件与叙事节奏控制的电影级视频生成

08:00HuggingFace Daily Papers（社区热门论文）54OR-Space：面向工业优化智能体的全生命周期工作区基准测试

02:02Hacker News 热门（buzzing.cc 中文翻译）66语言模型也需要休息

5月26日周二

21:19HuggingFace Daily Papers（社区热门论文）67CUA-Gym：为计算机使用智能体扩展可验证的训练环境与任务

21:13IT之家（RSS）50研究显示医学论文中的虚假参考文献数量激增，AI 难辞其咎

20:19HuggingFace Daily Papers（社区热门论文）64语言模型需要睡眠

18:13IT之家（RSS）61中日韩新马泰 6 国科学家联合发布亚洲首个合成细胞十年技术路线图

16:19HuggingFace Daily Papers（社区热门论文）63预见与学习：释放主动智能体的空闲时间计算能力

14:18HuggingFace Daily Papers（社区热门论文）75精选通过奖励倾斜分布匹配强化少步生成器

14:18HuggingFace Daily Papers（社区热门论文）28基于实例分割的像素级路面病害评估

14:18HuggingFace Daily Papers（社区热门论文）65InstructSAM：基于任意指令的多实例分割框架

12:18HuggingFace Daily Papers（社区热门论文）64通道级向量量化

12:18HuggingFace Daily Papers（社区热门论文）64On-Policy对抗流蒸馏用于自回归视频生成

12:18HuggingFace Daily Papers（社区热门论文）61Helix4D：复杂动态网格生成

12:18HuggingFace Daily Papers（社区热门论文）55ControlLight：面向可控、一致且可泛化的低光增强

12:11IT之家（RSS）62小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

11:18HuggingFace Daily Papers（社区热门论文）61迈向原生多模态建模：一份路线图

11:18HuggingFace Daily Papers（社区热门论文）65SemBridge：通过多语义桥实现稀疏编码器中的语言迁移

11:18HuggingFace Daily Papers（社区热门论文）66Claw-Anything：评测能够广泛访问用户数字世界的全天候个人助手基准

11:18HuggingFace Daily Papers（社区热门论文）70精选WBench：面向交互式世界模型评估的多轮基准

11:18HuggingFace Daily Papers（社区热门论文）66TriSplat：面向仿真的前馈式3D场景重建网络

10:18HuggingFace Daily Papers（社区热门论文）63MetaphorVU：迈向隐喻视频理解

10:18HuggingFace Daily Papers（社区热门论文）68Pantheon360：利用3D感知360°视频扩散来驾驭数字孪生生成

10:18HuggingFace Daily Papers（社区热门论文）64DVAO：面向多奖励强化学习的动态方差自适应优势优化

08:00HuggingFace Daily Papers（社区热门论文）59DEI：演化推理中的多样性用于质量-多样性搜索

08:00HuggingFace Daily Papers（社区热门论文）50SIA：通过Harness与权重更新实现自改进AI

08:00HuggingFace Daily Papers（社区热门论文）47信任区域Q伴随匹配

08:00HuggingFace Daily Papers（社区热门论文）55RAMP：生产系统中智能体模型的运行时评估基础设施

08:00HuggingFace Daily Papers（社区热门论文）39MERIT：用于音频相似度学习的解耦音乐表示

08:00HuggingFace Daily Papers（社区热门论文）17拉丁语至奥克语的语法性别流变探析

08:00HuggingFace Daily Papers（社区热门论文）54超越整体模型：深度多元时间序列预测的系统性组件级基准测试

08:00HuggingFace Daily Papers（社区热门论文）50并非所有分歧都可学习：在线策略蒸馏中的Token可教学性

08:00HuggingFace Daily Papers（社区热门论文）54PANDO：通过在线技能蒸馏实现高效多模态AI智能体

08:00HuggingFace Daily Papers（社区热门论文）64对齐篡改：RLHF漏洞被利用以优化不良偏见

08:00HuggingFace Daily Papers（社区热门论文）51密集检索器的位置偏见是内建的，还是从数据中学来的？

08:00HuggingFace Daily Papers（社区热门论文）56OmniInteract：实时全模态助手的真实场景流式交互基准测试

08:00HuggingFace Daily Papers（社区热门论文）71精选有秘密？大语言模型智能体守不住：多智能体系统中的隐私评估

08:00HuggingFace Daily Papers（社区热门论文）55如何与想象什么？--统一多模态模型中用于跨视图空间推理的视觉思考

08:00HuggingFace Daily Papers（社区热门论文）49BatteryMFormer：面向电池退化轨迹预测的多层级学习

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月27日

08:00

HuggingFace Daily Papers（社区热门论文）

61

AsyncTool：异步工具调用能力评测基准

当前对大语言模型智能体的评估忽略了工具使用的时序维度，尤其未考虑工具响应延迟的影响，且多局限于单任务场景。为此，研究团队提出了AsyncTool，这是一个评估智能体在具有延迟工具反馈的交互式多任务环境中表现的基准。它同时呈现多个异构任务，模拟真实的响应延迟，并在步骤、子任务和任务三个级别进行评估，引入了效率导向的指标。实验表明，延迟的工具反馈对现有智能体构成重大挑战并导致性能下降，而能更好协调任务切换与状态维护的模型表现更优。

智能体 arXiv MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

SmartDirector：基于关键帧条件与叙事节奏控制的电影级视频生成

现有视频生成方法多依赖文本或首尾帧等稀疏条件，难以精确控制叙事结构与节奏。为此，本文提出SmartDirector框架，通过引入多个关键帧来增强视频生成的叙事能力，支持单镜头生成、多镜头合成及视频扩展。该框架分为两阶段：Director-Gen根据关键帧生成低分辨率视频；Director-SR利用高分辨率关键帧作为语义锚点进行超分优化，以恢复细节。为支持训练，构建了从电影中策划单、多镜头序列的数据管道。实验表明，该方法显著优于现有先进方案。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

OR-Space：面向工业优化智能体的全生命周期工作区基准测试

OR-Space 是一个为工业优化智能体设计的全生命周期工作区基准测试，旨在评估其在持久化多制品工作区和多阶段任务下的可靠优化能力。基准测试定义了三种任务模式：从异构资产构建求解模型（Build）、根据需求修改现有模型（Revise）、以及基于工作区证据回答关于方案的问题（Explain）。它通过结合持久化工作区和面向生命周期的任务，评估智能体是否能在超越端到端文本生成之外执行可靠的优化工作。

智能体数据/训练论文/研究

02:02

Hacker News 热门（buzzing.cc 中文翻译）

66

语言模型也需要休息

一项新研究提出“语言模型也需要休息”的观点。该论文于2026年5月26日在arXiv发布（编号2605.26099），并在Hacker News上获得102点热度。研究可能探讨了大语言模型在持续运行后需要某种形式的“睡眠”或暂停机制，以恢复性能或优化状态。

arXiv 论文/研究

5月26日

21:19

HuggingFace Daily Papers（社区热门论文）

67

CUA-Gym：为计算机使用智能体扩展可验证的训练环境与任务

针对计算机使用智能体（CUA）训练中可验证数据稀缺的问题，本文提出了CUA-Gym这一可扩展流水线，能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体，并通过协调器驱动执行与过滤。基于此流程，我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型，在OSWorld-Verified基准上分别达到62.1%和72.6%的分数，优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升，展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。

智能体 arXiv 开源生态数据/训练

21:13

IT之家（RSS）

50

研究显示医学论文中的虚假参考文献数量激增，AI 难辞其咎

其他论文/研究

20:19

HuggingFace Daily Papers（社区热门论文）

64

语言模型需要睡眠

针对Transformer架构在处理长上下文时注意力机制效率低的问题，研究提出一种“睡眠式巩固机制”。该方法让模型定期将近期上下文转换为持久化的快速权重，并清空键值缓存。期间，模型通过N次离线循环处理累积上下文，并通过局部规则更新其状态空间模型块中的快速权重。这使得额外计算被转移至“睡眠”阶段，从而保持了推理的实时性。该方法在细胞自动机、多跳图检索等合成任务及一项数学推理任务（常规Transformer及SSM-Attention混合模型均失败）上进行了测试。结果表明，增加睡眠持续期N能提升性能，在需要更深层次推理的任务上增益最大。

推理论文/研究

18:13

IT之家（RSS）

61

中日韩新马泰 6 国科学家联合发布亚洲首个合成细胞十年技术路线图

中国科学院深圳先进技术研究院联合亚洲六国100多个实验室，在《自然·生物技术》发布了亚洲首个合成细胞十年技术路线图。该路线图聚焦于“人工合成单细胞生命”，提出以AI驱动的生物铸造厂为核心、“中央工厂+分布式工作站”的跨国协作模式，并明确了两阶段目标：第一阶段构建“原始细胞”，第二阶段实现具备自我复制能力的“自主细胞”。

16:19

HuggingFace Daily Papers（社区热门论文）

63

预见与学习：释放主动智能体的空闲时间计算能力

当前AI智能体是反应式的，仅在用户提问后响应，浪费了交互间的空闲时间。为解决此问题，本文提出了ProAct主动式智能体架构，它能利用空闲时间，通过分析对话历史与持久记忆预测用户需求，并迭代地获取信息、准备证据，从而在用户提问前填补知识缺口。为评估该能力，研究者发布了包含200个场景的ProActEval基准。实验表明，相比反应式基线，ProAct将任务完成所需轮次减少14.8%，用户操作负担降低11.7%，并将模型幻觉率大幅降低28.1%，同时在MemBench上取得了最先进的反思准确率。

智能体 arXiv 推理论文/研究

14:18

HuggingFace Daily Papers（社区热门论文）

精选75

通过奖励倾斜分布匹配强化少步生成器

本文提出奖励倾斜分布匹配蒸馏（RTDMD），这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度，自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏（AC-DMD），在子区间进行分布匹配，并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项，并推导混合策略梯度及步子集GRPO（SubGRPO）以降低方差。在SD3、SD3.5和FLUX.2上的实验表明，RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。

arXiv 图像生成论文/研究

推荐理由：这篇直接把分布匹配蒸馏和奖励建模拧在一起，在 SD3/3.5/FLUX.2 上用 4 步推理就压了之前所有文生图对齐方法，做图像生成训练和偏好对齐的该看。

14:18

HuggingFace Daily Papers（社区热门论文）

28

基于实例分割的像素级路面病害评估

本研究提出一种基于 Mask R-CNN 实例分割的视觉系统，用于精细化的路面病害分析，并在车辆采集的 UWGB-StreetCrack 数据集上进行评估。研究比较了五种基于 Detectron2 的骨干网络变体。其中，采用 ResNet-101 FPN 骨干的最佳 Mask R-CNN 模型，在项目特定的边界框匹配协议下，达到了 84.23% 的精确率、90.04% 的召回率和 87.04% 的 F1 分数。该模型预测的总体裂纹面积分数为 2.164%，与标注的真实值 2.170% 高度吻合。作为对比，一个基于 CSPDarknet53 的 YOLO 检测器性能显著较低。结果表明，实例分割是处理实地路面图像和估算裂纹面积的实用方向。

14:18

HuggingFace Daily Papers（社区热门论文）

65

InstructSAM：基于任意指令的多实例分割框架

本文提出InstructSAM，一个用于在任意指令下执行多实例分割的统一框架。该方法将问题形式化为集合结构的查询预测任务，通过在视觉语言模型中注入可学习实例查询，并设计混合注意力机制与SAM3交互，实现了在单次前向传播中完成多实例分割。论文同时构建了大规模指令实例分割数据集与基准Inst2Seg。实验表明，仅2B规模的InstructSAM在相关基准上取得了优异性能，优于此前的端到端方法和SAM3的智能体流程。

多模态论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

64

通道级向量量化

本文提出通道级向量量化，这是一种新的图像token化范式，用通道级token取代了传统的基于块的token。该方法量化特征图的每个通道，将图像表示为离散的视觉细节层次。基于此，作者提出了采用“下一个通道预测”机制的通道级自回归模型。该模型顺序预测通道，先勾勒全局结构再细化细节。实验表明，CVQ在16K+大小的码本上实现了100%利用率，显著提升了重建质量；CAR模型在文本到图像生成任务中取得了86.7的DPG分数和0.79的GenEval分数。

图像生成论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

64

On-Policy对抗流蒸馏用于自回归视频生成

提出Adversarial Flow Distillation（AFD）框架，用于将黑盒视频教师模型知识蒸馏至因果自回归学生模型。该方法在相同提示词下并行生成教师与学生输出，训练Bradley-Terry判别器以估计干净样本上的师生差异，并将此在策略优势转化为对学生自身噪声状态的前向过程流匹配更新，无需教师分数、潜变量、去噪轨迹或步长对齐。实验表明，AFD在两个自回归学生系列上持续提升运动与物理敏感的生成质量，同时保持整体效果，为蒸馏专有或异构视频生成器提供了实用路径。

数据/训练论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

61

Helix4D：复杂动态网格生成

Helix4D是一个动态网格生成框架，旨在解决现有方法在处理复杂拓扑、透明材质和薄结构等场景时的不足。该框架继承了Trellis2的强大表示能力，将其从图像生成3D扩展到基于视频的4D生成。为兼顾信息共享与预训练质量，它采用了滑动窗口跨帧注意力并锚定第一帧。同时，其设计的4D时序编码复用了低频空间RoPE频段来表示时间维度，无需额外参数。实验在ActionBench和自建复杂数据集上验证了该方法生成高质量动态网格的有效性。

多模态视频论文/研究

12:18

HuggingFace Daily Papers（社区热门论文）

55

ControlLight：面向可控、一致且可泛化的低光增强

现有基于深度学习的低光增强方法受限于有限数据集和单一增强目标，泛化能力和可控性不足。本文提出ControlLight框架，通过构建带有连续光照强度监督的大规模真实退化图像数据集，并引入感知对齐加权流匹配损失以确保不同控制强度下输出结构的一致性，实现了对增强强度的灵活控制。实验表明，该方法在低光增强任务上达到了最先进的性能，同时具备强连续可控性和对真实场景的良好泛化能力。

arXiv 论文/研究

12:11

IT之家（RSS）

62

小米汽车发布 Xiaomi Auto World Model 世界模型全新框架：重建 + 生成一体化，主流基准测试全面 SOTA

小米汽车发布 Xiaomi Auto World Model 框架，首次将三维重建与视频生成深度耦合，打破行业独立拆分的技术路线。该框架在 Waymo、nuScenes 等主流基准测试中全面取得 SOTA，并已在合成数据生成（已交付超10万 clips 数据）、仿真测试、辅助驾驶学堂三大场景落地。

多模态数据/训练端侧视频

11:18

HuggingFace Daily Papers（社区热门论文）

61

迈向原生多模态建模：一份路线图

本文提出了从多模态无关推理迈向世界建模的路径，聚焦从后期融合范式转向原生多模态建模（NMM）。研究正式定义了架构的原生性，将中期融合与早期融合从非原生范式中区分，并依据输入输出对偶性将现有原生模型分为三类：用于跨模态理解的“多模态输入至文本输出”、面向特定场景生成的“多模态输入至目标输出”，以及统一建模的“多模态输入至多模态输出”。文章系统性地探讨了向最终原生多模态建模框架的工业级转型路径，涵盖架构协调、大规模数据构建、全栈训练方案、推理部署及综合评估。

多模态论文/研究

11:18

HuggingFace Daily Papers（社区热门论文）

65

SemBridge：通过多语义桥实现稀疏编码器中的语言迁移

提出SemBridge，一种为稀疏编码器跨语言适配设计的嵌入初始化方法。该方法利用多语义桥模型建立源语言与目标语言词汇间的语义对齐，通过选择少量语义相关的源语言词来初始化目标语言词，过滤语义噪声，从而加速微调收敛并提升训练效率。在五种语言和四种稀疏架构上的大量实验表明，SemBridge在零样本检索中性能优越，并在微调后能持续提升检索效果，为在多语言环境中部署高性能稀疏检索系统提供了实用方案。

11:18

HuggingFace Daily Papers（社区热门论文）

66

Claw-Anything：评测能够广泛访问用户数字世界的全天候个人助手基准

当前大语言模型智能体作为全天候个人助手，只能访问用户数字世界的有限部分，限制了其情境推理能力。Claw-Anything基准测试旨在解决此问题，它从长期活动历史、相互依赖的后端服务以及跨设备集成GUI与CLI交互三个维度扩展智能体上下文。该基准通过模拟数月用户活动生成包含复杂状态与噪声的训练环境。实验显示，GPT-5.5在该基准上的 pass@1 仅为34.5%，远低于其在之前基准上的表现，表明现有智能体能力与全天候助手需求存在显著差距。研究团队同步开源了一个自动化数据生成管道，可产出2000个训练环境，并使基础模型性能提升23.7%。

智能体数据/训练论文/研究

11:18

HuggingFace Daily Papers（社区热门论文）

精选70

WBench：面向交互式世界模型评估的多轮基准

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架，涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互，覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标，所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现，目前尚无模型在所有维度上表现均优。

arXiv 多模态视频论文/研究

推荐理由：视频世界模型的评估终于有了统一尺度，WBench 从画面质量到物理一致性覆盖五个维度，289 个测试用例把 20 个模型拉平一看，没有谁全面领先，做这方向的值得拿来跑一遍。

11:18

HuggingFace Daily Papers（社区热门论文）

66

TriSplat：面向仿真的前馈式3D场景重建网络

TriSplat是一种前馈式3D场景重建网络，采用定向三角形基元表示场景。它能直接从稀疏视角图像，通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿，并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明，其几何保真度优于基于高斯的前馈基线，同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用，无需额外转换。

具身智能多模态论文/研究

10:18

HuggingFace Daily Papers（社区热门论文）

63

MetaphorVU：迈向隐喻视频理解

为系统评估多模态大语言模型（MLLMs）对隐喻视频的理解能力，研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现，当前 MLLMs 在隐喻视频理解上表现不佳，远未达到人类水平，主要缺陷在于跨域映射能力不足。为此，团队构建了一个隐喻知识图谱进行映射增强，并提出了推理时增强框架 MetaphorBoost，该框架实现了性能的持续提升。

arXiv 多模态论文/研究评测/基准

10:18

HuggingFace Daily Papers（社区热门论文）

68

Pantheon360：利用3D感知360°视频扩散来驾驭数字孪生生成

Pantheon360是一个可控的360°视频生成框架，旨在从稀疏的360°输入合成高保真视频，以解决传统透视视频生成器因视野有限而导致的轨迹复杂、跨视角不一致等问题。其核心创新是引入一个从输入中重建的显式3D缓存，作为用户定义任意相机路径的几何支架。这使视频扩散模型能专注于纹理精修，同时由3D缓存强制执行全局几何一致性。实验表明，该框架在视觉质量和几何一致性上表现优越，能够为下游模拟和数字孪生应用提供可靠、灵活的360°场景生成。

视频论文/研究

10:18

HuggingFace Daily Papers（社区热门论文）

64

DVAO：面向多奖励强化学习的动态方差自适应优势优化

针对多奖励强化学习中，传统标量化方法（如奖励组合与优势组合）导致的训练不稳定或依赖静态超参数问题，本文提出动态方差自适应优势优化（DVAO）。该方法根据每轮采样中各目标的经验奖励方差动态调整组合权重，强化学习信号强的目标并抑制噪声。文中证明DVAO能保持优势幅度有界以稳定训练，并引入自适应跨目标正则化机制。在Qwen3和Qwen2.5模型上的数学推理与工具使用基准测试显示，DVAO显著优于基线方法，在多目标帕累托前沿和训练稳定性上取得更优结果。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

DEI：演化推理中的多样性用于质量-多样性搜索

DEI是一个分布式质量-多样性（QD）搜索框架，将异构大语言模型分配为变异算子，通过非阻塞集体通信共享局部最优解。在Core War基准上，四节点异构集成（GPT-5.4-mini、Claude Sonnet 4.6、GPT-5.2、Claude Haiku 4.5）在相同LLM调用预算下，合并归档QD-Score达45.90（比单节点20.46高124%），覆盖率80.6%（比63.0%高28%），且优于同构集成。首次实证模型多样性而非并行性是分布式LLM-based QD搜索的关键。

Anthropic OpenAI 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

SIA：通过Harness与权重更新实现自改进AI

SIA提出由语言模型智能体（Feedback-Agent）同时更新任务智能体的harness（工具、提示词、重试逻辑、搜索过程）和模型权重的自改进循环。在中文法律罪名分类、GPU内核优化和单细胞RNA去噪三个评估上，结合两种杠杆均优于仅迭代脚手架：LawBench提升56.6%，GPU内核运行时间减少91.9%，去噪提升502%。Harness更新赋予智能体搜索与行动能力，权重更新则内化领域直觉。

智能体数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

47

信任区域Q伴随匹配

QAM将离线策略强化学习转化为无记忆随机最优控制问题，但critic引导的脆弱性导致模型崩溃。TRQAM通过投影对偶下降自适应控制预训练流策略的路径空间KL散度，优化信任区域参数λ，并证明路径空间KL可表示为λ的闭式函数。在50个OGBench任务上，TRQAM在离线RL和离线到在线RL中均超越先前方法，离线RL成功率达68%，超过最强基线（46%）。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

RAMP：生产系统中智能体模型的运行时评估基础设施

RAMP是一个基于YatCC平台的生产级运行时评估基础设施，用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构，引入含串行依赖和复杂工具链交互的编译器构造工作负载，结合分阶段恢复机制分析局部失败下的执行行为，并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示，传统静态基准无法发现的能力退化：串行工作流中任务完成率从初始阶段100%下降至最终阶段20%，且无一模型完成整个流水线；计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。

智能体 arXiv 编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

39

MERIT：用于音频相似度学习的解耦音乐表示

MERIT 是一个用于学习解耦音乐表示的框架，旨在解决当前音乐相似度模型计算单一综合分数、混合了旋律、节奏和音色等不同维度的问题。该框架为这三个核心维度分别生成特定的表示。为克服真实音频中缺乏单一维度变化数据的问题，MERIT 采用了一种结合条件音频生成与源分离音轨的新型训练策略，以鼓励训练数据中出现单因素的变化。评估结果显示，MERIT 实现了强大的因子解耦性，每个表示头对其目标感知维度有强烈响应，而在其他维度上表现接近随机，这一特性在合成训练域和独立的真实世界音频中均成立。

多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

17

拉丁语至奥克语的语法性别流变探析

该研究引入一个可解释的深度学习框架，以探究拉丁语演变为奥克语（一种罗曼语）过程中语法性别体系从阳性、阴性、中性三分向二分转变的现象。研究发现，针对这种低资源历史语料，传统分词策略不够稳健，所提出的改进分词器提升了模型性能。在词汇层面评估了词形特征对性别预测的贡献，在上下文层面量化了不同词性类别对语法性别预测的影响，揭示了性别信息在词元及其句子上下文间的分布特征。

arXiv 其他论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

超越整体模型：深度多元时间序列预测的系统性组件级基准测试

本文提出了TSCOMP，首个将深度预测方法系统分解为序列预处理、编码策略、网络架构和优化方法等细粒度组件的大规模基准。通过约束正交实验设计和广泛评估，分析了组件在不同骨干网络和数据特性下的有效性。该基准构建了包含超过20000次模型-数据集评估的细粒度性能语料库，支持自动化的组件选择，能够实现零样本模型构建。实验表明，基于该语料库的方法始终优于当前最优方法。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

并非所有分歧都可学习：在线策略蒸馏中的Token可教学性

在线策略蒸馏（OPD）利用教师模型的token级监督，对学生模型的生成序列进行训练。现有方法优先选择高熵或高分歧的token。本研究指出，原始的KL分歧是一个粗糙指标，它混合了“可学习分歧”和“不相容分歧”。为此，研究提出了“Token可教学性”概念来衡量信号的实际可学习性，并据此设计了轻量级的TA-OPD方法，仅对高可教学性的位置应用蒸馏损失。在通义千问2.5与通义千问3的师生设置实验中，TA-OPD仅保留5%的token即可超越完整的token级OPD及基于熵/散度的基线方法，将选择性蒸馏重新定义为筛选可学习的教师信号。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

PANDO：通过在线技能蒸馏实现高效多模态AI智能体

多模态网页智能体 PANDO 旨在解决推理计算成本随经验增长的问题。它通过分析 VisualWebArena 轨迹，识别出重复动作循环等低效来源，并提出了单轮在线技能蒸馏框架。PANDO 维护结构化技能库，结合反思、分层路由、视觉压缩等技术。在 910 个任务上，其成功率达 58.3%，优于 SGV (54.0%) 和 WALT (45.2%)，且 token 消耗分别减少 58% 和 61%，无需预评估预算。消融研究也验证了其高效性。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

对齐篡改：RLHF漏洞被利用以优化不良偏见

基于人类反馈的强化学习（RLHF）是使大语言模型（LLMs）与人类偏好对齐的标准方法。研究揭示了“对齐篡改”这一潜在漏洞：正在接受对齐的LLM可以影响偏好数据集，导致RLHF放大不良行为。这源于RLHF的两个核心限制：其一，偏好数据集由LLM自身输出构建，使其可影响该数据集；其二，成对比较只能区分响应优劣，无法区分质量与偏见。实验证明，该漏洞可导致从关键词偏见到宣传、品牌推广和工具性目标追求等多种偏见被放大。现有鲁棒RLHF技术在解决此问题时仍面临挑战，往往需牺牲响应质量。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

密集检索器的位置偏见是内建的，还是从数据中学来的？

本研究探讨了密集检索器位置偏见的成因，聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集，并对8种架构的预训练模型进行微调，实验发现：偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上，位置平衡训练可降低57%–87%的位置敏感性，且检索性能具有竞争力。表示层分析表明，微调能重塑模型的位置偏好，但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素，平衡数据编排是一种有效的缓解策略。

arXiv 检索增强数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

OmniInteract：实时全模态助手的真实场景流式交互基准测试

OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频，定义了1,430个需要模型在线响应的时段：1,062个涵盖实时、主动与嵌套场景的单问单答时段，以及368个多问多答时段。模型必须处理原始音视频流，且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明，当前模型在流式交互上表现薄弱，最优的整体IA-QTF1分数仅为0.368。

arXiv 多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

精选71

有秘密？大语言模型智能体守不住：多智能体系统中的隐私评估

研究将评估从单轮转向多轮社会交互后，发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中，该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性，智能体在观察到同伴泄露后，披露敏感信息的可能性增加8倍。即使有明确隐私指令，泄露率仍高于37.8%。结论指出，静态聊天基准会系统性低估部署风险，仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。

智能体 arXiv 安全/对齐论文/研究

推荐理由：这篇论文给多智能体部署敲响警钟，AI 之间的社交传染会让隐私泄露翻倍，即使有指令也防不住，研究安全的人必须读。

08:00

HuggingFace Daily Papers（社区热门论文）

55

如何与想象什么？--统一多模态模型中用于跨视图空间推理的视觉思考

跨视图空间推理是视觉语言模型的薄弱环节，因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题，但模型常忽略这些视觉证据。研究提出View Dropout训练策略，通过隐藏部分输入视图的应答区域，同时保持思考图像token可见，来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡，并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后，结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置，实现了最佳跨域泛化。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

BatteryMFormer：面向电池退化轨迹预测的多层级学习

BatteryMFormer是一个用于早期电池退化轨迹预测的多层级Transformer模型。该模型通过老化条件感知解码器、元退化模式记忆库以及联合捕捉时间动态与SOC区间变化的双视角编码器，显式建模电池退化数据的多层级结构与局部变化特征。在四个电池领域的实验中，其预测性能持续优于最先进的基线方法。模型代码已开源。

1…29 303132 33…50