AIHOT

全部动态资讯 · 1901 条

全部一手资讯 X 论文

5月14日周四

12:45HuggingFace Daily Papers（社区热门论文）72精选检索廉价，代码为王：基于可执行程序的多跳推理检索增强生成 11:53CMU：Machine Learning Blog63精选教视觉-语言模型说"电影语言"11:45HuggingFace Daily Papers（社区热门论文）53高效训练长上下文视觉语言模型及其超越128K的泛化能力 11:45HuggingFace Daily Papers（社区热门论文）66RoboEvolve：面向数据稀缺场景的机器人操作规划器-模拟器协同进化框架 11:45HuggingFace Daily Papers（社区热门论文）60Qwen-Image-VAE-2.0 技术报告 11:45HuggingFace Daily Papers（社区热门论文）66长上下文窗口下的思维链上下文学习研究：从检索缓冲到结构化课程 11:45HuggingFace Daily Papers（社区热门论文）60MinT：用于训练和服务百万级大语言模型的托管基础设施 10:45HuggingFace Daily Papers（社区热门论文）62Edit-Compass与EditReward-Compass：图像编辑与奖励建模的统一评估基准 10:45HuggingFace Daily Papers（社区热门论文）64重访DAgger算法在长视野大语言模型智能体训练中的应用 10:45HuggingFace Daily Papers（社区热门论文）62AnyFlow：基于在线策略流图蒸馏的任意步数视频扩散模型 10:45HuggingFace Daily Papers（社区热门论文）68非对称流模型 10:45HuggingFace Daily Papers（社区热门论文）63基于主动信息搜索的上下文训练 10:45HuggingFace Daily Papers（社区热门论文）60MAP：一种面向长程交互式智能体推理的先建图后行动范式 10:45HuggingFace Daily Papers（社区热门论文）72精选AgentLens：揭示软件工程智能体评估中的"幸运通过"问题 09:45HuggingFace Daily Papers（社区热门论文）72精选持续更新导致LLM智能体记忆效用衰退 09:45HuggingFace Daily Papers（社区热门论文）57频率偏差与分布外泛化：变系数波动方程下的神经算子研究 08:00HuggingFace Daily Papers（社区热门论文）44EverAnimate：通过潜在流修复实现分钟级人类动画 08:00HuggingFace Daily Papers（社区热门论文）45通过字节级模拟解耦子词分词在语言模型训练中的优势 08:00HuggingFace Daily Papers（社区热门论文）48Video2GUI：为通用GUI智能体预训练合成大规模交互轨迹 08:00HuggingFace Daily Papers（社区热门论文）48通过原子实体分析评估图像编辑中的抽象意图 08:00HuggingFace Daily Papers（社区热门论文）48视频模型可通过可验证奖励进行推理 08:00HuggingFace Daily Papers（社区热门论文）56TopoPrimer：预测模型缺失的拓扑上下文 08:00HuggingFace Daily Papers（社区热门论文）52FINESSE-Bench：面向大语言模型的金融领域知识与技术分析层级基准测试套件 08:00HuggingFace Daily Papers（社区热门论文）53EndPrompt：通过末端锚定高效扩展长上下文 08:00HuggingFace Daily Papers（社区热门论文）50几何引导的隐状态替换：扩散应从何处进入语言模型？08:00HuggingFace Daily Papers（社区热门论文）54KVPO：基于KV语义探索的ODE原生自回归视频对齐GRPO方法 08:00HuggingFace Daily Papers（社区热门论文）57审计代理运行框架的安全性 08:00HuggingFace Daily Papers（社区热门论文）55MetaAgent-X：通过端到端强化学习突破自动多智能体系统性能瓶颈 08:00HuggingFace Daily Papers（社区热门论文）55可持久化的遗忘：基于电路归因的量化不变机器卸载 08:00HuggingFace Daily Papers（社区热门论文）63基于操作指纹：通过UI痕迹识别LLM浏览器智能体 08:00HuggingFace Daily Papers（社区热门论文）50AuralSAM2：通过金字塔音视频特征提示赋能SAM2倾听 08:00HuggingFace Daily Papers（社区热门论文）42ChangeFlow -- 用于遥感变化检测的潜空间校正流模型 08:00HuggingFace Daily Papers（社区热门论文）57GQLA：面向硬件自适应的大语言模型解码的分组查询潜在注意力 08:00HuggingFace Daily Papers（社区热门论文）55PhysBrain 1.0 技术报告 08:00HuggingFace Daily Papers（社区热门论文）49从计划到像素：学习规划与协调的开放式图像编辑 08:00HuggingFace Daily Papers（社区热门论文）59Learning from Failures：基于可验证奖励的纠错导向策略优化 08:00HuggingFace Daily Papers（社区热门论文）50InsightTok：提升自回归图像生成中文本与人脸保真度的离散标记化框架 08:00HuggingFace Daily Papers（社区热门论文）57Solvita：通过智能体演化增强大语言模型的竞技编程能力 08:00HuggingFace Daily Papers（社区热门论文）55FFAvatar：少样本、前馈式、可泛化的虚拟形象重建 08:00HuggingFace Daily Papers（社区热门论文）57MMSkills：面向通用视觉智能体的多模态技能框架

5月14日

12:45

HuggingFace Daily Papers（社区热门论文）

精选72

检索廉价，代码为王：基于可执行程序的多跳推理检索增强生成

针对多跳检索增强生成（RAG）中推理过程隐式、检索漂移及错误难以自查的问题，研究团队提出PyRAG框架，将多跳推理任务重构为程序合成与执行过程。该框架将推理步骤编写为可执行的Python程序，通过显式调用检索与问答工具实现多步计算，使中间状态变量化、反馈确定化，并生成完整可检查的推理轨迹。该方法无需额外训练即可支持基于编译器的自我修复与执行驱动的自适应检索。在PopQA、HotpotQA等五个问答基准测试中，PyRAG在无需训练和强化学习训练两种设定下均显著优于基线模型，尤其在组合式多跳数据集上提升显著。相关资源已开源。

检索增强论文/研究

推荐理由：把多跳RAG变成可执行的Python程序，中间状态全透明，实验在五个数据集上都压住了基线，做检索增强的值得看一眼。

11:53

CMU：Machine Learning Blog

精选63

教视觉-语言模型说"电影语言"

研究团队与百余名专业创作者历时一年，构建了一个视频描述生成流程，其核心在于扩展精细化的人类-AI协同监督，而非单纯扩大模型规模。该研究（入选CVPR 2026亮点论文）指出，当前主流视频生成模型在理解和生成具有电影感的专业运镜（如希区柯克式滑动变焦、精确的焦点转移或荷兰角镜头）时存在明显不足，常产出通用或焦点错误的画面。这项工作揭示了一条通过提升监督质量来增强模型“电影语言”表达能力的新路径。

多模态视频论文/研究

推荐理由：这篇CVPR 2026 Highlight的博客版很有意思，它用100多个专业电影人来标注视频，教VLM学会推拉摇移的镜头语言，不是又多一个数据集，而是提醒我们：高质量的人工标注可能比堆模型更重要。

11:45

HuggingFace Daily Papers（社区热门论文）

53

高效训练长上下文视觉语言模型及其超越128K的泛化能力

本研究系统性地探索了长上下文视觉语言模型的持续预训练方法，成功将7B参数模型的上下文长度从32K扩展至128K。关键发现包括：长文档视觉问答数据优于OCR转录；均衡的序列长度分布数据比仅聚焦目标长度的数据更有效；检索能力是主要瓶颈，需搭配检索密集型数据。基于此，团队以仅50亿token的预算，从Qwen2.5-VL-7B训练出MMProLong模型。该模型将长文档视觉问答得分提升7.1%，并在未经额外训练的情况下，在256K和512K的上下文长度上保持强劲性能，同时能泛化应用于网页检索、长文本压缩及长视频理解等任务。

多模态开源生态数据/训练论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

66

RoboEvolve：面向数据稀缺场景的机器人操作规划器-模拟器协同进化框架

RoboEvolve提出一种协同进化框架，以解决机器人操作中物理交互数据稀缺的难题。该框架将视觉语言模型规划器与视频生成模型模拟器耦合，形成相互强化的循环。仅需500张无标注种子图像，通过“日间探索”与“夜间巩固”的双阶段机制，并在自主渐进课程引导下，系统能从简单动作自然扩展至复杂任务。实验表明，其将基础规划器性能提升30个绝对百分点，模拟器成功率平均提高48%，数据效率较全监督基线提升50倍，且能实现无灾难性遗忘的持续学习。

具身智能论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

60

Qwen-Image-VAE-2.0 技术报告

Qwen团队推出Qwen-Image-VAE-2.0高压缩变分自编码器，在重建保真度与扩散适应性上均取得显著提升。该模型采用全局跳跃连接与扩展潜在通道的改进架构，基于数十亿图像训练，并引入合成渲染引擎以增强文本场景处理能力。通过增强语义对齐策略解决高维潜在空间收敛难题，并利用非对称无注意力编码器-解码器降低计算开销。在公开重建基准及新提出的文本场景基准OmniDoc-TokenBench上均表现优异，下游DiT实验证实其能显著加速扩散模型收敛。

arXiv图像生成论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

66

长上下文窗口下的思维链上下文学习研究：从检索缓冲到结构化课程

研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现，增加思维链示例数量主要惠及推理导向模型，而对非推理模型效果不稳定；基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效；示例顺序影响显著，性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习，并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法，在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。

arXiv推理数据/训练论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

60

MinT：用于训练和服务百万级大语言模型的托管基础设施

MinT是一个专注于LoRA后训练与在线服务的托管基础设施系统。其核心设计是保持基础模型常驻，仅移动和更新轻量的LoRA适配器，从而隐藏分布式训练与服务等复杂性。系统从三个维度实现扩展：向上扩展支持万亿参数规模的密集与MoE架构；向下扩展使适配器体积可小于基础模型的1%，显著减少步骤与墙时间；向外扩展支持百万级可寻址策略目录，通过集群调度与张量打包技术高效处理海量适配器的冷加载与活跃服务。最终，MinT能够在共享的万亿级基础模型上，高效管理百万规模LoRA策略的训练与服务。

论文/研究部署/工程

10:45

HuggingFace Daily Papers（社区热门论文）

62

Edit-Compass与EditReward-Compass：图像编辑与奖励建模的统一评估基准

针对现有图像编辑模型评估基准任务难度有限、评价方法粗糙，以及奖励模型基准脱离实际强化学习场景的问题，研究团队推出了统一评估套件Edit-Compass与EditReward-Compass。Edit-Compass包含2,388个精细标注实例，涵盖世界知识推理、视觉推理等六大渐进式挑战性任务，并采用基于结构化推理的细粒度多维评估框架。EditReward-Compass则提供2,251个偏好对，以模拟强化学习优化中的真实奖励建模场景。该套件旨在为两类模型提供更可靠、贴近实用的评估标准。

图像生成多模态论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

64

重访DAgger算法在长视野大语言模型智能体训练中的应用

研究将数据集聚合（DAgger）算法应用于长视野大语言模型智能体训练，以解决监督微调中的协变量偏移与强化学习反馈稀疏的困境。该方法通过学生与教师策略的逐轮插值收集交互轨迹，并利用教师提供的密集监督信号进行训练，使模型接触真实环境状态。在软件工程智能体训练中，经DAgger式训练的4B和8B学生模型在SWE-bench Verified基准上显著提升，最终4B智能体成功率超越已发布的代表性8B系统，8B智能体性能接近更强32B规模模型，验证了该方法的有效性。

智能体推理编码论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

62

AnyFlow：基于在线策略流图蒸馏的任意步数视频扩散模型

针对一致性蒸馏模型在测试时增加采样步数性能下降的问题，研究团队提出首个基于流图的任意步数视频扩散蒸馏框架AnyFlow。该框架将蒸馏目标从端点一致性映射转向任意时间间隔的流图转换学习，从而优化整个ODE采样轨迹。其核心创新“流图反向模拟”技术，通过将完整的欧拉展开分解为捷径流图转换，实现了高效的在线策略蒸馏，有效减少了测试时的离散化误差和因果生成中的曝光偏差。实验表明，在13亿至140亿参数规模的双向与因果架构上，AnyFlow在少步采样中性能匹配或超越基于一致性的模型，并能随采样步数增加持续提升效果。

多模态视频论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

68

非对称流模型

研究团队提出非对称流建模（AsymFlow），以解决高维流生成中噪声预测的难题。其核心是秩非对称速度参数化，将噪声预测限制在低秩子空间，同时保持数据预测的全维度，并能解析恢复全维速度，无需改变网络架构或训练流程。在ImageNet 256×256任务上，该方法取得了1.57的领先FID分数。此外，AsymFlow首次实现了将预训练潜在流模型微调为像素空间模型的路径：通过子空间对齐进行无缝初始化，使微调主要改善低级特征而非重新学习生成。基于FLUX.2微调得到的像素模型在多项基准测试中超越了其潜在基础模型，建立了像素空间文生图的新技术标杆。

图像生成论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

63

基于主动信息搜索的上下文训练

研究为大型语言模型的上下文优化器引入维基百科搜索与浏览器工具，使其能够主动获取外部信息。单纯在标准流程中添加工具会降低性能，但配合基于搜索的训练流程——维护并修剪多个候选上下文——后，模型在多个领域实现显著提升。该方法在低资源翻译、健康场景以及强推理任务上均表现一致且高效，同时具备数据利用率高、超参数鲁棒性强等特点，所生成的文本上下文能很好地迁移至不同模型。

检索增强搜索论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

60

MAP：一种面向长程交互式智能体推理的先建图后行动范式

针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题，本研究提出可插拔的先建图后行动范式（MAP）。该范式将环境理解前置，包含全局探索、任务特定建图与知识增强执行三个阶段，旨在突破认知瓶颈。实验表明，MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中，前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明，基于环境理解的训练优于单纯模仿专家轨迹，验证了先理解环境的核心价值。

智能体推理论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

精选72

AgentLens：揭示软件工程智能体评估中的"幸运通过"问题

当前软件工程智能体评估仅依赖最终补丁是否通过测试的二元信号，掩盖了解决方案质量的差异。研究分析了2,614条轨迹，发现在可评估的1,815条通过轨迹中，10.7%属于“幸运通过”，表现为回归循环、盲目重试等问题。为此，研究团队提出了用于过程级评估的AgentLens框架，并发布了标注质量分数、冗余信号等信息的AgentLens-Bench数据集。基于质量分数，通过轨迹被划分为幸运、扎实和理想三个等级，不同模型的幸运通过率介于0.5%至23.2%之间。若按质量分数而非通过率排名，部分模型的排名变化显著。相关资源已开源。

智能体论文/研究

推荐理由：SWE-agent评估只看通过率太粗暴了，这篇论文把乱试的“幸运通过”和真方案拆开看，10%的通过其实是蒙的，做agent评估的必读。

09:45

HuggingFace Daily Papers（社区热门论文）

精选72

持续更新导致LLM智能体记忆效用衰退

研究发现，当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时，会产生错误记忆，导致性能不升反降。即使基于完全正确的经验进行整合，GPT-4在部分问题上仍有54%的失败率，而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身，而非原始经验。在受控测试中，默认保留原始经历片段的智能体，其准确率是强制整合版本的两倍；完全禁用整合、仅进行片段管理，能达到与自动管理相当的性能。因此，稳健的智能体记忆系统应将原始经历片段视为首要证据，并明确控制整合的触发条件，而非在每次交互后都自动执行。

智能体检索增强论文/研究

推荐理由：LLM 整合记忆的常规套路被这篇论文掀了桌子。连续更新反而会把有用的经验搞坏，甚至 GPT-5.4 自己解过的题，加上记忆后正确率暴跌。做 agent 的人值得认真看看，记忆架构可能要转向保留原始轨迹。

09:45

HuggingFace Daily Papers（社区热门论文）

57

频率偏差与分布外泛化：变系数波动方程下的神经算子研究

本研究通过一维变系数波动方程，探究了傅里叶神经算子与深度算子网络在结构化分布变化下的泛化能力。在输入频率与系数平滑度独立变化的分布外设定中，两种模型对平滑度变化均表现稳定，且FNO误差更低。然而，面对输入频率变化时，FNO在未见高频数据上误差急剧上升，而DeepONet虽整体误差较高，性能下降却更平缓。分析表明，该差异源于两者对频率结构的表示与响应机制不同。结果揭示了神经算子在分布内高性能与分布外泛化间存在根本差距，凸显了架构表示偏差对于开发更可靠、适用于训练分布外物理模拟的神经算子的关键影响。

arXiv数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

EverAnimate：通过潜在流修复实现分钟级人类动画

EverAnimate是一种高效的后训练方法，用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹，包含两个核心机制：持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘；恢复式流匹配在采样时引入隐式修复目标，通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调，在短时和长时动画设置下均超越现有最优方案，在10秒和90秒动画上均取得了显著的指标提升。

arXiv图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

45

通过字节级模拟解耦子词分词在语言模型训练中的优势

该研究通过构建受控的字节级预训练流程，系统性地隔离并分析了子词分词技术对大语言模型训练效率与性能的具体贡献。实验在样本吞吐量、词表规模扩展以及子词边界的语言学先验等多个维度进行假设检验。研究发现，子词分词模型相较于原始字节模型的性能优势，主要源于训练吞吐量的显著提升，以及将子词边界作为显式先验或归纳偏置的有效整合。这些结论为未来优化字节级与子词级模型的预训练方法提供了关键见解。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

Video2GUI：为通用GUI智能体预训练合成大规模交互轨迹

Video2GUI框架能从5亿互联网视频元数据中自动提取GUI交互轨迹，构建了包含1200万条轨迹的WildGUI数据集，覆盖1500多个应用和网站。在Qwen2.5-VL和Mimo-VL上预训练后，GUI定位和行动基准测试性能提升5-20%，达到或超越现有最优水平。该数据集与框架将开源以支持GUI智能体研究。

多模态开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

通过原子实体分析评估图像编辑中的抽象意图

本研究针对图像编辑中抽象指令（如情绪）评估的空白，首次系统定义了抽象图像编辑的分类体系，并提出Entity-Rubrics评估框架。该框架将抽象编辑拆解为独立的实体级评估，其结果与人类判断高度一致。同时，发布了首个跨场景的抽象图像编辑基准AbstractEdit。对11个模型的测试显示，现有架构难以平衡编辑意图与原图保持，常出现编辑不足或过度编辑。研究表明，结合先进LLM文本编码器与迭代思考机制是提升性能的关键。该范式未来可拓展为奖励模型，助力模型理解抽象指令，推动更自然的多模态交互。

图像生成多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

48

视频模型可通过可验证奖励进行推理

研究人员提出VideoRLVR方法，利用基于规则的反馈优化视频扩散模型，使其具备可验证的推理能力。该方法将视频推理建模为生成可验证的视觉轨迹，核心包括SDE-GRPO优化骨干、密集分解奖励以及Early-Step Focus策略。其中，Early-Step Focus策略通过将优化集中在早期去噪阶段，减少约40%训练延迟并保持性能。在Maze、FlowFree和Sokoban三个程序化生成任务中，VideoRLVR显著优于监督微调基线，尤其在成功率较低时效果突出。该模型在可验证推理基准和域外测试中也优于多个商用及开源模型，表明可验证强化学习能推动视频模型实现更可靠的规则一致视觉推理。

推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

TopoPrimer：预测模型缺失的拓扑上下文

TopoPrimer是一个将时间序列群体的全局拓扑结构作为显式输入来提升预测模型性能的框架。它通过持久同调与谱束坐标进行一次性的预计算，可作为全训练模型的输入或预训练骨干的轻量化适配器。在多个基准测试中，TopoPrimer显著提升了预测精度，在ECL数据集上最高实现7.3%的MSE改善；它在季节性需求高峰期将模型误差控制在10%以内（传统模型误差增幅达50%），并在无历史数据的冷启动场景中，较无拓扑基线降低了27%的MAE。研究表明，拓扑信号与单序列训练具有互补性，能持续稳定地带来精度增益。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

FINESSE-Bench：面向大语言模型的金融领域知识与技术分析层级基准测试套件

针对现有金融基准测试在评估大语言模型（LLM）专业能力上的局限性，研究团队发布了FINESSE-Bench。这是一个包含八个专业基准测试、共计3993个问题的综合评估套件。它创新性地结合了CFA（特许金融分析师）等专业认证考试数据集、实际交易任务以及一个俄语奥赛基准。该套件旨在系统评估模型的金融知识广度、随难度提升的性能衰减、计算解决能力及在专业领域的表现，并提出了基于LLM-as-Judge范式的自动化评分方案，为实质性评估LLM的金融专业能力提供了新工具。

Hugging Face数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

EndPrompt：通过末端锚定高效扩展长上下文

传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练，计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文，其核心是将原始短上下文作为第一段，附加一个简短的末端提示作为第二段，并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离，同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式，表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时，EndPrompt在LongBench上平均得分最高（76.03），超越LCEG、LongLoRA等方法，且计算量更少，证明长上下文泛化可从稀疏位置监督诱导，挑战了密集训练的必要假设。

arXiv开源/仓库推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

50

几何引导的隐状态替换：扩散应从何处进入语言模型？

针对扩散语言模型效果不及自回归模型的问题，本文提出DiHAL混合架构。其核心在于利用几何度量评估Transformer各层，确定最适合进行扩散干预的隐藏状态接口。该方法在选中层以下用扩散桥替换前缀，同时保留上层结构，通过重建隐藏状态而非直接处理离散token，避免了连续到离散转换的困难。实验表明，几何分数能有效预测浅层插入点，且隐状态恢复在匹配训练预算下优于连续扩散基线，为在预训练模型中定位可行的扩散替换位置提供了依据。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

54

KVPO：基于KV语义探索的ODE原生自回归视频对齐GRPO方法

针对流式自回归视频生成器与人类偏好对齐的挑战，现有方法依赖噪声探索和SDE策略，与蒸馏模型的ODE动态不匹配。本文提出KVPO框架，引入因果语义探索范式，将变异源从随机噪声转移至历史键值缓存，构建语义多样的生成分支；同时提出基于轨迹速度能量的速度场代理策略，在流匹配速度空间量化分支可能性，形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。

arXiv视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

审计代理运行框架的安全性

当前对大语言模型代理的安全评估大多仅关注最终输出，忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区，研究者提出了HarnessAudit框架，从边界合规、执行保真度和系统稳定性三个维度，对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现，任务完成并不等于安全执行，违规行为会随轨迹增长而累积；风险在多智能体协作中被放大，且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。

智能体arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

MetaAgent-X：通过端到端强化学习突破自动多智能体系统性能瓶颈

现有自动多智能体系统存在局限，要么依赖测试时搜索，要么仅优化设计者而固定执行者，无法实现端到端联合优化。为此，研究团队提出MetaAgent-X框架，通过强化学习同时优化系统设计与执行。该框架支持脚本化生成、轨迹收集和信用分配，并引入"分层滚动"和"分阶段协同进化"技术确保训练稳定。实验显示MetaAgent-X最高提升性能达21.7%，消融分析表明设计者与执行者协同进化，验证了端到端可训练范式的有效性。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

可持久化的遗忘：基于电路归因的量化不变机器卸载

研究指出了机器遗忘评估与部署现实的关键脱节：标准评估在全精度模型上进行，而部署模型必须量化。研究发现，4位后训练量化系统性逆转了遗忘效果，其根源在于参数更新量远小于量化区间宽度，无法跨越量化边界。为此，研究提出MANSU方法，通过因果电路归因定位最小子图，结合受约束的零空间投影与参数幅度下限，确保遗忘持久且能通过量化。新引入的电路归因散度指标可区分结构擦除与行为抑制。MANSU是首个在有意义遗忘、保持保留、无量化损失及结构擦除四个属性上均达到良好效果的方法。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

63

基于操作指纹：通过UI痕迹识别LLM浏览器智能体

本研究揭示，代表用户浏览网页的LLM智能体，其操作模式与交互时间特征可被网站通过被动JavaScript追踪器捕获，从而精准识别底层大模型，构成显著安全风险。实验涵盖14个前沿大模型与4种网络任务环境，表明基于操作日志的分类器可达到96%的F1分数，且具备跨模型泛化能力。即使仅需少量交互痕迹，或在任务早期阶段，仍可有效推断智能体身份。研究发现，虽向操作间注入随机延迟会暂时干扰识别，但通过在延迟痕迹上重新训练分类器，其性能可基本恢复，因此无法提供稳健防护。团队已公开其实验框架与标注的智能体痕迹数据集。

智能体安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

50

AuralSAM2：通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足，本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征，生成稀疏和密集提示，并基于SAM2的特征金字塔在视觉层间传播音频线索，以强化跨模态影响。同时，引入音频引导对比损失函数，进一步对齐音频与视觉特征。实验表明，该方法在公开基准上显著提升了准确率，同时将对SAM2可提示分割交互效率的影响降至最低。

arXivGitHub多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

42

ChangeFlow -- 用于遥感变化检测的潜空间校正流模型

现有遥感变化检测方法在生成式模型上往往因像素空间生成计算成本高、条件机制复杂而性能落后于判别式模型。本文提出ChangeFlow，一种将变化检测重新定义为潜空间中变化掩膜合成的生成式框架，采用结构轻量的条件信号引导，并利用随机采样实现预测集成。通过聚合多个预测掩膜提升鲁棒性，并基于样本一致性提供置信度估计，突出模糊区域。该方法在四个基准测试中平均F1值达80.4%，较此前最佳方法平均提升1.3个百分点，同时保持与近期强基线模型相当的推理速度。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

GQLA：面向硬件自适应的大语言模型解码的分组查询潜在注意力

本研究提出分组查询潜在注意力（GQLA），对DeepSeek-V2/V3中的多头潜在注意力（MLA）进行最小修改，使其在一套权重上暴露两种等效解码路径：与MLA相同的MQA吸收路径，以及带有每组扩展缓存的GQA路径。运行时可根据硬件自动选择路径，无需重新训练。单一的GQLA权重能同时适配H100（采用MQA吸收）与H20（采用GQA及多令牌预测）的硬件性能上限，并在GQA路径上支持高达8路的零冗余张量并行。通过扩展TransMLA为TransGQLA，可将预训练的GQA模型转换为GQLA模型。在LLaMA-3-8B上的实验表明，其MQA吸收路径将每令牌的KV缓存压缩至GQA基线的28.125%，同时在分组路径上结构性保留了GQA级别的流量效率。

DeepSeek推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

55

PhysBrain 1.0 技术报告

针对机器人轨迹数据在构建物理常识上的局限性，PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎，从大规模人类第一视角视频中提取结构化的物理常识，用于训练视觉语言模型。随后，通过一种保持能力且语言敏感的适配设计，将这些物理先验知识迁移到视觉语言-动作策略中。实验表明，在多项具身控制基准测试上，PhysBrain 1.0 均达到当前最优水平，尤其在跨域任务中展现出强大性能。

具身智能多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

49

从计划到像素：学习规划与协调的开放式图像编辑

现有图像编辑模型在处理抽象、多步骤指令时存在不足。本研究提出一种长周期编辑框架，包含生成原子分解的规划器与选择工具、区域执行步骤的调度器。视觉语言评判器根据指令遵循度与视觉质量提供奖励信号，调度器通过最大化奖励进行训练，成功轨迹则用于优化规划器。该方法通过紧密耦合规划与奖励驱动执行，生成了比单步或规则基线更连贯可靠的编辑结果。

智能体图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

Learning from Failures：基于可验证奖励的纠错导向策略优化

研究提出了一种名为纠错导向策略优化的新方法，用于增强大型语言模型的推理能力。该方法将训练中产生的失败轨迹自动转化为纠错样本，并与标准的可验证奖励强化学习目标联合优化。在涵盖数学推理和代码生成的11个基准测试中，该方法在推理和纠错性能上均显著超越现有基线。实验表明，该方法能提升模型的内在推理能力，而不仅仅是重新分配已有正确答案的概率质量，具体体现在更强的pass@K增益上。

推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

InsightTok：提升自回归图像生成中文本与人脸保真度的离散标记化框架

针对自回归图像生成中文本与人脸保真度不足的核心瓶颈，InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失，专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下，InsightTok在文本和面部重建质量上显著超越先前方法，且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续，生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。

arXiv图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

Solvita：通过智能体演化增强大语言模型的竞技编程能力

Solvita 是一个无需更新底层大语言模型权重的智能体演化框架，旨在提升模型在竞技编程中的推理能力。它将解题过程重组为由 Planner、Solver、Oracle、Hacker 四个专用智能体执行的闭环系统。每个智能体配备一个可训练的图结构知识网络，系统运行时产生的通过/失败结果、测试质量与对抗漏洞等信号，会转化为对这些网络的强化学习更新，使智能体能基于历史经验动态路由后续查询，持续积累可迁移的推理经验。在多个基准测试及实时编程比赛中，Solvita 在代码生成智能体中取得了新的最优性能，显著超越了现有方法。

智能体推理编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

FFAvatar：少样本、前馈式、可泛化的虚拟形象重建

FFAvatar提出一种通用前馈框架，仅需数秒即可从少量无姿态人像重建高质量、可动画化的3D高斯头部虚拟形象。它通过多视图查询融合器将多源图像信息统一到规范表示，并端到端预测FLAME参数驱动动画。采用三阶段训练策略：在超百万身份的单目视频数据上预训练；利用少量高质量360度数据微调；支持500步内快速个性化适配。在NeRSemble基准上，其PSNR显著优于现有最优方法5.5分，无需个性化时重建仅需2秒，个性化需10秒，并在单A100 GPU上实现49 FPS实时动画。

arXiv图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

MMSkills：面向通用视觉智能体的多模态技能框架

MMSkills框架旨在为视觉智能体提供可复用的多模态程序性知识。它将每个技能封装为包含文本程序、运行时状态卡片和多视角关键帧的紧凑技能包。该框架通过轨迹到技能的生成器，将公开交互轨迹转化为技能，过程包括工作流分组、程序归纳与视觉定位。使用时，采用分支加载架构：在临时分支中检视选定的状态卡片与关键帧，将其与实时环境对齐并提炼为结构化指导，供主智能体决策。在GUI和游戏基准测试中，该框架能持续提升不同规模多模态智能体的性能，证明外部多模态知识能有效补充模型内部先验。

智能体多模态论文/研究