6月11日

08:00

HuggingFace Daily Papers（社区热门论文）

针对电子表格中预测用户后续操作的功能缺失，该研究提出新的评估基准。手动从公开语料库整理52个操作序列（共计12K条操作），通过参数化启发式与LLM精炼生成。在线评估方法在每个用户操作后要求模型进行预测，接受或拒绝预测结果，接受则更新后续操作，直至目标电子表格达成。基线预测器涵盖零样本LLM、微调SLM与经典模型。实验分析了已保存操作与假阳性、效率、用户画像、触发条件和上下文等关键属性。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

自我进化的视觉提问者（Self-Evolving Visual Questioner）

视觉语言模型通常训练为被动回答者，主动提出多样化、视觉中心问题的能力未被充分探索。本文提出无需外部监督的自我进化框架：VLM自身作为提议者和过滤器，生成更难、信息更丰富、更视觉中心的问题，同时维持探索多样性防止训练崩溃。自产问题用于同时训练VLM的提问者与回答者模式。引入智能体评估协议，从感知、推理与多样性三维度衡量提问质量。实验表明该方法显著提升自主问题生成的质量与难度边界，且自我进化的提问者仍保持甚至增强回答性能。

多模态开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

分离式推理中的无政府代价

分离式推理架构将 prefill 和 decode 阶段分配到不同 GPU 池，形成共享硬件预算的竞争“智能体”。研究首次用博弈论建模该架构，以 NVIDIA Dynamo 为案例，拆解为三个耦合博弈。在 3 节点 B200 集群上用 Nemotron-4-340B 和 Llama-3.1-70B 验证，两模型呈现相同三阶段 PoA-hat 结构。自适应路由可在饱和阶段大幅降低 PoA-hat：70B 1P/5D 拓扑下 PoA-hat 从 66.4 降至 21.5（3.1 倍），吞吐量损失 13%；70B 1P/2D 下 PoA-hat 降 2.2 倍，TTFT P99 降 7.6 倍。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

将量子算子与大语言模型对齐

大语言模型虽在数学与符号推理上表现出色，但无法理解量子表示（如酉矩阵）。本文提出将酉算子映射到LLM潜在空间，实现量子输入与语言输入的联合建模。在Clifford+T电路合成上，该模型达到与最先进方法竞争的性能，且随训练数据规模扩展持续提升，未见饱和迹象。方法还支持语言条件合成，允许以自然语言指定训练中未见过的门约束。这项工作为构建原生理解量子运算的量子感知基础模型铺平道路，可能对量子编译与算法发现产生广泛影响。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选76

对抗性重新包装：仅修改呈现层即可欺骗AI同行评审

研究提出对抗性重新包装攻击，在不改动科学证据（方法、实验、数据等）的前提下，仅修改摘要、贡献定位、相关工作、讨论和叙事结构等呈现层内容，并利用AI审稿人反馈进行闭环搜索。在三种主流AI审稿系统上，攻击成功率达75.1%，平均得分提高+1.21/10。策略中，相关工作重定位和分析性讨论扩展等结构性改动效果显著优于表面编辑。分析揭示两种失败模式：AI审稿人更易被亮点打动而非被说服，且会将“看起来解决了限制”与“实际解决”相混淆。研究发布了无污染滚动基准和攻击框架用于测试内容锚定性。

arXiv 安全/对齐论文/研究评测/基准

推荐理由：这篇论文戳破一个令人不安的真相：AI 审稿人可以被纯粹的文字包装欺骗，不碰证据就能大幅拉升评分。它把论文呈现本身变成了一枚可优化的攻击面，做学术出版与 AI 评估的人都要正视这个结构性缺陷。

08:00

HuggingFace Daily Papers（社区热门论文）

World Tracing：超越可见面的生成式像素对齐几何表示

World Tracing 是一种生成式像素对齐几何表示，为每个输入像素预测有序的相机空间3D点栈，第一层对应可见表面，后续层表示从前到后的遮挡表面交点。该表示通过世界追踪扩散Transformer（WT-DiT）实例化，将多个几何层视为独立去噪token，经分解注意力和全局注意力耦合。采用像素空间流匹配和混合噪声调度训练，平衡可见表面重建与遮挡几何生成。在目标、场景和动态基准上，World Tracing在可见表面重建和完整几何生成方面均优于深度预测器和图像转3D生成器，并保持2D-3D对应，支持文本驱动的3D场景编辑、几何条件新视角视频合成及与纹理网格生成器的无缝集成。

多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

研究团队提出V-RAGBench基准与CARVE方法以改进长视频RAG

针对现有视频RAG基准中查询无需视频即可回答、且采用单一模态-粒度配置的局限，研究者提出V-RAGBench基准，包含(query, evidence chunk, answer)三元组，支持检索与生成的解耦评估；同时提出CARVE方法，通过并行运行多配置检索器并对每个chunk进行自适应重排序，为每个chunk选择最优配置，使生成阶段交织不同配置的证据块。在长视频场景下，CARVE在八个近期VideoRAG基线方法中取得最优结果。

检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

OmniDirector：无需交叉配对数据的通用多镜头相机克隆框架

从参考视频克隆相机运动是视频生成的重要任务。现有方法依赖参数化表示或合成交叉配对数据，难以处理多镜头生成且数据稀缺。OmniDirector将相机参数编码为网格运动视频作为通用表示，支持多镜头轨迹整合。框架在百万级相机网格-视频对上训练，采用多模态扩散Transformer，协调角色、动作和相机。同时设计层级提示扩展智能体，通过理解信号关系系统描述相机运动和视觉内容，集成不同控制信号。实验证明其在复杂相机运动克隆上性能优越、可控性强。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

密集监督下的稀疏更新：在线策略蒸馏的稀疏性与几何特性

在线策略蒸馏（OPD）结合智能体在线轨迹与密集教师监督，分析发现其更新幅度小且坐标稀疏，分布在各层、集中于FFN权重。仅训练子网络即可恢复近完整性能；但密集监督保留异质梯度尺度，SGD逊于AdamW。几何上更新满秩但谱集中，主要偏离源权重主奇异子空间，落在源权重近零的坐标上。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

缩放因子在LoRA优化中的隐藏力量

研究揭示，LoRA中缩放因子α与学习率作用不同，α才是有效优化的主导因素。通过Signal-Drift框架与实证，发现三个机制：LoRA的光谱抑制平滑优化面，使标准超参数过于保守；α放大任务信号而不增加漂移比，比学习率更有效加速收敛；最优α与秩呈平方根律次线性关系，现有秩绑定启发式缩放不足。基于此提出LoRA-α框架，将α恢复至原则性区间，兼容标准小学习率，持续提升性能并简化超参数搜索。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

μ_0：一种可扩展的3D交互轨迹世界模型

μ_0是基于3D轨迹的可扩展世界模型，通过预测物体、工具、手及接触区域等关键交互点的平滑3D轨迹，形成紧凑且无关具身形态的运动接口。其配套的TraceExtract系统可从多样化视频源自动提取3D监督。μ_0结合预训练视觉-语言骨干与模块化轨迹专家，用B样条控制点表示查询并预测未来轨迹。实验显示，μ_0在2D和3D轨迹预测上优于基线模型。冻结后的μ_0可搭配下游机器人动作专家，无需动作标签预训练的策略性能与使用动作监督预训练的VLA模型相当。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Avatar V：扩展视频参考的虚拟人视频生成

Avatar V 是一个生产级框架，通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算，同时重现静态身份和动态行为（如说话节奏、微表情）。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段，经 flow matching 预训练、个性微调、两阶段蒸馏（>10 倍加速）和 RLHF 对齐等五阶段训练，部署于数千 GPU。可生成无限时长 1080p 视频，在跨场景基准上保持最优的身份保留、唇同步和生成质量，全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。

多模态视频论文/研究

07:57

HuggingFace Daily Papers（社区热门论文）

CPPO：超越统一Token级别信任区域的LLM强化学习

现有PPO风格信任区域机制对所有token施加统一阈值，忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化：早期位置限制更严格以抑制序列级漂移，后期位置放宽约束以保障探索；同时动态追踪历史偏差，防止前缀沿累计误差。实验表明，该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。

arXiv 推理数据/训练论文/研究

06:25

AK@_akhaliq

SCAIL-2 统一可控角色动画与端到端上下文条件化

视频论文/研究

03:12

Google DeepMind@GoogleDeepMind

在塞拉利昂，激增的学生人数正超过可用教师资源。我们最新的研究探索了AI如何在这些环境中作为合作伙伴支持教育工作者--扩大他们的影响力，同时不取代其核心的专业知识与技能。🧵

DeepMind 论文/研究

02:46

Google Research：Blog（网页）

精选63

Google Research提出审计机器遗忘新框架

Google Research 在 AISTATS 2026 发表正则化 f-散度核检验，用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据，避免完全重训的巨大成本。相比最大均值差异等现有工具，新框架理论上可在任意样本量下自然控制假阳性，且假阴性风险随可用样本增加可靠收敛至零，解决了大规模模型审计中计算成本过高的问题。

Google 安全/对齐论文/研究

推荐理由：机器遗忘是AI合规的硬需求，但验证‘真忘了’一直是统计难题。谷歌这篇AISTATS论文提出了一套更灵敏的差异测试框架，做隐私审计的值得细看。

01:47

HuggingFace Daily Papers（社区热门论文）

APPO：智能体过程策略优化

现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点：通过分支分数（结合token不确定性与后续延续的策略诱导似然增益）选择分支位置，过滤高熵噪声；引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上，APPO在保持工具调用效率和行为可解释性的前提下，将强基线性能平均提升近4个点。

智能体 arXiv 数据/训练论文/研究

00:56

HuggingFace Daily Papers（社区热门论文）

精选73

DeLM：去中心化多智能体系统框架

DeLM是一种去中心化多智能体系统框架，通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上，DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能，相比最强基线提升最多10.5个百分点，每任务成本降低约50%。在LongBench-v2多文档问答上，DeLM在四个前沿模型家族中取得最高平均准确率，提升最多5.7个百分点。代码已开源。

智能体开源/仓库推理论文/研究

推荐理由：去中心化MAS把中心调度换成共享黑板，SWE-bench一口气提10.5个点还省一半成本，这个思路值得所有搞agent的团队认真看。

6月10日

23:28

IT之家（RSS）

Waymo推出ReD模型：模拟人类驾驶员在意外瞬间的避撞决策

Waymo与代尔夫特理工大学合作开发ReD（Reference Driver）认知模型，基于主动推理框架模拟人类驾驶员的避撞行为。模型包含“逼近感”判断纵向威胁、默认其他车辆遵守规则、意外阈值触发策略重评估，并还原单脚操作踏板习惯（切换停顿0.2秒）。与传统模型不同，ReD持续计算意外值并最小化自由能，实现主动避让。今年1月圣莫尼卡事故分析中，Waymo车辆减速至6英里/小时，而模型推算专注人类驾驶员可能以约14英里/小时撞上。代码已以学术非商业许可开源。

安全/对齐论文/研究

21:56

HuggingFace Daily Papers（社区热门论文）

Next Forcing：基于多块预测的因果世界建模

Next Forcing 提出多块预测（MCP）框架，受大语言模型多 token 预测启发，在主模型上添加轻量级辅助 MCP 模块，同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%，收敛速度加快 2.3 倍；在 RoboTwin 基准上达 94.1%（Clean）/93.5%（Random）新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升，通用视频预训练 FVD 降低超 50%。

arXiv 具身智能数据/训练视频

21:56

HuggingFace Daily Papers（社区热门论文）

自蒸馏中反馈对齐的作用

自蒸馏通过匹配学生（仅看问题）与自教师（还看上下文）的输出分布，使模型在无上下文时仍保持改进。研究比较三种上下文设计：二值奖励（GRPO）、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳，Avg@12上比GRPO高16.11分，比参考解条件高5.27分。逐token优势分析表明，步骤对齐反馈仅针对推理失败的token，而参考解强制模型改变所有token行为，包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。

arXiv 推理数据/训练论文/研究

19:56

HuggingFace Daily Papers（社区热门论文）

FadeMem：面向自回归视频生成的距离感知内存合并机制

自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制，在固定缓存预算下将历史 KV 块组织成时间层次，利用频率依赖的时间衰减（细粒度细节快速去相关，粗粒度场景结构保持更久）。生成时新历史作为细粒度条目插入，较旧相邻条目按幂律调度逐步合并，形成近密远疏内存。无需改动架构，即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。

视频论文/研究

17:50

公众号：百度智能云（文心）

精选63

百度百舸联合复旦提出LU-KV框架，被ICML 2026录用

百度百舸团队与复旦大学合作提出Long-horizon Utility KV（LU-KV）框架，将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线，结合凸包松弛与基于边际效用的贪心求解器，在较低开销下得到接近最优的预算配置，可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上，80%压缩比下性能损失小，降低显存占用和推理延迟。相关论文被ICML 2026录用。

推理论文/研究

推荐理由：ICML接收的KV Cache压缩新方法，把缓存预算分配从看当前分数改成全局优化，能显著降低显存占用，做长上下文推理的值得细读。

16:56

HuggingFace Daily Papers（社区热门论文）

BrainSurgery：可重复且可靠的声明式权重操作工具，用于模型编辑与模型升级

BrainSurgery是一种针对神经网络checkpoint的“张量手术”工具，通过声明式YAML计划执行复杂的权重变换。它支持结构修改、数学变换、张量重塑，利用正则表达式和结构定位进行精准操作，并内置断言验证张量形状、数据类型和值，防止静默错误。工具覆盖从模型升级（upcycling）到LoRA提取等四个示例和三个案例研究，旨在提供可重复、可验证的模型编辑基础。

开源生态论文/研究部署/工程

16:56

HuggingFace Daily Papers（社区热门论文）

PsychoSafe：引导大语言模型生成心理学知情拒绝

PsychoSafe 是一种心理学导向的拒绝框架，将大语言模型的拒绝行为重构为结构化支持性沟通，基于循证干预策略。研究构建了包含8019条提示-响应对的语料库，覆盖五个高风险心理领域，采用提示工程和参数高效微调训练 Qwen 3.5 27B。在500条提示的验证集上，PsychoSafe 提示使拒绝质量较通用基线提升28.1%，其中外部资源转介提升46.8%、心理基础性提升34.8%，且不损害非拒绝任务性能。微调实现了近乎完美的拒绝与资源转介率，但降低了回复相关性。在 SORRY-Bench 和 XSTest 上表现强域内鲁棒性，但跨域泛化有限。

arXiv 安全/对齐论文/研究

16:56

HuggingFace Daily Papers（社区热门论文）

精选70

快手开源 Kwai Keye-VL-2.0-30B-A3B：面向长视频理解与智能体智能的 MoE 多模态模型

快手开源 Kwai Keye-VL-2.0-30B-A3B，一个 MoE 多模态基础模型，激活仅 3B 参数，专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构，实现无损 256K 上下文处理，并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏（MOPD）结合 Context-RL 和 Video-RL，缓解多任务对齐中的灾难性遗忘，原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA，模型权重已开源。

智能体多模态视频论文/研究

推荐理由：Keye-VL-2.0 把长视频理解推到 256K 上下文，还用了 DeepSeek 的稀疏注意力，这是目前我能找到的对长短视频最兼顾的多模态模型，做视频 agent 的该看看。

16:56

HuggingFace Daily Papers（社区热门论文）

稀疏自编码器解释与操控文本转语音语言模型

研究在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器，并引入模态感知自动解释管道，为每个特征标注其触发来源（文本前缀、1秒语音片段或两者）。恢复的特征涵盖音素、笑声、口音提示和说话者性别，可解释性强。通过SAE潜空间进行操控表明这些特征具有因果性：定向干预使笑声概率从0.02升至0.79，翻转感知的说话者性别，并在保留口语内容的同时控制语速。SAE特征既可作为可解释性对象，也可作为TTS合成的控制方向。

论文/研究语音

15:56

HuggingFace Daily Papers（社区热门论文）

U-TTT：通过测试时训练实现泛化的PET图像去噪

现有深度学习模型在分布偏移下进行PET图像去噪时性能严重下降，根源在于固定参数范式无法适应测试数据的剂量水平或扫描仪类型变化。本文提出U-TTT，一种集成测试时训练（TTT）层的U形模型，通过自监督在推理时动态调整参数以适应每个测试实例的特征。U-TTT包含空间TTT（S-TTT）层和频率TTT（F-TTT）层构成的双域自适应机制，分别校正空间结构退化并抑制全局噪声频谱、恢复高频细节。实验表明，U-TTT在未见剂量水平和扫描仪类型等挑战性分布偏移下达到SOTA去噪性能与泛化能力。

数据/训练论文/研究

15:56

HuggingFace Daily Papers（社区热门论文）

UniPET：面向多种剂量降低因子的通用PET图像去噪网络

现有基于深度学习的PET图像去噪方法通常假设低剂量图像的剂量降低因子（DRF）固定且已知，实际中DRF变化时性能大幅下降。UniPET将域泛化引入PET图像去噪，通过风格对齐网络（SAN）对齐并恢复不同DRF下的风格，同时提出区域感知学习策略（RALS），区分平坦区域与风格化区域并对后者进行对抗学习，防止过度平滑。实验表明，UniPET在特定DRF下性能与单DRF专用模型相当，在通用PET图像去噪任务上达到定量、感知和临床层面的最先进水平。

arXiv 论文/研究

15:28

IT之家（RSS）

哈佛与Perplexity研究：AI智能体人机协作缩短87%任务时间、降低94%总成本

哈佛大学与Perplexity基于10000组真实数据对比研究发现，AI智能体（Perplexity Computer）与人工协作比传统搜索（Perplexity Search）加人工效率更高。智能体单次会话平均执行26分钟，搜索仅33秒，本地任务差距达75倍；智能体有效不满率1.3%，低于搜索的2.9%。“Search+人工”每任务需269分钟，“Computer+人工”仅36分钟，时间缩短87%。虽然智能体单任务模型成本约4-10美元（搜索约0.05美元），但人力边际成本从2.05美元降至0.16美元，总成本下降94%。短单步问题适合搜索，多步需工具调用任务适合智能体。

智能体论文/研究

14:56

HuggingFace Daily Papers（社区热门论文）

Role-Agent：通过双角色进化自举LLM智能体

Role-Agent框架让单个大语言模型同时充当智能体和环境，实现自举式共同进化。包含两个组件：World-In-Agent（WIA）让LLM作为智能体并在每次动作后预测下一状态，将预测与实际状态的对齐作为过程奖励，激励环境感知推理；Agent-In-World（AIW）则从失败轨迹中分析失败模式，并检索具有相似失败模式的任务，重塑训练数据分布进行针对性练习。在多个基准测试上，Role-Agent平均比强基线提升超过4%。

智能体 arXiv 论文/研究

14:10

HuggingFace Daily Papers（社区热门论文）

幻觉起始的最快检测：延迟界与学习型CUSUM统计量

将模型幻觉起始检测建模为最快变化点检测问题。基于RAGTruth验证的忠实/幻觉状态一阶马尔可夫模型，在虚警率0.01时Lorden下界约1.3个token。因果循环标注器相当于学习增量的CUSUM，在匹配虚警率下检测延迟11–13个token，而线性每token基线为31个token。优势主要来自更优的每token分数而非时间累积。Donsker-Varadhan型信息率最优性定理表明，学习得分仅实现了特征所携带散度的1/4.5，标定无法弥补该差距，剩余为有限时域效应。分类指标掩盖了延迟结构，序列分析使其可测量。

安全/对齐论文/研究

13:56

HuggingFace Daily Papers（社区热门论文）

Lip Forcing：用于实时唇同步的少步自回归扩散方法

Lip Forcing提出了自回归扩散方法用于视频到视频唇同步，从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪，无需CFG，实现实时流式处理。技术分析揭示CFG的保真度-同步权衡，进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出，比同规模双向模型快17.6倍；14B学生模型是目前最大的V2V唇同步扩散模型，比教师快39.8倍，保真度接近。首帧时延均小于1毫秒。

多模态视频论文/研究

12:56

HuggingFace Daily Papers（社区热门论文）

精选75

混合LLM中的注意力失忆：CoT微调破坏长距离召回及修复方法

CoT监督微调系统性地降低混合线性注意力模型（如HypeNet、Jet-Nemotron）的长上下文召回能力。在NIAH任务上，HypeNet-9B的S2@256K从67.2%降至9.4%，原因是CoT-SFT使注意力梯度偏向短程模式，破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练，从微调前检查点恢复W_Q和W_K，保留其余参数；Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上，QK-Restore将S3@256K从65.4%提升至76.4%，推理性能不变。

推理论文/研究

推荐理由：做长上下文推理的同学注意了，CoT微调居然会弄坏模型的长距离记忆，这篇论文不仅把原因扒清楚了，还给出了零成本修复方案，值得放进参考列表。

12:56

HuggingFace Daily Papers（社区热门论文）

WorldOlympiad：视频世界模型三项全能评测基准

WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循；几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐；交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明，当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。

arXiv 具身智能多模态视频

12:56

HuggingFace Daily Papers（社区热门论文）

Data2Story：将数据转化为可验证多模态故事的数据记者智能体

Data2Story是一个多智能体框架，将数据记者工作流中的多种专业角色编排成虚拟新闻编辑室。其两项创新是：每个声明通过Inspector链接到数据、代码或外部参考，实现基于证据的归因；文章可多模态生成，如为地理内容生成交互式地图、为音乐生成音频。在18篇文章上的评估从四个维度进行：人与智能体的角度覆盖、53名参与者的评分、计算机使用智能体作为读者导航代理、以及可验证性（代码验证器重新执行语句并与参考对照）。Data2Story产出有竞争力且证据可追溯的多媒体故事，在透明度和可审计性上表现突出，但人类文章在编辑角度、创意设计和呈现上仍具优势。框架定位为记者协作者，代码和演示已公开。

智能体多模态论文/研究

12:56

HuggingFace Daily Papers（社区热门论文）

精选73

Flow-DPPO：面向流匹配模型的散度近端策略优化

针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题，Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布，可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码，仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明，Flow-DPPO 获得更高奖励，KL 近端效率更优，缓解了灾难性遗忘，促进多目标均衡，并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。

图像生成推理视频论文/研究

推荐理由：用 KL 散度代替比值裁剪来解决流匹配 RL 训练的不稳定，理论简洁，代码已开源，做图像/视频生成优化的同学可以跑一下。

11:56

HuggingFace Daily Papers（社区热门论文）

每项多模态证据仅用一个token：面向资源受限问答的Latent Memory

Latent Memory提出一种潜在空间记忆范式，由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时，将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练，结合重建、对比和蒸馏目标，使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上，Latent Memory取得与先进RAG基线相当的问答性能，同时生成器token消耗减少3至10倍，并在WebQA上达到图像问答最强性能。代码已公开。

arXiv 检索增强多模态论文/研究

11:56

HuggingFace Daily Papers（社区热门论文）

EEVEE：面向真实世界的测试时提示学习框架

EEVEE是首个面向LLM智能体的多数据集测试时提示学习框架，用于在真实任务流下自改进。为解决跨数据集干扰，它引入路由器将异构输入流划分到任务簇并分配适配提示配置，并通过路由器‑提示协同进化策略（交替执行路由器和提示学习阶段）优化二者依赖。实验表明，EEVEE在保持单基准学习能力与效率的同时，提升异构数据流鲁棒性：平均多基准得分比Qwen3-4B-Instruct高10.38分，比DeepSeek-V3.2高24.32分，超越SOTA方法GEPA和ACE最高达37.2%和48.2%。

智能体论文/研究

10:56

HuggingFace Daily Papers（社区热门论文）

强化学习中流策略的测试时梯度引导

QGF（Q-Guided Flow）是一种完全在测试时执行策略优化的强化学习算法。它先通过标准行为克隆预训练参考流策略和价值函数批评家，然后在测试时利用价值梯度引导参考策略生成更高价值的动作。在单任务和目标条件离线RL基准测试中，QGF优于先前的测试时强化学习方法，与最先进的训练时算法性能相当但运行成本更低，且通过避免演员-评论家训练的不稳定性展现了良好的模型规模扩展性。

具身智能论文/研究