5月16日

08:00

HuggingFace Daily Papers（社区热门论文）

研究发现，可验证奖励强化学习虽能提升语言模型的推理能力，但存在一种反直觉现象：在模型初始难以处理的困难样本中，有相当一部分即使提供正确答案也无法被学习。通过跨样本梯度分析，研究揭示了不可学习样本的根本性表征缺陷，其特征是与其他样本梯度相似性低且推理模式难以泛化，而数据增强无法改善这一问题。该研究首次系统描述了训练中的不可学习数据现象，并指出当前强化学习方法在推理任务上存在根本性局限。

arXiv GitHub 推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

S-Bus：用于多智能体LLM状态协调的自动读集重建

针对多智能体共享状态时因并发写入和过时读取导致的结构化竞态条件，本研究提出S-Bus，一种无需修改现有框架SDK的HTTP中间件。其核心是服务端的DeliveryLog机制，能自动重建智能体的读集，提供“可观测读隔离”一致性模型。实验在427,308次并发冲突场景中，与PostgreSQL及Redis均实现零数据腐败；形式化验证覆盖超2076万状态无违规。同时指出，该机制的适用性与系统拓扑相关，在单分片协作写入中可能传播矛盾。

智能体 arXiv 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

CompactAttention：基于块联合键值选择的分块预填充加速

现有稀疏注意力方法难以高效适配长上下文大语言模型的分块预填充。CompactAttention机制将二维块稀疏掩码转化为适用于分组查询注意力的键值块表，通过联合选择生成最小化块表，实现所选键值块的原地访问，避免了显式压缩开销。该方法在LLaMA-3.1-8B-Instruct模型上，在128K上下文中实现了接近密集注意力的精度，同时带来最高2.72倍的注意力计算加速。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

AgentKernelArena：一个用于评估GPU内核优化AI编程代理的开源基准平台

AgentKernelArena是一个开源基准平台，专门用于系统评估AI编程代理在GPU内核优化任务上的能力。平台包含196个任务，涵盖HIP到HIP、Triton到Triton优化以及PyTorch到HIP翻译三大类。它采用隔离工作空间和分级评估（编译、正确性、性能）来测试代理的完整工作流，并创新性地引入了“未见配置”泛化测试。基准测试发现，主流AI代理在大多数任务上能近乎完美地编译和正确完成，并在PyTorch到HIP任务上实现高达6.89倍的平均加速。然而，泛化测试显示，从零生成内核的代理（PyTorch到HIP）在新配置下正确率显著下降，表明其常固化特定形状假设。该平台为严谨评估不同代理、任务和硬件目标提供了模块化框架。

arXiv 开源生态编码论文/研究

02:25

Ars Technica：AI（RSS）

精选74

arXiv新规：提交AI生成垃圾内容将遭一年禁令

预印本平台arXiv近期宣布实施一项新的提交政策。该政策针对上传由AI生成的低质量或无意义内容的用户，一经核实，将禁止其在未来一年内向平台提交任何论文。平台一位管理员已在社交媒体上公布了此项新规，旨在打击利用AI工具进行滥竽充数式提交的行为，维护学术交流环境的质量。

arXiv 安全/对齐政策/监管

推荐理由：arXiv这招狠，直接对AI生成垃圾封号一年，物理、天文、CS领域的人会感到切肤之痛，同时也倒逼研究者对投稿负责。

5月15日

23:49

HuggingFace Daily Papers（社区热门论文）

通过随机选取少样本指导提升带可验证奖励的强化学习

针对传统RLVR在难题上样本效率低的问题，研究团队提出了少样本演示指导的强化学习算法FEST。该方法仅需从监督微调数据集中随机选取128个演示样本，即可取得显著效果。其成功关键在于结合了监督信号与同策略信号，并通过对少样本SFT数据集设置衰减权重来防止多轮训练中的过拟合。在多个基准测试中，FEST以远少于基线方法所需的SFT数据量实现了更优性能，甚至在使用完整数据集时也能达到与之匹配的水平。

arXiv 数据/训练论文/研究

20:24

The Decoder：AI News（RSS）

Arxiv 打击研究论文中未经审查的 AI 生成内容

全球重要的预印本服务器 Arxiv 正在收紧对 AI 生成内容的规则。该平台要求研究人员在提交论文时，必须对使用 AI 工具（如 GPT、Claude、LLaMA）生成或大幅修改的文本、代码、图表等内容进行明确声明和核查。新政策旨在遏制未经检查的 AI 内容流入学术文献，以维护研究质量与诚信。违规论文可能面临撤稿或作者提交权限受限等处罚。

arXiv 政策/监管行业动态

17:49

HuggingFace Daily Papers（社区热门论文）

ViMU：视频隐喻理解基准测试

研究团队推出了首个系统评估前沿模型视频潜文本理解能力的基准ViMU。该基准旨在测试视频理解模型能否超越对物体、动作等表层内容的识别，推断视频中蕴含的隐喻、讽刺与社会意义。ViMU要求模型基于多模态证据进行推理，回答开放式与选择题，且所有问题均设计为无提示类型，确保模型在作答前无法获取关键证据。这标志着视频理解评估从字面感知迈向深层语义解读的重要一步。

arXiv 多模态论文/研究

13:49

HuggingFace Daily Papers（社区热门论文）

克服动态盲区：视觉-语言-行动模型的免训练步调与路径校正

视觉-语言-行动模型因单帧观测训练范式而缺乏时序动态感知能力，在非平稳场景中性能严重下降。本研究提出一种免训练的推理时校正算子，可封装任何分块动作的VLA模型。该方案通过单一二次成本联合优化，分解出正交的步调与路径两个通道：前者沿规划方向压缩执行，后者施加正交空间偏移，共同吸收动作块窗口内的动态变化。在运动控制诊断基准MoveBench上的评估表明，该方法显著优于现有免训练封装器与动态自适应方法，在纯动态及动静混合环境中，将基础VLA模型的成功率绝对提升了28.8%和25.9%。

arXiv 具身智能论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

VGGT-Edit：基于残差场预测的前馈式原生3D场景编辑

本文提出VGGT-Edit，一种基于文本指令的前馈式原生3D场景编辑框架。该方法通过深度同步文本注入技术，将语义引导与主干网络的空间姿态对齐，确保指令的稳定理解。其核心是一个残差变换头，直接预测3D几何位移来变形场景，同时保持背景稳定。框架采用多目标损失函数进行监督，以保障几何精度与跨视角一致性。团队还构建了经过3D一致性过滤的大规模DeltaScene数据集。实验表明，该方法显著优于基于2D提升的基线，能生成更清晰的细节、更强的多视角一致性，并具备接近实时的推理速度。

arXiv 图像生成论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

合成分层设计数据能否提升分层设计解构效果？

本研究探讨纯合成数据对平面设计分层解构的效用。基于前沿的CLD框架，团队构建了合成数据集SynLayers，并利用视觉语言模型生成文本监督与自动化推断输入。关键发现包括：纯合成数据训练效果优于PrismLayersPro等非可扩展方案；性能随数据规模增加持续提升，在约5万样本处增益趋于饱和；合成数据能平衡控制图层数量分布，避免现实数据中的图层失衡问题。这项以数据为中心的研究为可扩展的分层设计编辑系统提供了实践基础。

arXiv 图像生成多模态论文/研究

11:49

HuggingFace Daily Papers（社区热门论文）

DiffusionOPD：扩散模型中在线策略蒸馏的统一视角

DiffusionOPD 提出一种基于在线策略蒸馏的扩散模型多任务训练范式，以解决多任务强化学习中的交叉干扰与失衡问题。该方法先独立训练任务专属教师模型，再沿学生自身采样轨迹将能力蒸馏至统一学生，从而解耦单任务探索与多任务整合。理论层面，研究将 OPD 框架从离散标记推广至连续状态马尔可夫过程，推导出闭式逐步 KL 目标，通过均值匹配统一随机 SDE 与确定性 ODE 优化，其解析梯度相比传统 PPO 类策略梯度具有更低方差与更好泛化性。实验表明，DiffusionOPD 在训练效率和最终性能上均超越多奖励强化学习与级联强化学习基线，并在全部评估基准上取得领先结果。

arXiv 多模态数据/训练论文/研究

10:48

HuggingFace Daily Papers（社区热门论文）

FutureSim：通过重放世界事件来评估自适应智能体

研究团队推出FutureSim基准，通过按时间顺序重放真实世界事件（如新闻文章），评估AI智能体在动态开放环境中的长期适应能力。智能体需在模拟的2026年1月至3月期间，基于实时信息预测未来事件。测试结果显示，前沿智能体表现差异显著，最佳预测准确率仅为25%，多数模型的评分甚至低于不作预测的基准。该基准为研究长时域测试时适应、搜索、记忆及不确定性推理等方向提供了真实场景，旨在推动衡量AI在现实世界中长期开放适应能力的进展。

智能体 arXiv 论文/研究评测/基准

10:48

HuggingFace Daily Papers（社区热门论文）

ATLAS：一个功能词元，兼作智能体操作与潜在视觉推理单元

针对视觉推理中直接生成图像计算成本高、代理方法存在切换延迟、潜在方法泛化性差等问题，本研究提出ATLAS框架。其核心是引入“功能词元”这一离散单元，它同时作为智能体操作和潜在视觉推理单元。每个词元对应一个内化的视觉操作，无需视觉监督，仍作为标准词元存在于词表中，可通过下一词元预测生成。这避免了生成冗余的中间视觉内容，且与标准的可扩展SFT和RL训练兼容。为应对RL中功能词元的稀疏性问题，研究引入了潜在锚定GRPO（LA-GRPO）以稳定训练。实验表明，ATLAS在多项挑战性基准测试中取得了优异性能，并保持了良好的可解释性。

arXiv MCP/工具多模态推理

10:48

HuggingFace Daily Papers（社区热门论文）

量化评估生成视频几何一致性的框架PDI-Bench

针对生成视频模型作为隐式世界模型时几何一致性评估的挑战，研究团队提出了PDI-Bench定量评估框架。该框架通过分割与点追踪获取物体中心观测，利用单目重建将其提升至3D世界坐标，并通过计算投影几何残差来量化评估尺度-深度对齐、3D运动一致性与3D结构刚性三个关键维度。团队构建了PDI-Dataset以支持系统评测。测试表明，PDI能一致地揭示当前先进视频生成模型中未被常见感知指标捕获的几何缺陷，为推进物理基础视频生成提供了诊断工具。代码与数据集已开源。

arXiv 视频论文/研究评测/基准

10:48

HuggingFace Daily Papers（社区热门论文）

MemEye：面向多模态智能体长期记忆的视觉中心化评估框架

针对多模态智能体长期记忆评估中视觉证据留存与使用不足的问题，本文提出MemEye评估框架。该框架从视觉证据粒度（场景级至像素级）与证据使用方式（单一至演化合成）两个维度构建评估体系，并建立了涵盖8个生活场景任务的新基准。通过对13种记忆方法与4种视觉语言模型的评估，研究发现现有架构在保留细粒度视觉细节及对状态变化进行时序推理方面仍存在困难。结果表明，有效的长期多模态记忆依赖于证据路由、时序跟踪与细节提取能力。

智能体 arXiv 多模态论文/研究

09:48

HuggingFace Daily Papers（社区热门论文）

RAVEN：基于一致性模型GRPO的实时自回归视频外推网络

本文提出实时自回归视频外推网络RAVEN，通过将自生成内容重组为干净历史端点与噪声状态的交织序列，对齐训练与推理时的历史分布，从而提升长序列生成质量。同时，提出一致性模型组相对策略优化方法，将一致性采样步骤重构为条件高斯转移，并直接对其应用在线强化学习，避免了先前方法中的辅助过程。实验表明，RAVEN在多项评估指标上超越近期因果视频蒸馏基线，结合CM-GRPO可进一步获得性能提升。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Rule2DRC：基于执行引导测试生成的DRC脚本合成LLM智能体基准测试

为解决将自然语言设计规则转换为可执行DRC脚本过程中成本高、专业门槛高的问题，研究团队提出了Rule2DRC大规模基准测试集。该基准包含1,000个规则到脚本的映射任务及13,921个用于执行评分的芯片布局，并提供基于DRC执行结果的功能正确性评估流程，无需将评估布局作为智能体输入。同时，研究设计了SplitTester测试智能体，它利用执行反馈生成有区分性的测试用例，有效分离先前难以区分的候选脚本，显著提升了该领域中Best-of-N选择策略的性能，为相关研究与开发提供了重要工具。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

旋转位置编码在长上下文中既无法区分位置也无法区分标记，可证

本文从理论上证明了旋转位置编码在长上下文Transformer模型中的根本缺陷。研究发现，随着上下文长度增加，RoPE的注意力机制会变得不可预测并丧失两大核心特性：局部性偏置和标记相关性一致性，其失效概率趋近0.5，等同于随机。实验进一步证实，当键被移动或替换时，注意力得分可能保持不变，表明其无法有效区分位置与标记。虽然增大RoPE基础参数有助于区分标记，但不可避免地会牺牲位置区分能力，且多层多头架构无法克服这些内在限制。这表明未来可能需要全新的位置编码机制。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

主动学习器作为高效的PRP重排序器

本文针对成对排序提示（PRP）框架中LLM生成成对偏好判断时存在的噪声、顺序敏感性和不可传递性问题，指出传统排序算法在这些条件下性能受限。作者将PRP重排问题重构为从噪声成对比较中主动学习的过程，提出主动排序器作为即插即用的替代方案，在调用次数受限场景下显著提升NDCG@10指标。此外，引入随机方向预言机机制，每次比较仅需一次LLM调用，将系统位置偏差转化为零均值噪声，实现无偏聚合排序并降低计算成本。

arXiv 检索增强搜索论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Echo-Forcing：面向交互式长视频生成的场景记忆框架

现有无训练长视频生成方法因历史KV状态功能纠缠，在处理提示切换、场景遗忘与召回等交互式场景时存在瓶颈。为此，本文提出Echo-Forcing框架，包含三个核心机制：分层时间记忆、场景回放帧与差异感知记忆衰减，分别用于解耦和管理历史信息、压缩长期场景、以及自适应遗忘冲突内容。该框架能在有限缓存预算下，支持视频的平滑过渡、硬切与长程召回。在VBench-Long上的评估表明，Echo-Forcing在长视频与交互式视频生成任务中均取得了最佳整体性能。

arXiv GitHub 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

使用稀疏自编码器实现CLIP模型的鲁棒和可解释微调

针对CLIP在微调时易因分布偏移而鲁棒性下降的问题，本文提出SAE-FT方法。该方法仅作用于视觉表征，利用稀疏自编码器识别预训练模型中的语义特征，并在微调中约束这些特征的变化，从而在防止灾难性遗忘的同时提升可解释性。实验表明，SAE-FT计算高效且透明，在ImageNet及相关分布偏移基准上达到或超越现有最优性能，代码已公开。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FashionChameleon：面向实时交互式人体-服装视频定制

本文提出FashionChameleon，一个用于自回归视频生成的实时交互式人体-服装定制框架。它仅需单服装视频数据训练，通过三项核心技术实现：采用上下文学习的教师模型，在参考与服装图像不匹配时隐式保持运动连贯性；通过流式蒸馏与上下文学习提升生成一致性与效率；引入无需训练的KV缓存重调度机制，支持生成中多服装交互切换。该系统在单GPU上实现23.8 FPS的实时生成，速度比现有基线快30-180倍，并支持交互式定制与长视频一致性外推。

arXiv 视频论文/研究

5月14日

18:46

HuggingFace Daily Papers（社区热门论文）

RealICU：超越行为模仿，评估LLM智能体对长上下文ICU数据的理解能力

RealICU是一个基于后见之明标注的基准，用于在真实ICU条件下评估大语言模型。它包含由资深医师审阅完整病程后创建的四项临床任务标签，并发布了RealICU-Gold（930个标注）和RealICU-Scale（11,862个标注）两个数据集。测试发现，现有LLM（包括记忆增强模型）表现不佳，暴露出临床推荐中的召回-安全权衡问题及对早期患者状态的锚定偏差。研究引入的ICU-Evo智能体虽能改进长程推理，但未能完全消除安全失误。该基准为高风险护理中AI序列决策支持提供了临床基础测试平台。

arXiv 推理论文/研究

16:46

HuggingFace Daily Papers（社区热门论文）

PersonalAI 2.0：通过规划机制增强知识图谱遍历/检索以优化个性化LLM智能体

PersonalAI 2.0（PAI-2）是一个集成外部知识图谱的新型框架，旨在提升大语言模型系统的性能。它通过动态多阶段查询处理流程，克服了现有图检索增强生成技术的局限，能基于实体、图节点和线索查询进行自适应迭代搜索。在六个基准数据集上的评估表明，其生成答案的事实正确性平均提升4%，有效降低了幻觉。图谱遍历算法相比标准检索器平均提升6%，而启用的搜索规划机制更带来了18%的性能提升。此外，PAI-2在MINE-1基准上取得了89%的信息保留分数，达到当前最优水平，且仅使用7-14B参数的模型，展现了作为下一代个性化AI基础模型的潜力。

arXiv 检索增强论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

Qwen-Image-VAE-2.0 技术报告

Qwen团队推出Qwen-Image-VAE-2.0高压缩变分自编码器，在重建保真度与扩散适应性上均取得显著提升。该模型采用全局跳跃连接与扩展潜在通道的改进架构，基于数十亿图像训练，并引入合成渲染引擎以增强文本场景处理能力。通过增强语义对齐策略解决高维潜在空间收敛难题，并利用非对称无注意力编码器-解码器降低计算开销。在公开重建基准及新提出的文本场景基准OmniDoc-TokenBench上均表现优异，下游DiT实验证实其能显著加速扩散模型收敛。

arXiv 图像生成论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

长上下文窗口下的思维链上下文学习研究：从检索缓冲到结构化课程

研究探讨了大语言模型在长上下文窗口下的思维链上下文学习。研究发现，增加思维链示例数量主要惠及推理导向模型，而对非推理模型效果不稳定；基于语义相似性的检索在推理任务中因无法预测步骤兼容性而失效；示例顺序影响显著，性能方差随示例增多而扩大。研究将此过程重新定义为上下文测试时学习，并提出示例应易于理解且有序排列以支持概念平滑递进的原则。基于此提出的曲线演示选择方法，在几何任务中使用64个示例时实现了高达5.42个百分点的性能提升。

arXiv 推理数据/训练论文/研究

09:45

HuggingFace Daily Papers（社区热门论文）

频率偏差与分布外泛化：变系数波动方程下的神经算子研究

本研究通过一维变系数波动方程，探究了傅里叶神经算子与深度算子网络在结构化分布变化下的泛化能力。在输入频率与系数平滑度独立变化的分布外设定中，两种模型对平滑度变化均表现稳定，且FNO误差更低。然而，面对输入频率变化时，FNO在未见高频数据上误差急剧上升，而DeepONet虽整体误差较高，性能下降却更平缓。分析表明，该差异源于两者对频率结构的表示与响应机制不同。结果揭示了神经算子在分布内高性能与分布外泛化间存在根本差距，凸显了架构表示偏差对于开发更可靠、适用于训练分布外物理模拟的神经算子的关键影响。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EverAnimate：通过潜在流修复实现分钟级人类动画

EverAnimate是一种高效的后训练方法，用于解决长动画视频生成中因分块处理导致的背景质量下降与角色身份不一致问题。该方法通过引入持久的潜在上下文记忆来恢复漂移的流轨迹，包含两个核心机制：持久潜在传播在跨片段间传播身份与动作以减轻时间遗忘；恢复式流匹配在采样时引入隐式修复目标，通过速度调整提升片段内保真度。该方法仅通过轻量级LoRA微调，在短时和长时动画设置下均超越现有最优方案，在10秒和90秒动画上均取得了显著的指标提升。

arXiv 图像生成视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EndPrompt：通过末端锚定高效扩展长上下文

传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练，计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文，其核心是将原始短上下文作为第一段，附加一个简短的末端提示作为第二段，并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离，同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式，表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时，EndPrompt在LongBench上平均得分最高（76.03），超越LCEG、LongLoRA等方法，且计算量更少，证明长上下文泛化可从稀疏位置监督诱导，挑战了密集训练的必要假设。

arXiv 开源/仓库推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

KVPO：基于KV语义探索的ODE原生自回归视频对齐GRPO方法

针对流式自回归视频生成器与人类偏好对齐的挑战，现有方法依赖噪声探索和SDE策略，与蒸馏模型的ODE动态不匹配。本文提出KVPO框架，引入因果语义探索范式，将变异源从随机噪声转移至历史键值缓存，构建语义多样的生成分支；同时提出基于轨迹速度能量的速度场代理策略，在流匹配速度空间量化分支可能性，形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

审计代理运行框架的安全性

当前对大语言模型代理的安全评估大多仅关注最终输出，忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区，研究者提出了HarnessAudit框架，从边界合规、执行保真度和系统稳定性三个维度，对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现，任务完成并不等于安全执行，违规行为会随轨迹增长而累积；风险在多智能体协作中被放大，且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。

智能体 arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AuralSAM2：通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足，本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征，生成稀疏和密集提示，并基于SAM2的特征金字塔在视觉层间传播音频线索，以强化跨模态影响。同时，引入音频引导对比损失函数，进一步对齐音频与视觉特征。实验表明，该方法在公开基准上显著提升了准确率，同时将对SAM2可提示分割交互效率的影响降至最低。

arXiv GitHub 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

InsightTok：提升自回归图像生成中文本与人脸保真度的离散标记化框架

针对自回归图像生成中文本与人脸保真度不足的核心瓶颈，InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失，专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下，InsightTok在文本和面部重建质量上显著超越先前方法，且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续，生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FFAvatar：少样本、前馈式、可泛化的虚拟形象重建

FFAvatar提出一种通用前馈框架，仅需数秒即可从少量无姿态人像重建高质量、可动画化的3D高斯头部虚拟形象。它通过多视图查询融合器将多源图像信息统一到规范表示，并端到端预测FLAME参数驱动动画。采用三阶段训练策略：在超百万身份的单目视频数据上预训练；利用少量高质量360度数据微调；支持500步内快速个性化适配。在NeRSemble基准上，其PSNR显著优于现有最优方法5.5分，无需个性化时重建仅需2秒，个性化需10秒，并在单A100 GPU上实现49 FPS实时动画。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReactiveGWM：在反应式游戏世界模型中引导非玩家角色

现有游戏世界模型多从主观玩家视角模拟环境，将非玩家角色（NPC）视为背景像素，难以建模玩家与NPC的动态交互。本文提出ReactiveGWM，该反应式游戏世界模型通过显式解耦玩家控制与NPC行为来解决此问题：玩家动作通过轻量级加性偏置注入扩散主干，而高级NPC响应则通过交叉注意力模块实现。这些模块学习的是与游戏无关的交互逻辑表示，支持零样本策略迁移——学习到的模块可直接插入不同游戏的现成世界模型中，无需针对特定领域重新训练即可实现可引导的NPC交互。在《街头霸王》系列游戏上的评估表明，ReactiveGWM在保持精细玩家可控性的同时，实现了稳健且与提示对齐的NPC策略遵循。

智能体 arXiv 论文/研究

5月13日

23:44

HuggingFace Daily Papers（社区热门论文）

ORBIT：通过原点调控的权重合并，在生成式检索中保留大语言模型的基础能力

研究指出，为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘，且遗忘程度与微调后和原始模型参数的偏离距离相关。为此，研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离，一旦超过预设阈值，便采用权重平均策略来约束模型在微调过程中的漂移。实验表明，ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法，有效缓解了基础能力的遗忘问题。

arXiv 检索增强数据/训练论文/研究

23:44

HuggingFace Daily Papers（社区热门论文）

Agent-BRACE：通过语言化状态不确定性在长程任务中解耦信念与行动

针对部分可观测长程任务中LLM智能体面临的历史信息膨胀与状态不确定性问题，研究提出了Agent-BRACE方法。该方法将智能体解耦为信念状态模型与策略模型，通过强化学习联合优化。信念模型以带有序语言化确定性标签（从“确定”到“未知”）的原子化自然语言声明集合，结构化近似表示环境状态的后验分布；策略模型则基于这一紧凑的信念表示而非完整历史进行决策。在部分可观测的具身语言环境中，该方法使Qwen2.5-3B-Instruct和Qwen3-4B-Instruct模型分别实现平均绝对性能提升14.5%与5.3%，且上下文窗口长度几乎不随任务步数增长。分析表明，随着证据积累，学习得到的信念在任务过程中校准度逐渐提升。

智能体 arXiv 论文/研究

17:44

HuggingFace Daily Papers（社区热门论文）

Pion：一种基于正交等价变换的谱保持优化器

研究团队推出用于大语言模型训练的优化器Pion，其基于正交等价变换实现谱保持特性。与Adam、Muon等加法型优化器不同，Pion通过左右正交变换更新权重矩阵，使奇异值在整个训练过程中保持不变。该机制能在固定谱范数的前提下调节权重矩阵的几何结构。实验表明，Pion在LLM预训练和微调任务中均能提供稳定且具有竞争力的性能，为传统优化器提供了新替代方案。

arXiv 数据/训练论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

WildRelight：面向单图像重光照的真实世界基准与物理引导自适应方法

本文介绍了首个专为单图像重光照评估设计的真实世界数据集WildRelight，包含多样化高分辨率户外场景，在严格对齐的时序自然光照下采集并配有环境贴图。基准测试揭示了当前基于合成数据训练的先进模型存在严重域偏移。利用该数据集严格对齐的时间结构，研究提出一种物理引导推理框架，将捕获的自然光演变作为自监督约束，通过结合扩散后验采样与时序感知的测试时自适应，成功将棘手的模拟到真实挑战转化为可处理的自监督任务。数据集与代码将公开以推动鲁棒且基于物理的重光照研究。

arXiv 图像生成数据/训练论文/研究