5月14日

08:00

HuggingFace Daily Papers（社区热门论文）

传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练，计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文，其核心是将原始短上下文作为第一段，附加一个简短的末端提示作为第二段，并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离，同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式，表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时，EndPrompt在LongBench上平均得分最高（76.03），超越LCEG、LongLoRA等方法，且计算量更少，证明长上下文泛化可从稀疏位置监督诱导，挑战了密集训练的必要假设。

arXiv 开源/仓库推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

KVPO：基于KV语义探索的ODE原生自回归视频对齐GRPO方法

针对流式自回归视频生成器与人类偏好对齐的挑战，现有方法依赖噪声探索和SDE策略，与蒸馏模型的ODE动态不匹配。本文提出KVPO框架，引入因果语义探索范式，将变异源从随机噪声转移至历史键值缓存，构建语义多样的生成分支；同时提出基于轨迹速度能量的速度场代理策略，在流匹配速度空间量化分支可能性，形成与ODE一致的奖励加权对比目标。实验表明KVPO在视觉质量、运动质量和文本-视频对齐方面均有提升。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

审计代理运行框架的安全性

当前对大语言模型代理的安全评估大多仅关注最终输出，忽略了执行过程中可能发生的权限越界或信息泄露。为解决这一盲区，研究者提出了HarnessAudit框架，从边界合规、执行保真度和系统稳定性三个维度，对代理的完整执行轨迹进行审计。同时建立了涵盖8个真实领域、210项任务的基准测试。评估发现，任务完成并不等于安全执行，违规行为会随轨迹增长而累积；风险在多智能体协作中被放大，且主要集中在资源访问与信息传递环节。框架的设计本身决定了其安全能力的上限。

智能体 arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AuralSAM2：通过金字塔音视频特征提示赋能SAM2倾听

针对SAM2在音频模态整合上的不足，本文提出AuralSAM2。其核心模块AuralFuser融合音频与视觉特征，生成稀疏和密集提示，并基于SAM2的特征金字塔在视觉层间传播音频线索，以强化跨模态影响。同时，引入音频引导对比损失函数，进一步对齐音频与视觉特征。实验表明，该方法在公开基准上显著提升了准确率，同时将对SAM2可提示分割交互效率的影响降至最低。

arXiv GitHub 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

InsightTok：提升自回归图像生成中文本与人脸保真度的离散标记化框架

针对自回归图像生成中文本与人脸保真度不足的核心瓶颈，InsightTok提出了一种改进的离散视觉标记化框架。该框架通过引入局部化、内容感知的感知损失，专门强化文本可读性与面部特征保真度。在保持16k小型码本和16倍下采样率的紧凑设计下，InsightTok在文本和面部重建质量上显著超越先前方法，且未损害通用图像重建性能。其优势在自回归模型InsightAR中得到延续，生成的图像文本更清晰、面部细节更精准。这项工作凸显了在标记化训练中引入针对性监督对推进离散图像生成的重要性。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FFAvatar：少样本、前馈式、可泛化的虚拟形象重建

FFAvatar提出一种通用前馈框架，仅需数秒即可从少量无姿态人像重建高质量、可动画化的3D高斯头部虚拟形象。它通过多视图查询融合器将多源图像信息统一到规范表示，并端到端预测FLAME参数驱动动画。采用三阶段训练策略：在超百万身份的单目视频数据上预训练；利用少量高质量360度数据微调；支持500步内快速个性化适配。在NeRSemble基准上，其PSNR显著优于现有最优方法5.5分，无需个性化时重建仅需2秒，个性化需10秒，并在单A100 GPU上实现49 FPS实时动画。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReactiveGWM：在反应式游戏世界模型中引导非玩家角色

现有游戏世界模型多从主观玩家视角模拟环境，将非玩家角色（NPC）视为背景像素，难以建模玩家与NPC的动态交互。本文提出ReactiveGWM，该反应式游戏世界模型通过显式解耦玩家控制与NPC行为来解决此问题：玩家动作通过轻量级加性偏置注入扩散主干，而高级NPC响应则通过交叉注意力模块实现。这些模块学习的是与游戏无关的交互逻辑表示，支持零样本策略迁移——学习到的模块可直接插入不同游戏的现成世界模型中，无需针对特定领域重新训练即可实现可引导的NPC交互。在《街头霸王》系列游戏上的评估表明，ReactiveGWM在保持精细玩家可控性的同时，实现了稳健且与提示对齐的NPC策略遵循。

智能体 arXiv 论文/研究

5月13日

23:44

HuggingFace Daily Papers（社区热门论文）

ORBIT：通过原点调控的权重合并，在生成式检索中保留大语言模型的基础能力

研究指出，为大语言模型微调生成式检索任务会迅速导致其通用语言推理能力的灾难性遗忘，且遗忘程度与微调后和原始模型参数的偏离距离相关。为此，研究者提出了ORBIT方法。该方法主动追踪微调权重与初始权重之间的距离，一旦超过预设阈值，便采用权重平均策略来约束模型在微调过程中的漂移。实验表明，ORBIT在文本和检索性能上均优于常见的持续学习基线及同样采用权重平均的正则化方法，有效缓解了基础能力的遗忘问题。

arXiv 检索增强数据/训练论文/研究

23:44

HuggingFace Daily Papers（社区热门论文）

Agent-BRACE：通过语言化状态不确定性在长程任务中解耦信念与行动

针对部分可观测长程任务中LLM智能体面临的历史信息膨胀与状态不确定性问题，研究提出了Agent-BRACE方法。该方法将智能体解耦为信念状态模型与策略模型，通过强化学习联合优化。信念模型以带有序语言化确定性标签（从“确定”到“未知”）的原子化自然语言声明集合，结构化近似表示环境状态的后验分布；策略模型则基于这一紧凑的信念表示而非完整历史进行决策。在部分可观测的具身语言环境中，该方法使Qwen2.5-3B-Instruct和Qwen3-4B-Instruct模型分别实现平均绝对性能提升14.5%与5.3%，且上下文窗口长度几乎不随任务步数增长。分析表明，随着证据积累，学习得到的信念在任务过程中校准度逐渐提升。

智能体 arXiv 论文/研究

17:44

HuggingFace Daily Papers（社区热门论文）

Pion：一种基于正交等价变换的谱保持优化器

研究团队推出用于大语言模型训练的优化器Pion，其基于正交等价变换实现谱保持特性。与Adam、Muon等加法型优化器不同，Pion通过左右正交变换更新权重矩阵，使奇异值在整个训练过程中保持不变。该机制能在固定谱范数的前提下调节权重矩阵的几何结构。实验表明，Pion在LLM预训练和微调任务中均能提供稳定且具有竞争力的性能，为传统优化器提供了新替代方案。

arXiv 数据/训练论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

WildRelight：面向单图像重光照的真实世界基准与物理引导自适应方法

本文介绍了首个专为单图像重光照评估设计的真实世界数据集WildRelight，包含多样化高分辨率户外场景，在严格对齐的时序自然光照下采集并配有环境贴图。基准测试揭示了当前基于合成数据训练的先进模型存在严重域偏移。利用该数据集严格对齐的时间结构，研究提出一种物理引导推理框架，将捕获的自然光演变作为自监督约束，通过结合扩散后验采样与时序感知的测试时自适应，成功将棘手的模拟到真实挑战转化为可处理的自监督任务。数据集与代码将公开以推动鲁棒且基于物理的重光照研究。

arXiv 图像生成数据/训练论文/研究

15:44

HuggingFace Daily Papers（社区热门论文）

异步智能体强化学习中旧Logits缺失：离策略修正的语义不匹配与修复方法

异步强化学习提升语言模型智能体数据吞吐，但引发PPO离策略修正失效。重要性比率本应分解为训练-推理差异项和策略陈旧性项，但异步流水线常丢失旧Logits，导致修正语义混淆与阈值不良交互。研究提出精确修正方法，如快照版本追踪、专用模型和同步中断，并探讨近似修正路径。采用改进的PPO-EWMA方法，在训练速度和优化性能上均取得显著提升。

智能体 arXiv 论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

Lite3R：一种用于高效前馈式3D重建的模型无关框架

针对基于Transformer的多视图3D重建模型效率低下的问题，本文提出Lite3R框架。该框架采用模型无关的师生架构，以稀疏线性注意力替代密集注意力来降低计算开销，并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏，冻结大部分预训练骨干参数，仅微调轻量线性分支投影层，从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明，Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟（1.7-2.0倍）和内存占用（1.9-2.4倍），同时保持整体重建质量的竞争力。

arXiv GitHub 多模态论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

LongMemEval-V2：评估智能体面向环境经验的长期记忆能力

研究团队推出长期记忆评估基准LongMemEval-V2，旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题，涵盖五项核心记忆能力，并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R，以及调用编码智能体收集证据的AgentRunbook-C。实验表明，AgentRunbook-C以72.5%的平均准确率取得最佳性能，显著优于基线方法，但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。

智能体 arXiv 论文/研究评测/基准

10:44

HuggingFace Daily Papers（社区热门论文）

AutoLLMResearch：训练智能体以自动化大语言模型实验配置--从低成本学习，优化高成本实验

为应对高成本大语言模型实验自动化配置的空白，本文提出智能体框架AutoLLMResearch。其核心是通过一个基于超百万GPU小时实验结果构建的多保真度环境LLMConfig-Gym进行训练，使智能体能够从低成本“低保真”实验中学习通用原则，并外推至昂贵的高保真场景，从而高效识别有潜力的配置方案。评估表明，该框架在多种强基线对比中展现出有效性、泛化性与可解释性，为现实世界中可扩展的LLM实验自动化提供了实用解决方案。

智能体 arXiv 数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

CausalCine：用于多镜头视频叙事的实时自回归生成框架

研究团队提出CausalCine，一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示，并复用历史上下文。其核心是内容感知记忆路由（CAMR）机制，该机制依据注意力相关性动态检索历史关键信息，而非依赖时间邻近性，从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换，再将其蒸馏为少步生成器以实现实时交互。实验表明，CausalCine显著优于自回归基线，并接近双向模型能力，同时解锁了流式交互性。

arXiv 多模态视频论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

δ-mem：面向大语言模型的高效在线记忆机制

本文提出δ-mem，一种轻量级在线记忆机制，用于增强大语言模型在长期任务中的历史信息利用能力。该方法在冻结的主干网络上，通过一个仅需8×8大小的紧凑关联记忆状态矩阵，以delta规则动态压缩更新过往信息，并在生成时读取该状态以产生低秩校正项来调整注意力计算。实验表明，δ-mem将平均性能提升至冻结主干模型的1.10倍，并达到最强非δ-mem记忆基线的1.15倍，在记忆密集型基准上增益更显著。该方法无需全量微调、替换主干或显式扩展上下文，即实现了有效的记忆功能。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LoREnc：用于保护基础模型和LoRA适配器的低秩加密

当前基础模型与LoRA适配器在端侧AI部署中面临知识产权泄露和模型恢复攻击风险，现有防御需重训或依赖原始数据。LoREnc提出免训练保护框架，通过频谱截断抑制基础模型权重低秩分量，结合补偿机制与正交重参数化隐藏适配器结构指纹。授权用户可无损恢复性能，非授权用户获得结构崩溃输出。实验显示该方法能有效防止模型恢复，计算开销低于1%。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

当视觉代言听觉

研究发现，现有顶尖的视频多模态大模型在理解声音时，常依赖视觉线索进行推断或“幻听”，而非真正处理音频，这种“视听聪明汉斯效应”普遍存在于主流模型中。为此，研究者提出了Thud干预探测框架，通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方，能将模型在干预测试上的平均表现提升28个百分点，同时也能略微改善通用视频问答的性能。

arXiv Google OpenAI 多模态

08:00

HuggingFace Daily Papers（社区热门论文）

Physics-R1：一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程，发现了三个未被察觉的构建问题：训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题，团队发布了四个关键成果：经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A，以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3，在PhysReason上提升至39.6，超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

PanoWorld：迈向360度全景世界的空间超感知

针对多模态大模型在360度全景图像空间理解上的不足，研究提出PanoWorld模型。现有方法通常将全景图分解为透视图，忽略了其连续的球面几何结构。为此，本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据，并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上，PanoWorld显著超越了现有开源与专有基线。结果表明，稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于Hodge分解的拓扑保持神经算子学习

本文从函数空间视角研究几何网格上物理场方程的解算子。我们发现Hodge正交性通过分离不可学习的拓扑自由度和可学习的几何动力学，从根本上解决了谱干扰问题，实现了结构保持子空间的加性逼近。基于Hodge理论和算子分裂，我们推导了原则性的算子级分解，构建了称为Hodge Spectral Duality (HSD)的混合欧拉-拉格朗日架构。该框架使用离散微分形式捕获拓扑主导分量，并利用正交辅助环境空间表示复杂局部动力学。我们的方法在几何图上实现了更高的精度和效率，同时增强了对物理不变量的保真度。代码已开源。

arXiv 开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

通过简单统一的扩展实现奥赛金牌级推理

本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调，以灌输严谨的证明搜索与自我检查行为；随后通过两阶段强化学习流程扩展这些能力，最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01，在仅使用约34万条短轨迹微调和200步强化学习后，能稳定处理超过10万token的长轨迹难题，并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现，同时展现出向数学物理之外科学领域的强推理泛化能力。

arXiv 推理数据/训练论文/研究

推荐理由：IMO 金牌级推理模型又多了一个，SU-01 的方法干净统一，特别在超长推理链上的稳定性是真正突破，做推理模型训练和竞赛级 AI 的可以认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

书签：面向角色扮演代理的高效主动故事情节记忆框架

针对角色扮演代理长期一致性记忆的需求，本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法，避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案，支持概念、行为和状态三种搜索类型，并采用高效同步机制更新答案以供未来复用。相比基线方法，该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中，其性能显著优于现有记忆基线。

智能体 arXiv 检索增强论文/研究

5月12日

20:44

HuggingFace Daily Papers（社区热门论文）

ELF：嵌入式语言流

研究团队提出嵌入式语言流（ELF），这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同，ELF在绝大部分采样过程中保持在连续空间，仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术（如无分类器引导）。实验表明，ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型，并能以更少的采样步骤实现更优性能，为构建有效的连续扩散语言模型提供了新路径。

arXiv 数据/训练论文/研究

16:59

AK@_akhaliq

Pixal3D 从图像生成像素对齐的三维模型

arXiv 多模态论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

RoboMemArena：一个全面且具有挑战性的机器人记忆基准

研究团队推出机器人记忆基准 RoboMemArena，包含26个长轨迹任务，平均轨迹长度超1,000步，其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹，并提供记忆相关标注，同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构，通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库，并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型，为复杂记忆系统的设计提供了新见解。

智能体 arXiv 具身智能论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

SlimSpec：用于加速推测解码的低秩草稿模型LM-Head

推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理，但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断，但增加了复杂性。本文提出SlimSpec，采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出，从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估，SlimSpec在延迟和吞吐量场景下，相比标准LM-Head实现了4-5倍加速，同时保持有竞争力的接受长度，端到端加速效果超越现有方法8-9%，且对训练和推理流程改动最小。

arXiv 推理论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

Shepherd：一个为元智能体提供形式化执行追踪的运行时基板

Shepherd提出了一种函数式编程模型，将元智能体对目标智能体的操作形式化为函数，其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪，支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍，重放时提示缓存复用率超过95%。应用案例表明，其实时监督可将结对编程通过率从28.8%提升至54.7%；反事实元优化在四个基准测试中最高超出基线11个百分点，同时减少高达58%的挂钟时间；在Tree-RL训练中，于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。

智能体 arXiv MCP/工具开源/仓库

12:44

HuggingFace Daily Papers（社区热门论文）

精选76

Qwen-Image-2.0技术报告

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器，结合多模态扩散变换器进行联合建模，并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入，能生成幻灯片、海报等富文本内容，显著提升多语言文本渲染与排版质量。在生成方面，它增强了细节、纹理真实感与光照一致性，并更可靠遵循复杂指令。人工评估表明，其在生成和编辑任务上均大幅超越前代模型。

arXiv 图像生成多模态模型发布

推荐理由：这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里，长文本渲染和多语言排版提升肉眼可见，做海报和幻灯片的可以重点关注。

11:44

HuggingFace Daily Papers（社区热门论文）

大语言模型中的模型合并缩放定律

研究发现语言模型合并遵循一个紧凑的幂律定律，它将模型大小与专家数量相关联：模型容量越大，其性能下限越低；而合并带来的性能提升尾部则随专家数量增加呈现明显的收益递减。该定律在领域内和跨领域均成立，紧密契合不同架构与方法下的实测曲线，并解释了大部分收益在早期获得、且性能波动性随专家增多而缩小这两个稳健规律。基于此的简单理论将性能下限和尾部与基础模型特性及领域多样性联系起来。这一定律使得预测性规划成为可能，例如估算达到目标损失所需的专家数量，或在固定预算下权衡扩展基础模型与增加专家，从而将模型合并从启发式实践转变为一种可计算、可规划的高效方案。

arXiv 数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

Pixal3D：基于图像的像素对齐3D生成

针对现有图像到3D生成中像素级保真度不足的问题，研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法，通过像素回投影条件方案，将多尺度图像特征直接提升为3D特征体积，从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度，使其接近重建水平。该框架可扩展生成高质量3D资产，并能自然支持多视图生成与高保真、对象分离的3D场景合成。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

AI CFD科学家：利用物理感知AI智能体实现开放式计算流体动力学发现

本文提出AI CFD Scientist，一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门，能在接受结果前检查流场渲染图。实验表明，该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正；在同等成本下，其性能优于通用AI科学家基线，因其具备关键的领域专用验证能力；对照实验证实，视觉验证门能有效检测出求解器日志遗漏的多数静默故障。

智能体 arXiv 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

自动化智能体评估的实证研究

研究发现，直接使用前沿代码助手（如GPT、Claude）进行智能体评估效果不佳，其执行成功率仅为30%，且生成的评估指标平均超过12项，过于复杂。为此，研究者提出了EvalAgent，它能将评估领域知识编码为可组合的“评估技能”，自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估，EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%，并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要，移除后Eval@1会从65%骤降至30%。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

从通用模型到专家模型：非参数设定下的可识别性理论

本文在完全非参数设定下，为从通用模型学习任务相关的专家表示建立了可识别性理论基础。首先证明，即使序列缺乏严格时间依赖且任务分配结构任意复杂，时间步与任务间的结构仍可在无监督下被识别。其次证明，在单个时间步内，仅需简单的稀疏性正则化即可将任务相关潜在表示与无关部分解耦，无需额外约束。这两项结果共同构成了层次化的可识别性保证：任务结构在时间步间可识别，任务相关表示在步内可识别。这是首个通用的非参数可识别性理论，为从通用模型向可证明的专家模型转变提供了依据。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

Learning to Explore：通过探索感知策略优化扩展智能体推理能力

研究提出了一种探索感知的强化学习框架，使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数，评估探索性行动对改善未来决策的潜力，并引入探索感知分组机制，在优化过程中将探索行动与任务完成行动分离。实验表明，该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。

智能体 arXiv 推理论文/研究

推荐理由：让 Agent 拥有了「感知自己不知道什么」的能力，只在信息不足时才探索，而不是盲目试错，是 Agent 训练方法的一个重要转向，做强化学习或 Agent 的值得认真看下。

08:00

HuggingFace Daily Papers（社区热门论文）

精选73

Learning Agentic Policy from Action Guidance

针对大型语言模型的智能体强化学习提出新方法ActGuide-RL，通过引入日常人类交互产生的海量动作数据作为规划式参考指引，帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则，仅在必要时自适应启用指引以匹配任务难度，同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中，ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点，性能与需要大量监督微调数据的流程相当，为智能体强化学习提供了减少对繁重监督微调依赖的新范式。

智能体 arXiv 推理论文/研究

推荐理由：Agent RL长期被基础策略的探索能力卡脖子，这篇论文用人类日常交互的动作数据做引导，不用重型SFT就追平现有pipeline，是训练范式层面一次务实创新。

08:00

HuggingFace Daily Papers（社区热门论文）

TrackCraft3R：将视频扩散Transformer改造为前馈式密集3D跟踪器

TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征（几何潜在与跟踪潜在）和时序RoPE对齐两项核心设计，将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式，仅需LoRA微调。给定单目视频及其逐帧重建点云图，模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能，同时以1.3倍的速度和仅需1/4.6的峰值内存运行，并对大幅运动和长视频保持鲁棒性。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Orthrus：基于双视图扩散的内存高效并行令牌生成

Orthrus 提出一种双架构框架，将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块，构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存：自回归头负责上下文预填充以构建准确表示，扩散头则执行并行令牌生成。通过严格的共识机制，Orthrus 在保证无损推理的前提下，仅增加 O(1) 内存开销与极少参数量，即实现了最高 7.8 倍的生成加速。

arXiv Hugging Face 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

观点：应将大语言模型推理评估为"能量到Token的生产过程"

当前大模型推理评估过于侧重准确性、延迟等软件指标，忽视了部署规模下的核心约束：在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程，并建立了统一的Token生产函数模型，其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下，KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此，呼吁未来研究与基准测试在报告传统指标时，应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。

arXiv 推理论文/研究部署/工程