6月3日

10:41

HuggingFace Daily Papers（社区热门论文）

Humanoid-GPT是一个基于GPT架构的Transformer模型，专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练，该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量，Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer，并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明，该模型在零样本泛化至新任务的同时，能稳健地追踪复杂动态动作，建立了新的性能前沿。

具身智能数据/训练论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

语言模型需要睡眠：学习自我修改与巩固记忆

受人类学习过程启发，研究提出了一种让大语言模型持续学习的“睡眠”范式。该范式包含两个阶段：第一阶段为记忆巩固，通过“知识播种”将较小模型的记忆向上蒸馏至更大网络，以保留知识并提升容量；第二阶段为“做梦”，模型利用强化学习生成合成数据课程进行自我演练和改进，无需人工监督。实验验证了该范式在长期、持续学习、知识整合及少样本泛化任务上的重要性。

论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

NVIDIA OmniDreams：用于闭环自动驾驶模拟的实时生成式世界模型

OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型，使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作，自回归地实时生成动作条件化的逼真传感器视频，可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中，作为高响应性环境。初步结果显示，基于OmniDreams后训练的世界-动作模型（WAM）在Physical AI自动驾驶NuRec数据集上，仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。

具身智能论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

Ψ-Bench：评估说服性对话中的人格敏感影响力

Ψ-Bench 是一个新提出的基准测试，旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景，并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估，发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现，在提供客户档案后，模型性能平均提升 18.24%，凸显了用户特定信息对于实现有效说服的重要性。该工作指出，人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。

智能体 arXiv 开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PRECISE：基于预测驱动推理的统计可靠LLM排序评估方法

PRECISE扩展预测驱动推理（PPI），结合少量人工标注与大量LLM评判，得到偏差校正的排序评估指标。PPI在任意LLM评判误差分布下均无偏。针对Precision@K等分层指标，将输出空间计算复杂度从O(2^|C|)降至O(2^K)。在ESCI基准上，30条人工标注加上Claude 3 Sonnet评判使Precision@4估计的标准误差从4.45降至3.50（降低21%）。生产系统中，该框架从100条标签和2小时领域专家标注中正确识别出三个系统变体的最优者，A/B测试确认该排名，日销售额提升407 bps。

arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

SparDA：面向长上下文LLM推理的高效稀疏解耦注意力架构

SparDA提出解耦稀疏注意力架构，在QKV外引入第四层投影Forecast，预测下一层所需KV块，使CPU到GPU预取与当前层执行重叠。GQA实现中每组使用一个Forecast头。仅增加<0.5%参数，训练仅更新Forecast投影。在8B稀疏预训练模型上匹配或略提升精度，实现prefill加速1.25倍、decode加速1.7倍；相比非offload稀疏基线，单GPU上decode吞吐量提升5.3倍。代码已开源。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

PACT：行动状态通信实现高效多智能体系统

多智能体系统（MAS）中自由自然语言通信会导致token浪费和上下文膨胀。分析五种通信策略后发现无固定策略最优，但有效消息总包含下游智能体所需的行动中心信息。为此提出PACT协议，将通信视为公共状态更新问题，把每个智能体原始输出压缩为紧凑的行动状态记录再写入共享历史。PACT在不同MAS拓扑中均能实现相当或更强任务性能，同时大幅减少token消耗：在OpenHands上以每个已解决问题token消耗减少10%的代价提升解决率，在SWE-agent上解决率不变但输入token减半。代码已公开。

智能体 MCP/工具论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

SGDR：面向Web智能体的在线技能学习方法

SGDR是一种面向Web智能体的在线技能学习方法，能在执行过程中按步骤动态复用技能。它包含三个组件：滑动窗口提取将完成轨迹转化为可调用子过程；双文本-代码表示连接技能检索与可执行动作；状态接地动态检索机制同时匹配任务目标与当前网页状态。在WebArena五个领域上，SGDR搭配GPT-4.1的平均成功率达37.5%，搭配Qwen3-4B达24.3%，分别相对最强基线提升10.6%和10.0%。代码已开源。

智能体论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

智能体终极考试（Agents' Last Exam）

AI系统在多项基准上表现强劲，但未转化为经济上有意义的行业部署。新基准Agents' Last Exam（ALE）由250+行业专家联合开发，基于O*NET/SOC 2018联邦职业分类，覆盖13个行业集群、55个子领域、1000+任务，用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准，任务池持续扩展，旨在弥合基准成功与GDP影响之间的差距。

智能体 arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CIPER：跨视角图像检索与位姿估计的统一框架

现有跨视角地理定位方法将城市级检索和精确位姿估计分离，导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务：采用共享Transformer编码器配合任务专用token，分离全局检索特征与空间定位线索；引入双向Transformer位姿解码器，以地面特征作为空间查询进行双向交叉注意力，弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上，CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Muon 优于 Adam 的曲率视角解释

研究从曲率角度解释 Muon 在 LLM 训练中效率约为 Adam 两倍的原因。二阶泰勒展开显示，两者一阶增益相当，但 Muon 的二阶曲率惩罚更小。曲率惩罚分解为更新范数与归一化方向锐度（NDS），两者更新范数相近，Muon 的 NDS 更低，且数据不平衡会放大这一优势。中后期训练中，Muon 的 NDS 优势主要源自更小的层内曲率。理论证明，Muon 通过平衡不同曲率组间的更新能量实现更小平均 NDS，在曲率异质性足够强时，同等步数下局部二次损失也更低。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

自我评估已然存在：用极少数据激发基座大模型的潜在评判校准能力

研究发现，基座大语言模型未经针对性训练，仅凭少量样本提示即可预测外部评判者的多属性质量分数，效果显著高于随机。Self-Evaluation Elicitation（SEE）方法分两阶段激发该能力：先通过校准耦合的强化学习改进答案并预测评判者，再以掩码蒸馏精炼预测而不改动答案。仅用160个示例（比强化学习基线少约31倍），SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布，对未训练过的评判者表现稳定，表明其捕捉的是可迁移的质量概念而非单一评判者偏好。

arXiv 论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

Imaginative Perception Tokens 增强多模态语言模型的空间推理

多模态语言模型在无法直接观测空间信息时推理能力不足。Imaginative Perception Tokens (IPT) 是一种中间感知表征，使模型能在保持与输入观测一致的前提下，外推出替代空间配置下的感知结果。研究基于统一 VLM 模型 BAGEL，构建了 Perspective Taking、Path Tracing 和 Multiview Counting 三个任务共约 2 万样本的基准。IPT 监督训练持续提升空间推理性能，在 MVC 上准确率提升 3.4%，在 PT 上与强闭源模型相当，且常优于文本思维链训练。IPT 为不可观测空间结构提供了原则性监督信号，同时生成可解释的中间表征。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DistIL：基于分布化DAgger的丰富反馈强化学习方法

现有RLVR仅用单比特反馈判断答案正误，忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法，使学习器局部访问当前策略下状态的专家分布，优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界，而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线，并提升Pass@N。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过 Fisher 信息度量模型鲁棒性：谱界、理论保证与实用算法

提出基于 Fisher 信息矩阵（FIM）谱范数的攻击无关鲁棒性度量，量化模型输出对输入扰动的 worst-case 敏感度。理论上证明 FIM 等于输入 Jacobian 的方差，并推导出 VGG、ResNet、DenseNet、Transformer 等架构的闭式谱界，给出首个理论鲁棒性排序。开发基于幂迭代和 Hutchinson 估计的高效算法，支持白盒与黑盒场景。在 CIFAR、ImageNet、医学图像等数据集上的实验表明，该度量与对抗脆弱性高度相关。代码已开源。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GENEB：为什么基因组模型难以比较

基因组基础模型的进展因基准碎片化、评估协议不兼容而难以评估。GENEB是一个大规模诊断基准，在统一探针协议下评估40个模型在100个任务（13个功能类别）上的冻结表示，包含少样本场景。分析显示聚合排行榜不稳定：模型排名在不同任务类别间差异显著，规模带来的收益有限且不一致，架构和预训练对齐的影响常超过参数数量。GENEB为基因组机器学习提供了原则性比较和类别感知模型选择的参考框架。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

BRepCLIP：面向CAD理解的BRep原语对比多模态预训练框架

BRepCLIP是首个通过对比预训练将CAD边界表示（BRep）几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列，使用表面（如圆柱面、环面、NURBS）和曲线（如直线、圆弧、B样条）的离散词汇表，并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入，通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape，BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%，在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

TIDE：模板引导的迭代式主动多问题发现框架

TIDE是一种模板引导的迭代框架，用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求，而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题，并基于已发现结果调节后续搜索以扩大覆盖；同时通过思维模板从历史案例中提炼复用模式，指示模型关注哪些上下文信号及如何关联，将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中，基于四个模型骨干的验证显示，TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SePO：自演化提示智能体用于系统提示优化

SePO提出自指设计，单个提示智能体同时优化任务智能体及自身的系统提示，通过开放式演化搜索维护候选提示档案。训练分两阶段：预训练（多任务池演化）与微调（目标任务）。在数学（AIME'25）、抽象推理（ARC-AGI-1）、研究生科学（GPQA）、代码生成（MBPP）和数独五个基准上，SePO一致超越Manual-CoT、TextGrad和MetaSPO，平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

个人相机胶卷视觉问答AI智能体（Camroll-Agent）

研究个人相机胶卷视觉问答场景，AI助手可访问用户相机胶卷并检索相关照片回答事实性或开放性问题。构建camroll数据集，包含50名用户、31,476张图像和2,500个问答对。设计camroll-agent对话式智能体，配备层次化记忆和最小工具集以高效导航大规模个性化视觉记忆。实验表明其优于多种基线方法，揭示个性化视觉记忆需要不同于标准长上下文文本记忆的方法，尤其在一致性、视觉细节和用户特定上下文方面。

智能体多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

VideoKR：面向知识与推理密集型视频理解

VideoKR是首个专为强化知识与推理密集型视频理解设计的大规模训练语料，包含315K个视频推理示例，覆盖145K个新收集的CC许可专家领域视频。研究开发了一种人机协同、面向技能的示例生成管道，并构建了专家标注基准VideoKR-Eval。实验表明，在标准SFT→GRPO流水线下，基于VideoKR后训练的模型在知识密集型视频推理上超越先前方法，同时在通用视频推理上保持竞争力。消融实验进一步证实了数据设计的驱动作用。

多模态数据/训练视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Video2LoRA：面向视觉语言模型的参数化视频内化方法

Video2LoRA通过感知器超网络读取冻结视觉语言模型编码视频时的逐层中间表示，单次前向传播生成LoRA适配器，无需迭代梯度更新。在SmolVLM2 500M和2.2B上训练后，同一冻结VLM仅从适配器回答查询，上下文中零视觉token。在五个字幕基准和八个视频问答基准配对中，Video2LoRA非劣效且等价于直接视频上下文推理。虽仅用12帧384px训练，但稳定支持1024帧和1024px，将回答时视觉token负载减少最高1500倍，查询TTFT减少6–80倍。非重叠视频段独立生成的适配器可在秩空间中组合。

多模态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-WAM：面向世界动作模型的模态感知蒸馏

世界动作模型（WAMs）通过迭代扩散联合生成未来视频与机器人动作，但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏：为动作流低噪声区采用线性梯度缩放参数化，为视频流高噪声区采用方差保持参数化，将推理压缩至单步。在 LingBot-VA 上实例化后，RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms（NVIDIA L40S），23 倍加速。仿真基准成功率保持（RoboTwin 2.0 85.5%，LIBERO 95.7%），真实世界 Unitree G1 人形机器人平均 60%，而朴素一致性蒸馏仅 24%。

具身智能推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

重新思考持续经验内化：面向自进化LLM智能体

经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移，但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现：原则级经验比实例级更持久；逐步注入模式优于全局注入；离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。

智能体 arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SpeechEditBench：双语多属性指令引导语音编辑基准

SpeechEditBench 是一个双语多属性基准测试，系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务，并提出基于锚点的评估协议，分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现：（1）无单一模型在所有维度表现优异；（2）闭源语音LLM整体优于开源模型；（3）组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架，数据代码已公开。

arXiv 论文/研究语音

03:41

HuggingFace Daily Papers（社区热门论文）

语义运动锚点：弥合协同语音手势中的运动与意义

研究提出“语义运动锚点”方法，用于解决协同语音手势生成与检索中语义理解不足的问题。该方法将3D手势离散化为身体-手部运动原语，并转化为结构化的自然语言描述，作为辅助监督信号锚定于语音文本。在BEAT2数据集上，该方法将文本到手势检索的R@1指标提升了8.2%，并优于现有方法。检索增强的手势生成用户研究显示，该方法检索到的手势在传达交流意图方面明显优于基线。

多模态论文/研究

03:41

HuggingFace Daily Papers（社区热门论文）

DOT-MoE：用于MoE化的可微最优传输

DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题，利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时，通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明，DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法，能够在减少50%活跃参数的同时，保留原始密集模型90%的性能。

arXiv 推理数据/训练论文/研究

01:40

HuggingFace Daily Papers（社区热门论文）

TVIR：面向文本-视觉交错报告生成的深度研究智能体构建

针对现有深度研究系统以文本为中心、视觉元素可靠性与对齐性评估不足的问题，本文提出了TVIR框架，包括TVIR-Bench基准测试和TVIR-Agent多智能体框架。TVIR-Bench包含100个要求视觉元素服务于特定分析目标的多模态任务。TVIR-Agent采用分层多智能体设计，负责构建大纲、检索图像、生成可溯源图表并进行上下文感知写作。研究进一步开发了结合文本与视觉评估的双路径评估框架。对九个系统的实验表明，TVIR-Agent表现优异，凸显了多模态设计对于证据驱动报告生成的重要性。

图像生成多模态论文/研究

01:40

HuggingFace Daily Papers（社区热门论文）

精选71

AFUN：迈向功能理解的可供性基础模型

AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发，能同时预测任务条件的功能掩码（where）和3D接触后运动曲线（how）。为实现开放世界泛化，该研究构建了一个大规模标准化数据管道，整合了机器人、人类、仿真与真实扫描数据。评估结果显示，AFUN在可供性分割任务上，于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3；在接触点预测上，命中率比最佳基线高出12.7%–61.3%；在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。

具身智能数据/训练论文/研究

推荐理由：在 affordance 基础模型方向做出一步，跨 8 个测试集大幅超越基线，并可直接部署到真实机器人，对具身智能的通用化是个值得关注的信号。

00:40

HuggingFace Daily Papers（社区热门论文）

Harness-1：面向搜索智能体的强化学习与状态外部化框架

Harness-1是一个20B参数的检索子智能体，通过强化学习训练。其核心创新是将状态管理外部化至环境侧的框架中，该框架负责维护包括候选池、重要性标注的精选集、证据链与验证记录等工作记忆，使策略本身专注于搜索语义决策。在八个涵盖网页、金融、专利等领域的检索基准测试中，Harness-1取得了0.730的平均精选召回率，超越了次优的开源搜索子智能体11.4个点，并与规模更大的前沿模型保持竞争力。其代码已开源。

智能体检索增强搜索论文/研究

6月2日

23:40

HuggingFace Daily Papers（社区热门论文）

PaW：策略与世界模型协同训练框架

提出PaW框架，通过协同训练策略与世界模型来提升语言智能体性能。该方法直接利用on-policy强化学习rollout中已有的信号（动作与后续观测的配对），无需额外模拟器、训练阶段或推理计算。PaW引入三个组件：基于动作熵的世界模型数据选择、噪声容忍的损失函数以及奖励自适应的损失平衡，以确保辅助监督的稳定性。实验表明，在三个智能体任务基准上，PaW在不同模型和RL算法上均持续优于强RL基线，证实了标准RL rollout可作为世界模型监督的实用来源。

智能体开源生态论文/研究

20:40

HuggingFace Daily Papers（社区热门论文）

精选71

NLP领域2018-2025年人类标注报告实践的大规模审计

本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线，其在Annotated-gold数据集（41篇论文，72个标注任务）上与人工裁决的一致性（Krippendorff's alpha）达到0.606。基于此，研究构建了Annotated-llm数据集，涵盖ACL会议论文，从1603篇论文中提取了2667个标注任务。分析发现，论文常报告招募策略、标注者专长等操作细节，但经常遗漏评估标注效度所需的关键信息，如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡，并提出了一个可扩展的框架和最低报告标准。

arXiv Hugging Face 数据/训练论文/研究

推荐理由：NLP论文里的标注环节一直是个黑箱，这篇首次用大规模数据把各家怎么标注、哪些信息缺失扒了个遍，值得每个做数据和评估的人细看。

18:40

HuggingFace Daily Papers（社区热门论文）

几何潜推理使LLM生成更短

研究提出几何潜推理方法，将推理建模为模型预训练嵌入空间中的几何路径逼近问题，使用轻量级过渡头预测方向更新。在Qwen3模型上评估发现，该方法能诱导模型生成显著更短的输出，用连续潜步骤替代早期显式推理后，模型常以更少总步数得出正确答案。研究揭示了连续轨迹作为紧凑中间推理状态，暴露了潜计算预算、输出长度与准确率之间的新权衡。

推理论文/研究

17:52

Anthropic：Transformer Circuits（可解释性研究）

精选63

Anthropic可解释性研究：区分因果效应相似的特征

Anthropic可解释性团队介绍了其Circuits研究的新进展。为区分那些激活模式相似但因果效应不同的模型特征，团队提出一种新方法。该方法通过分析特征的下游连接来预测其实际影响，并使用基于共激活统计的TWERA（虚拟权重）对连接进行加权排序。实验表明，借助下游连接信息能更准确地判断哪个特征会引导特定输出。此方法为识别模型内部真正的因果组件提供了新途径。

Anthropic 安全/对齐论文/研究

推荐理由：做可解释性研究的同学值得读，它用下游连接区分看似相同的特征，比只看激活例子更能预测因果作用，对齐审计里能省不少试错。

14:40

HuggingFace Daily Papers（社区热门论文）

MCP-Persona：首个面向真实场景个性化工具的LLM智能体基准测试

MCP-Persona是首个专门评估LLM智能体在个性化MCP工具上表现的基准测试，涵盖Reddit、小红书、Lark和Slack等应用。在多个SOTA智能体上的实验表明，当前智能体在个性化工具使用方面仍面临重大挑战。该基准旨在弥合现有评估主要聚焦通用工具、忽视个人社交应用中工具与个人账户或本地数据库交互所带来的实际挑战这一空白。

智能体 MCP/工具论文/研究

14:40

HuggingFace Daily Papers（社区热门论文）

LongLive-RAG：用于长视频生成的通用检索增强框架

LongLive-RAG旨在解决自回归（AR）视频扩散模型在长视频生成中面临的错误累积与身份漂移问题。该方法将长视频生成建模为检索增强生成（RAG）问题，不再仅依赖滑动窗口，而是把之前生成的潜在变量视为可检索的动态历史记录。在每个新生成块中，它通过查询嵌入检索相关历史潜在变量，使生成器能够利用非局部上下文。为提升检索效果，框架引入了Window Temporal Delta Loss。实验表明，该框架能提升长视频生成质量，在多个AR骨干和生成长度上于VBench-Long基准取得了最佳平均排名。代码已开源。

多模态视频论文/研究

13:40

HuggingFace Daily Papers（社区热门论文）

JAMEL：通过新颖性信号联合训练智能体记忆与探索策略（开源）

JAMEL 是一个用于训练智能体在开放环境中进行探索的框架。它通过新颖性驱动的交互，将智能体的记忆模块与探索策略进行联合训练。该框架利用如代码覆盖率等确定性、持久的新颖性信号，为记忆模块提供无需人工标注的监督信号。实验评估表明，JAMEL 成功泛化至未见过的环境，其探索能力超越开源基线，达到与闭源模型相当的深度，同时减少了 token 消耗。相关代码与模型已开源于 GitHub。

智能体 arXiv 论文/研究

13:40

HuggingFace Daily Papers（社区热门论文）

Off-the-Shelf LLMs as Process Scorers： Training-Free Alternative to PRMs for Mathematical Reasoning

Chunk-Level Guided Generation 是一种无需训练的推理时方法，它利用现成的大语言模型（如 Qwen2.5-32B 或 Llama-3.1-70B）作为过程评分器，引导小模型进行数学推理。该方法在每个步骤让小模型生成多个固定长度候选块，由大模型通过似然度评分选择，从而提前引导推理方向，避免错误传播。它包含似然引导选择（LGS）和对比引导选择（CGS）两种规则，其中CGS通过减去小模型似然度来偏好与大模型偏好不同的块。在多个基准测试中，该方法在匹配计算预算下，性能匹配或优于需要奖励模型训练的PRM引导搜索，并且生成的推理轨迹显著更短。

推理论文/研究

13:40

HuggingFace Daily Papers（社区热门论文）

精选73

OpenWebRL：面向视觉网页智能体的在线多轮强化学习开源框架

OpenWebRL是一个用于在真实网站上通过在线多轮强化学习训练视觉网页智能体的开源框架，覆盖了完整的训练流程。基于该框架训练的OpenWebRL-4B模型，在仅使用0.4K条监督初始化轨迹和2.2K个开放式RL训练任务的情况下，在Online-Mind2Web基准上达到67.0%成功率，在DeepShop基准上达到64.0%，超越了同规模或更大规模的先前开源智能体，性能可与OpenAI CUA和Gemini CUA等闭源系统竞争。该工作为构建更强、可复现且高性价比的开源网页智能体提供了实践路径。

智能体开源生态推理论文/研究

推荐理由：做 Web Agent 的同行终于不用再羡慕闭源了。OpenWebRL 用 4B 模型和 2.2K RL 任务就逼近 OpenAI CUA，而且全开源，这路子值得认真读一读。

12:40

HuggingFace Daily Papers（社区热门论文）

在Blender中思考：基于视觉语言模型的可执行分阶段逆向图形

本研究探讨预训练视觉语言模型能否通过生成可执行的Blender程序，直接从单张图像重建为可编辑的3D场景，且不依赖专门的2D/3D基础模型、可微渲染或多视图监督。文章提出了“可执行分阶段逆向图形”（SEIG）智能体框架，该框架在可执行的Blender代码空间中，通过分阶段优化几何、材质、构图与光照等因子来重建场景。实验评估表明，分阶段重建策略显著提升了场景重建的保真度（包括像素级、感知和语义保真度），验证了任务分解对于通用视觉语言模型执行可执行逆向图形的重要性。重建后的可编辑Blender场景可支持多种下游应用。

智能体图像生成多模态论文/研究