AIHOT

16:44

HuggingFace Daily Papers（社区热门论文）

研究提出，在编码器适应新领域时，先短暂切换至因果语言建模（CLM），再进行掩码语言建模（MLM）衰减训练，可有效提升下游任务性能。在生物医学文本上使用ModernBERT的实验表明，该策略在相同数据和算力下，于多项法语和英语生物医学任务中均稳定优于纯MLM基线。分析发现，CLM的密集监督主要影响Transformer低层，其带来的表征变化在后续MLM阶段得以持续并随模型容量扩展。基于此方法发布的ModernCamemBERT-bio与ModernBERT-bio模型，成为当前先进的生物医学编码器。

数据/训练论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

WildRelight：面向单图像重光照的真实世界基准与物理引导自适应方法

本文介绍了首个专为单图像重光照评估设计的真实世界数据集WildRelight，包含多样化高分辨率户外场景，在严格对齐的时序自然光照下采集并配有环境贴图。基准测试揭示了当前基于合成数据训练的先进模型存在严重域偏移。利用该数据集严格对齐的时间结构，研究提出一种物理引导推理框架，将捕获的自然光演变作为自监督约束，通过结合扩散后验采样与时序感知的测试时自适应，成功将棘手的模拟到真实挑战转化为可处理的自监督任务。数据集与代码将公开以推动鲁棒且基于物理的重光照研究。

arXiv图像生成数据/训练论文/研究

15:44

HuggingFace Daily Papers（社区热门论文）

异步智能体强化学习中旧Logits缺失：离策略修正的语义不匹配与修复方法

异步强化学习提升语言模型智能体数据吞吐，但引发PPO离策略修正失效。重要性比率本应分解为训练-推理差异项和策略陈旧性项，但异步流水线常丢失旧Logits，导致修正语义混淆与阈值不良交互。研究提出精确修正方法，如快照版本追踪、专用模型和同步中断，并探讨近似修正路径。采用改进的PPO-EWMA方法，在训练速度和优化性能上均取得显著提升。

智能体arXiv论文/研究

15:44

HuggingFace Daily Papers（社区热门论文）

One Turn Too Late：针对多轮对话中隐藏恶意意图的响应感知防御

针对多轮对话中隐藏的恶意意图威胁，研究提出了一种新的防御方法，旨在检测并干预最早可能促成有害行为的关键对话轮次。该方法通过构建包含分支攻击推演、良性困难负例及最早危害促成轮次标注的多轮意图数据集（MTID）进行训练与评估。基于此训练的轮级监控器TurnGate在恶意意图检测上显著优于现有基线，同时保持较低的误拒率，并能跨领域、攻击流程和目标模型实现泛化。相关代码已开源。

安全/对齐论文/研究

14:44

HuggingFace Daily Papers（社区热门论文）

FATE：基于失败轨迹的智能体安全对齐在线自我进化框架

工具调用型LLM智能体的失败体现在整个轨迹中，而非仅最终响应。现有安全对齐方法常导致安全与效用权衡。研究提出FATE框架，通过在线策略自我进化，将验证器评分的失败轨迹转化为修复监督信号，无需专家示范。该方法引入帕累托前沿策略优化（PFPO），结合监督预热与帕累托优化以平衡安全与效用。在AgentDojo、AgentHarm和ATBench上的实验表明，FATE能显著提升多模型、多规模下的安全性，同时维持任务效用。具体而言，攻击成功率降低33.5%，有害指令遵从减少82.6%，外部轨迹安全诊断能力提升6.5%。这表明失败轨迹可为智能体安全进化提供有效监督。

智能体安全/对齐数据/训练论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

L2P：解锁潜在扩散模型在像素生成中的潜力

本文提出了一种高效的潜在到像素（L2P）迁移范式，能够直接利用预训练潜在扩散模型（LDM）的知识构建像素空间模型。该方法摒弃了VAE，采用大块标记化技术，并冻结源LDM的中间层，仅训练浅层来学习从潜在到像素的转换。通过仅使用LDM生成的合成图像进行训练，L2P能以极低开销（仅需8个GPU）将海量潜在先验迁移至像素空间。实验表明，该方法在DPG-Bench上与源LDM性能相当，在GenEval上达到其93%的性能，同时消除了VAE的内存瓶颈，实现了原生的4K超高清图像生成。

图像生成论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

世界动作模型：具身AI的新前沿

视觉-语言-动作模型虽在语义泛化上表现良好，但缺乏对物理动态的显式建模。为此，研究界正整合预测环境变化的世界模型，形成“世界动作模型”新范式。WAMs将状态预测与动作生成相统一，以未来状态与动作的联合分布为目标。现有方法可分为级联式与联合式两大类，其发展依托于机器人遥操作、人类演示、仿真及互联网规模第一人称视频等多元数据。评估聚焦于视觉保真度、物理常识与动作合理性。当前领域面临架构与目标碎片化的挑战，亟需建立统一框架。

具身智能论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

AlphaGRPO：通过可分解可验证奖励解锁统一多模态模型的自反思生成能力

本文提出AlphaGRPO框架，将分组相对策略优化应用于AR-Diffusion统一多模态模型，无需额外冷启动即可提升多模态生成能力。该框架解锁了模型执行高级推理（如推断用户隐含意图）和自反思优化（自主诊断并修正生成错位）的内在潜力。针对实际监督难题，团队设计了可分解可验证奖励机制，利用大语言模型将复杂请求分解为原子化、可验证的子问题，再通过通用多模态大模型评估，提供可靠且可解释的反馈。实验表明，AlphaGRPO在多个生成与编辑基准上均取得显著性能提升。

图像生成多模态推理论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

ToolCUA：面向计算机使用代理的最优GUI-工具路径编排

针对计算机使用代理在GUI操作与工具调用间切换决策困难的问题，本文提出ToolCUA。该方法采用分阶段训练：首先利用静态GUI轨迹合成基础工具库，生成多样化的GUI-工具交错轨迹；随后通过工具引导的GUI强化微调改进关键切换点决策；最后在高保真环境中进行在线代理强化学习，以鼓励工具高效使用。在OSWorld-MCP基准测试中，ToolCUA达到46.85%的准确率，相对基线提升约66%，证明了GUI-工具协同训练的有效性。

智能体论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

Lite3R：一种用于高效前馈式3D重建的模型无关框架

针对基于Transformer的多视图3D重建模型效率低下的问题，本文提出Lite3R框架。该框架采用模型无关的师生架构，以稀疏线性注意力替代密集注意力来降低计算开销，并引入参数高效的FP8感知量化训练策略。该策略结合部分注意力蒸馏，冻结大部分预训练骨干参数，仅微调轻量线性分支投影层，从而实现稳定的低精度部署。在VGGT和DA3-Large骨干网络上的实验表明，Lite3R在BlendedMVS和DTU64数据集上能显著降低延迟（1.7-2.0倍）和内存占用（1.9-2.4倍），同时保持整体重建质量的竞争力。

arXivGitHub多模态论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

MEME：多实体与演化记忆评估基准

研究团队推出MEME基准，用于评估大语言模型智能体在多会话持久环境中的记忆能力。该基准定义了涵盖多实体与演化信息两个维度的六项任务，其中级联、缺失和删除推理三项为先前工作未涉及。在100个受控片段上对三种记忆范式的六个系统进行评估发现，所有系统在默认配置下对依赖关系的推理能力均严重不足（级联任务平均准确率3%，缺失任务1%），尽管其静态检索性能尚可。提示优化、深度检索、减少干扰信息乃至使用更强的模型均未能显著缩小差距。仅当基于文件的智能体配合Claude Opus时，差距被部分缩小，但成本约为基线的70倍，表明当前解决方案难以大规模应用。代码与数据已公开。

智能体数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

LongMemEval-V2：评估智能体面向环境经验的长期记忆能力

研究团队推出长期记忆评估基准LongMemEval-V2，旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题，涵盖五项核心记忆能力，并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R，以及调用编码智能体收集证据的AgentRunbook-C。实验表明，AgentRunbook-C以72.5%的平均准确率取得最佳性能，显著优于基线方法，但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。

智能体arXiv论文/研究评测/基准

11:44

HuggingFace Daily Papers（社区热门论文）

VidSplat：利用几何引导视频扩散先验进行高斯泼溅重建

VidSplat是一个免训练的生成式重建框架，旨在解决高斯泼溅技术在输入视图稀少时性能显著下降的问题。该框架通过利用强大的视频扩散先验，迭代合成能够补偿缺失覆盖范围的新视角，从而从稀疏输入中恢复完整的3D场景。其核心创新包括：提出一种免训练的分阶段去噪策略，利用渲染的RGB和掩码图像自适应地将去噪方向引导至底层几何结构；开发了一种迭代机制，通过采样相机轨迹、探索未观测区域、合成新视图并进行置信度加权的精细化训练来增强重建。VidSplat对稀疏输入甚至单张图像均表现出鲁棒性，在广泛使用的基准测试中展现了卓越的稀疏视图场景重建性能。

多模态数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

Transformer中的几何事实记忆机制

本文挑战了Transformer通过权重矩阵线性记忆事实的传统观点，提出了一种几何记忆机制。在单层Transformer记忆随机双射的设定中，证明了对数嵌入维度即足够：主体嵌入编码属性向量的线性叠加，而小型MLP充当基于关系的选择器，通过ReLU门控提取相关属性，而非进行键值映射。研究进一步扩展到多跳关系查询，提供了包含与不包含思维链的构造，揭示了可证明的容量与深度权衡，并辅以信息论下界。实证表明，梯度下降能找到预测的结构化解；训练后，当主体嵌入重新初始化时，MLP能零样本迁移到全新双射，说明其学会了通用的选择机制，而非记忆特定事实。

数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

MoCam：通过结构化去噪动态实现统一的新视角合成

MoCam 提出了一种基于结构化去噪动态的新视角合成方法，旨在解决几何先验与外观先验在生成过程中的根本矛盾。该方法在扩散过程的早期阶段利用几何先验锚定粗略结构并容忍其不完整性，随后在后期阶段切换至外观先验以主动修正几何错误并细化细节。这种时序解耦设计自然统一了静态与动态视角合成。实验表明，MoCam 在点云存在严重孔洞或畸变时显著优于现有方法，实现了稳健的几何-外观解纠缠。

图像生成多模态论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

AutoLLMResearch：训练智能体以自动化大语言模型实验配置--从低成本学习，优化高成本实验

为应对高成本大语言模型实验自动化配置的空白，本文提出智能体框架AutoLLMResearch。其核心是通过一个基于超百万GPU小时实验结果构建的多保真度环境LLMConfig-Gym进行训练，使智能体能够从低成本“低保真”实验中学习通用原则，并外推至昂贵的高保真场景，从而高效识别有潜力的配置方案。评估表明，该框架在多种强基线对比中展现出有效性、泛化性与可解释性，为现实世界中可扩展的LLM实验自动化提供了实用解决方案。

智能体arXiv数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

LychSim：面向视觉研究的可控交互式仿真框架

LychSim是一个基于Unreal Engine 5构建的可控交互式仿真框架，旨在降低现代仿真平台的高技术门槛。其核心设计包括：一个简化底层引擎复杂性的Python API；一个能生成具有多样化分布外视觉挑战的高保真环境，并提供丰富2D与3D真实标注的程序化数据管线；以及原生集成的模型上下文协议，可将仿真器转变为支持推理型大语言模型的动态闭环测试平台。该框架支持语义对齐的3D标注与自动场景修改，已成功应用于合成数据生成、基于强化学习的对抗性评估及语言驱动的交互式场景布局生成等多个下游任务。LychSim将公开提供完整源代码与多种数据标注。

开源生态数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

CausalCine：用于多镜头视频叙事的实时自回归生成框架

研究团队提出CausalCine，一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示，并复用历史上下文。其核心是内容感知记忆路由（CAMR）机制，该机制依据注意力相关性动态检索历史关键信息，而非依赖时间邻近性，从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换，再将其蒸馏为少步生成器以实现实时交互。实验表明，CausalCine显著优于自回归基线，并接近双向模型能力，同时解锁了流式交互性。

arXiv多模态视频论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

δ-mem：面向大语言模型的高效在线记忆机制

本文提出δ-mem，一种轻量级在线记忆机制，用于增强大语言模型在长期任务中的历史信息利用能力。该方法在冻结的主干网络上，通过一个仅需8×8大小的紧凑关联记忆状态矩阵，以delta规则动态压缩更新过往信息，并在生成时读取该状态以产生低秩校正项来调整注意力计算。实验表明，δ-mem将平均性能提升至冻结主干模型的1.10倍，并达到最强非δ-mem记忆基线的1.15倍，在记忆密集型基准上增益更显著。该方法无需全量微调、替换主干或显式扩展上下文，即实现了有效的记忆功能。

智能体arXiv论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

超越GRPO与策略蒸馏：语言模型后训练中稀疏到稠密奖励的实证原则

研究提出一种基于奖励密度的数据分配原则：在标注数据稀缺时，应将稀疏的序列级奖励用于强化上游大模型的探索能力，再将习得的行为通过稠密的令牌级教师奖励蒸馏至下游小模型。实验基于Qwen3和Llama模型在可验证数学任务上进行验证。结果显示，在固定部署学生模型为Qwen3-1.7B的情况下，先对8B教师模型进行强化学习改进，再通过稠密蒸馏传递至学生模型，其效果优于直接对学生模型进行GRPO训练。核心操作原则是避免将稀缺标注数据用于准备最不充分的策略，而应遵循“教师端稀疏奖励探索-稠密蒸馏压缩-学生端稀疏奖励微调”的流程。

推理数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

图像即语句：用于统一视觉生成的交错指令扩展模型

针对现有方法在处理复杂交错指令时性能下降的问题，研究团队提出了INSET模型。该模型将图像作为原生词汇嵌入文本指令，通过将视觉特征直接定位在对应语义位置，利用Transformer的上下文局部性实现精确对象绑定。团队还开发了可扩展数据引擎，从标准数据集中合成了1500万个高质量交错样本。在InterleaveBench上的评估表明，INSET在多图像一致性和文本对齐上显著优于现有方法，且优势随输入复杂性增加而扩大。此外，该模型能自然扩展到多模态图像编辑领域，实现高度表达性的视觉操控。

图像生成多模态论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

超越最后一层：用于视觉分词的多层表征融合

现有视觉分词方法仅利用预训练编码器最后一层特征，丢弃了中间层的丰富信息。本研究提出DRoRAE，通过一个轻量级融合模块，采用能量约束路由与增量校正自适应聚合所有编码器层，生成与冻结解码器兼容的增强潜在表征。在ImageNet-256上，该方法显著提升了重建与生成质量。研究进一步揭示了融合能力与重建质量之间存在对数线性缩放规律，从而将表征丰富度确立为视觉分词器中一个新的、可预测的扩展维度。

图像生成多模态论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

从网络到像素：将智能搜索引入视觉感知

本文研究开放世界视觉感知，提出“感知深度研究”挑战，即需先借助外部事实、事件或长尾知识解析可见对象身份，再进行像素级定位。为此，作者发布了WebEye基准，包含120张图像、473个对象实例及三个任务视图，并提出了Pixel-Searcher智能搜索工作流。该工作流通过代理搜索解析目标身份并将其绑定至边界框、掩码或答案。实验表明，Pixel-Searcher在开源模型中性能最优，主要失败源于证据获取、身份解析和视觉实例绑定环节。

多模态搜索论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

基于评分标准的强化学习中的奖励黑客问题研究

本研究探讨了基于评分标准的强化学习中的奖励黑客现象。研究通过跨模型评审小组评估发现，奖励黑客源于两种分歧：验证器失效与评分标准设计局限。实验表明，弱验证器会产生无法迁移的代理奖励增益，且利用行为在训练中加剧；更强的验证器能显著减少但无法完全消除此问题。此外，研究引入基于策略对数概率的自内化差距诊断工具，可追踪参考验证器质量。最终结果显示，即便使用强验证器，若评分标准未涵盖关键失败模式，仍会出现奖励黑客，导致在满足部分标准的同时，事实准确性、简洁性等整体质量下降。

安全/对齐数据/训练论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

SenseNova-U1：基于NEO-unify架构统一多模态理解与生成

SenseNova-U1基于NEO-unify架构，首次将多模态理解与生成统一为单一原生范式，解决了传统视觉语言模型中两者割裂的问题。模型发布了8B参数稠密基线版本与30B激活参数混合专家基线版本。它们在文本理解、视觉语言感知、知识推理等任务上媲美顶尖纯理解模型，同时在图像合成、图文生成等任务中表现出优秀的语义一致性与视觉保真度。初步证据表明，该架构可进一步扩展至视觉语言动作与世界模型场景，为实现原生跨模态思考与行动提供了技术路径。

多模态论文/研究

10:44

HuggingFace Daily Papers（社区热门论文）

企业系统是否需要学习型世界模型？上下文对推断动态的重要性

企业系统的动态规则常因租户业务逻辑差异与演变而多变，导致依赖历史数据训练的离线世界模型在部署偏移时表现脆弱。本文提出“企业发现代理”，通过在运行时读取系统配置来实时发现动态规则，而非仅依赖内部固化模型。同时，推出了专注于级联推理的基准测试CascadeBench进行评估。实验表明，离线模型在分布内表现良好，但随规则变化性能下降；而基于发现的代理通过将预测锚定于当前实例，在部署偏移下展现出更强稳健性。结论认为，在可配置的企业环境中，智能体应结合运行时动态发现机制。

智能体推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

LoREnc：用于保护基础模型和LoRA适配器的低秩加密

当前基础模型与LoRA适配器在端侧AI部署中面临知识产权泄露和模型恢复攻击风险，现有防御需重训或依赖原始数据。LoREnc提出免训练保护框架，通过频谱截断抑制基础模型权重低秩分量，结合补偿机制与正交重参数化隐藏适配器结构指纹。授权用户可无损恢复性能，非授权用户获得结构崩溃输出。实验显示该方法能有效防止模型恢复，计算开销低于1%。

arXiv安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

KVServe：面向服务的KV缓存压缩实现高效通信的分布式LLM服务

在分布式LLM服务中，KV缓存的传输已成为性能瓶颈。现有压缩方案采用静态配置，无法适应动态变化的服务场景。KVServe是首个面向服务的自适应KV通信压缩框架，它统一了压缩策略空间，通过贝叶斯分析引擎将离线搜索开销降低50倍，并部署在线控制器动态调整策略。集成至vLLM后，KVServe在PD分离服务中实现最高9.13倍的任务完成时间加速，在KV分离服务中实现最高32.8倍的首token生成时间缩短。

推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

当视觉代言听觉

研究发现，现有顶尖的视频多模态大模型在理解声音时，常依赖视觉线索进行推断或“幻听”，而非真正处理音频，这种“视听聪明汉斯效应”普遍存在于主流模型中。为此，研究者提出了Thud干预探测框架，通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方，能将模型在干预测试上的平均表现提升28个百分点，同时也能略微改善通用视频问答的性能。

arXivGoogleOpenAI多模态

08:00

HuggingFace Daily Papers（社区热门论文）

Delta注意力残差网络：通过增量路由改进跨层信息传递

针对深度网络中传统注意力残差连接因累积状态冗余而导致路由能力受限的问题，本文提出Delta注意力残差机制。该方法不直接关注历史层的累积隐藏状态，而是关注每层子网络引入的增量变化（即输出差值）。这种增量表示结构更多样，能生成对比度更高的注意力分布，从而实现更精准、有效的跨层信息路由。在220M至7.6B参数规模的模型上进行的实验表明，该方法在验证集困惑度上相较于标准残差和标准注意力残差均有1.7%-8.2%的稳定提升，并可通过标准微调应用于预训练模型。

GitHub数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

模型自适应工具必要性揭示LLM工具使用中的知行差距

研究发现大语言模型在工具使用上存在系统性“知行差距”——模型认知判断需要工具与实际调用工具的行为存在显著不匹配。基于模型自适应定义评估显示，算术与事实问答场景下不匹配率分别达26.5%-54.0%和30.8%-41.8%。通过对模型内部表征的探测分析发现，不匹配主要发生在从认知判断到动作执行的转换环节，而非认知判断本身。这表明提升工具使用可靠性需同步优化认知识别和行动执行两个层面。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Physics-R1：一个经过审计的奥林匹克语料库与视觉物理推理方案

本研究审计了多模态物理评测流程，发现了三个未被察觉的构建问题：训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题，团队发布了四个关键成果：经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A，以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3，在PhysReason上提升至39.6，超越了Qwen3-VL-32B与Gemini 2.5 Pro。

arXiv多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

基于语言模型先验从观测中学习POMDP世界模型

本文提出了Pinductor，一种利用大语言模型作为先验知识，从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型，再通过基于信念的似然分数进行迭代优化。实验表明，尽管使用的信息更少，Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法，并显著超越传统基线。研究还发现，其性能随LLM能力增强而提升，并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。

智能体具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

CiteVQA：面向可信文档智能的证据归因评测基准

当前多模态大语言模型的文档问答评估仅核对答案，忽略了支撑证据的正确性。这掩盖了“归因幻觉”——模型可能给出正确答案，却引用了错误的文段，在法律等高风险领域构成重大风险。为此，研究团队推出了CiteVQA基准测试，要求模型为每个答案提供元素级的边界框引用，并对两者进行联合评估。该基准包含711份PDF文档、1897个问题，其核心评估指标“严格归因准确度”要求答案与引用区域均正确才计分。对20个模型的审计发现普遍存在该问题，最强模型的准确度也仅为76.0。CiteVQA揭示了仅评估答案所忽视的可靠性差距。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

预见性学习：揭秘On-policy蒸馏的高效性

本研究揭示On-policy蒸馏（OPD）的高效性源于其“预见性”，即在训练早期建立朝向最终模型的稳定更新路径。预见性体现在两个层面：在模块分配上，OPD能识别边际效益低的模块，集中资源于关键推理部分；在更新方向上，其主导子空间提前对齐最终更新，表现出低秩集中性。基于此，提出了EffOPD，一种无需额外模块的即插即用加速方法，通过自适应选择外推步长和沿当前方向移动，实现平均3倍训练加速且性能相当。这为OPD效率提供了参数动态视角，也为大语言模型后训练设计提供了实用思路。

推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HodgeCover：高阶拓扑覆盖驱动稀疏专家混合模型的压缩

研究提出HodgeCover方法，用于无需重新训练的稀疏专家混合模型压缩。该方法解决了现有压缩器的结构障碍：三个专家可能两两兼容，但合并后形成不可约循环。通过将专家间的KL合并障碍和三元组障碍建模为2-复形，并利用单纯形拉普拉斯算子的调和核进行霍奇分解，HodgeCover能精确隔离关键障碍。它采用贪心策略覆盖调和关键边和三元组关键三角形，混合变体还结合权重剪枝。在三个开源稀疏MoE骨干模型上的激进专家削减测试表明，HodgeCover在专家削减轴上匹配当前最优无学习基线，在混合轴的激进压缩前沿领先，并平衡所有霍奇分量的保留质量。

开源生态论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

提升全模态语言模型：基于视觉去偏评估的分阶段后训练

研究发现，现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题，可能夸大模型性能。为此，我们通过视觉探测清洗九个基准，构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型，提出了三阶段后训练方案OmniBoost：混合双模态监督微调、混合模态RLVR训练，以及在自蒸馏数据上的微调。实验表明，平衡的双模态微调提升有限，RLVR首次带来广泛改进，而自蒸馏则重塑了模型的基准表现。最终，该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展，且小模型可通过分阶段后训练与自蒸馏监督显著提升。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

CurveBench：一个用于嵌套Jordan曲线精确拓扑推理的基准测试集

CurveBench是一个视觉层次拓扑推理基准，包含756张互不相交的Jordan曲线图像，涵盖五种配置。每张图像标注了编码区域包含关系的根树，任务要求模型根据图像恢复完整的根包含树。尽管任务看似简单，但最强模型Gemini 3.1 Pro在简易集上树生成准确率仅71.1%，在困难集上仅为19.1%。通过对Qwen3-VL-8B模型进行RLVR风格微调，其在简易集上的准确率从2.8%提升至33.3%，超过了GPT-4o和Claude Opus。现有模型尤其在困难集上的巨大差距表明，精确的拓扑感知视觉推理问题尚未解决。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PRISM：基于扩散模型的文本图像超分辨率框架，实现先验校正与不确定性感知的结构建模

针对严重退化下文本图像超分辨率任务中全局先验不可靠与笔画边界模糊的挑战，本文提出PRISM框架。它通过流匹配先验校正模块，将退化嵌入映射至面向复原的先验空间，提供更准确的全局文本引导；同时利用结构引导的不确定性感知残差编码器，预测结构残差以选择性融合可靠的局部边界线索。该设计在单步扩散过程中同步实现了全局先验校正与局部结构细化。在合成与真实场景基准测试中，PRISM取得了最先进的性能，并保持毫秒级推理速度。相关代码与数据集已开源。

图像生成开源/仓库论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PanoWorld：迈向360度全景世界的空间超感知

针对多模态大模型在360度全景图像空间理解上的不足，研究提出PanoWorld模型。现有方法通常将全景图分解为透视图，忽略了其连续的球面几何结构。为此，本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据，并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上，PanoWorld显著超越了现有开源与专有基线。结果表明，稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。

arXiv具身智能多模态论文/研究