5月7日

12:22

HuggingFace Daily Papers（社区热门论文）

针对流式视频生成中候选探索成本高、缺乏时序引导的问题，研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元：流式缩放噪声传播利用历史高质量块噪声优化当前生成，建立时序依赖；流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估，平衡局部空间美学与全局时间连贯性；流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中，Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量，同时大幅降低了计算开销。

arXiv 推理论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

PhysForge：为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈，现有方法多忽视功能性。本文提出PhysForge，一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段，视觉语言模型担任“物理架构师”，规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段，基于物理的扩散模型通过新颖的运动体素注入机制，合成高保真几何与精确运动学参数。实验证明，PhysForge能生成功能合理、可直接仿真的资产，为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv 具身智能多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MobileEgo Anywhere：基于通用硬件的长时程自我中心数据开放基础设施

为解决VLA模型对长时程自我中心数据的需求与现有短时程数据集之间的矛盾，本文提出MobileEgo Anywhere框架。该框架利用智能手机传感器实现高精度位姿追踪，降低了数据采集的硬件门槛。主要贡献包括：发布了一个包含200小时多样化长时程轨迹的数据集，开源了移动数据采集应用，并提供了将原始数据转换为标准训练格式的完整处理流程。这实现了跨全球环境的大规模长时程数据获取，为机器人策略研究提供了关键数据支持。

arXiv 具身智能开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Relit-LiVE：通过联合学习环境视频实现视频重照明

Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于，将原始参考图像显式引入渲染过程，以恢复固有表示中丢失的关键场景信息；同时，通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图，增强了几何-光照对齐性，显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明，该方法在合成与真实场景基准测试中均优于现有先进方法，并支持场景渲染、材质编辑等下游应用。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

无需训练的多模态大语言模型密集手部接触估计方法

针对密集手部接触估计任务，本文提出了一种无需训练、零样本的方法ContactPrompt，以利用多模态大语言模型（MLLMs）的推理能力。该方法通过引入详细的手部分割和基于部分的顶点网格表示，有效编码了3D手部几何结构。同时，采用多阶段结构化接触推理与部分条件化机制，逐步融合全局语义理解与细粒度几何分析，从而实现精确的顶点级接触定位。实验表明，该方法在无需任何训练的情况下，性能优于此前基于大规模数据集训练的有监督方法，展现了MLLMs处理复杂视觉任务的潜力。代码将公开。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

X-OmniClaw技术报告：一个用于多模态理解与交互的统一移动智能体

本文介绍了X-OmniClaw，这是一个为安卓系统设计的统一移动智能体，旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块：Omni Perception提供统一的多模态输入管道，整合UI状态、视觉上下文与语音，并分解为结构化意图表示；Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆，以增强个性化与上下文感知；Omni Action采用结合XML元数据与视觉感知的混合落地策略，通过行为克隆与轨迹回放捕获用户导航技能，实现精确的直接访问执行。多场景演示表明，该系统能有效提升交互效率与任务可靠性，为下一代移动原生个人助手提供了实用蓝图。

智能体 arXiv 多模态端侧

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

反思强化学习对大语言模型推理的作用：是稀疏策略选择，而非能力学习

研究发现，强化学习改进大语言模型推理时，并非教授新策略，而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上，且所提升的token始终位于基础模型前5个备选之中。基于此，研究者提出无需强化学习的ReasonMaxxer方法，仅在熵选通的决策点施加对比损失，仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中，该方法达到或超越了完整强化学习的性能，而训练仅需数十道题目、数分钟的单GPU时间，成本降低约三个数量级。

arXiv 推理数据/训练论文/研究

推荐理由：这篇论文直接挑战当前主流 RL 训练范式，认为 RL 只是在选择已有策略而非学习新能力，并给出千分之一成本就能追平的替代方案，做 reasoning 的同行可以认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

PrefixGuard：从LLM智能体轨迹到在线故障预警监控器

PrefixGuard是一个将LLM智能体执行轨迹自动转换为在线预警监控器的框架。它通过离线的StepView归纳步骤，从原始轨迹样本中推导出确定性的类型化步骤适配器，并基于最终结果监督式地学习事件抽象和前缀风险评分器。在四个基准测试中，其最强监控器的AUPRC值分别达到0.900、0.710、0.533和0.557，平均比原始文本对照方法提升0.137 AUPRC。研究还揭示了基于AUPRC的观测性上限，并指出强排名不等同于部署实用性：例如在WebArena上难以实现低误报预警，而τ^2-Bench和TerminalBench则能保留更多可操作的早期预警。

智能体 arXiv 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

CPCANet：基于深度展开通用主成分分析的领域泛化方法

CPCANet是一种新颖的领域泛化框架，其核心是将通用主成分分析（CPCA）的迭代式Flury-Gautschi算法展开为完全可微的神经层。该方法将CPCA的统计特性融入端到端可训练框架，强制模型从不同领域中发现一个共享的、具有可解释性的子空间。在四个标准领域泛化基准测试上的实验表明，CPCANet在零样本迁移任务中取得了最先进的性能。该框架与具体网络架构无关，且无需针对特定数据集进行调优，为在分布偏移下学习鲁棒表征提供了一种简单高效的解决方案。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HumanNet：将人类中心视频学习扩展到百万小时

HumanNet是一个百万小时规模的人类中心视频数据集，涵盖第一和第三人称视角，包含精细活动、人-物交互、工具使用及长期行为。它提供交互中心标注，如描述文本、动作说明及身体信号，支持动作与交互感知学习。数据构建强调人类中心筛选、时序结构化、视角多样性和标注增强，将互联网视频转化为可扩展学习基础。实验表明，用其1000小时第一人称视频训练Qwen VLM模型，效果优于100小时真实机器人数据，提示人类视频可作为机器人数据的可扩展且经济高效替代。该项目旨在探索通过人类视频扩展具身基础模型。

arXiv 具身智能数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

EMO：为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型，旨在实现模块化部署，允许独立使用和组合专家子集，而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家，仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当，但关键优势在于支持选择性使用专家：仅保留25%的专家仅导致1%的绝对性能下降，保留12.5%时下降3%，而标准MoE在相同设置下会失效。此外，EMO中的专家子集在语义层面（如数学、代码等领域）实现专业化，不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv 推理论文/研究部署/工程

5月6日

12:20

HuggingFace Daily Papers（社区热门论文）

PatRe：一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限，本文提出了PatRe，首个模拟完整专利审查生命周期（包括审查意见生成与申请人答复）的基准。它包含480个真实案例，支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现，专有与开源模型性能存在差异，且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时，兼具潜力与当前局限。相关代码与数据集已开源。

arXiv 论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

SymptomAI：面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中，SymptomAI的诊断准确性显著高于独立临床医生（OR = 2.47）。采用专用症状访谈策略（在诊断前获取额外信息）的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外，利用SymptomAI诊断标签分析超50万天可穿戴数据发现，急性感染（如流感）与生理指标变化存在强关联（OR > 7）。

智能体 arXiv 论文/研究

10:20

HuggingFace Daily Papers（社区热门论文）

交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力，研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集，并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题，研究设计了一个统一的动作生成框架，构建了六类任务共4900个测试样本，以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估，研究揭示了当前关键局限，为未来方向提供了见解。相关排行榜已公开。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FaithfulFaces：面向文本到视频生成的面部姿态忠实身份保持

现有身份保持文本到视频生成方法在面部姿态变化或遮挡时常出现身份失真。为此，研究团队提出FaithfulFaces框架，其核心是一个姿态共享身份对齐器，通过姿态共享字典与姿态变化-身份不变性约束，在不同视角间对齐面部姿态，并将单视角输入映射为包含显式欧拉角嵌入的全局面部姿态表示，为生成模型提供忠实的面部先验。团队还构建了一个包含丰富姿态变化的高质量视频数据集用于训练。实验表明，该框架在动态复杂场景中实现了最先进的性能，能有效保持身份一致性与结构清晰度。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越检索：代码搜索的多任务基准与模型

本文提出了CoREB，一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准，并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建，采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括：专用代码嵌入在代码到代码检索上优势显著（约2倍于通用编码器），但无单一模型全胜；接近真实开发者搜索的短关键词查询会使所有模型性能骤降；现有重排序器存在任务不对称性，而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。

arXiv 搜索编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RemoteZero：无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督，这限制了其在海量无标注遥感数据上的自我进化。为此，研究团队提出RemoteZero框架，它利用多模态大语言模型在判别区域语义方面的优势，以内在语义验证取代几何坐标监督，从而实现了无需边界框标注的训练。该框架支持迭代式自我进化，模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明，RemoteZero在定位任务上取得了与强监督方法相竞争的性能，展现了自验证训练在地理空间推理领域的潜力。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

零样本逻辑规则归纳的基础模型

研究团队提出神经规则归纳器（NRI），一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限，转而使用类条件率、熵等与领域无关的统计属性来表征文字，从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器，后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行，支持仅基于预测准确性的端到端训练。评估表明，NRI在规则恢复、对噪声和虚假相关性的鲁棒性，以及在真实世界基准上的零样本迁移方面表现良好，为符号推理的基础模型开辟了新可能。

arXiv 推理论文/研究

04:17

HuggingFace Daily Papers（社区热门论文）

一种缩小游戏引擎合成数据集中 Sim2Real 外观差异的混合方法

研究提出一种混合方法，旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明，传统模型 REGEN 在性能上优于 FLUX.2-4B Klein，而将两者结合使用的混合方法，能够比单独使用任一模型获得更好的视觉真实感，同时保持语义一致性。相关代码已在 GitHub 开源。

arXiv 图像生成数据/训练论文/研究

5月5日

12:17

HuggingFace Daily Papers（社区热门论文）

感知流网络：面向视觉推理的感知与推理解耦方法

大型视觉语言模型因优化目标无法约束视觉轨迹，易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督，但偏向几何精度且推理效用有限。为此，本研究提出感知流网络，通过解耦感知与推理建立自条件生成过程，并借助变分强化学习整合多维奖励与邻近几何塑造，从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证，在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数，创造了新的性能记录。

arXiv 多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

反思推理密集型检索：在智能体搜索系统中评估与提升检索器

推理密集型检索旨在为下游推理提供证据支持，而非仅匹配主题相似性，这对需要迭代搜索与证据合成的智能体搜索系统至关重要。针对现有评估与训练的不足，研究发布了BRIGHT-Pro专家标注基准，为每个查询扩展了多维度黄金证据，并在静态与智能体搜索两种协议下评估检索器。同时，研究构建了RTriever-Synth合成语料库，通过生成互补正例和正例条件硬负例，对Qwen3-Embedding-4B进行LoRA微调得到RTriever-4B。实验表明，维度感知与智能体评估能揭示标准指标所掩盖的检索行为，而RTriever-4B相比其基础模型取得了显著提升。

arXiv MCP/工具检索增强推理

5月4日

08:00

HuggingFace Daily Papers（社区热门论文）

通过协作式逐步多教师解码蒸馏长链式思维推理

为解决大模型推理成本高昂的问题，研究者提出了协作式多教师解码框架CoRD。该框架通过基于预测困惑度的评分和束搜索，引导多个异构大模型协同构建连贯的推理轨迹，解决了现有方法中教师间缺乏协作、推理冗余的问题。实验表明，CoRD能生成更高质量的推理数据，使学生模型以更少的监督信号达到接近教师模型的性能，且效率开销小。该方法在跨领域和开放性任务中泛化能力良好，相关数据集和模型已开源。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Q-RAG：基于价值嵌入器训练的长上下文多步检索方法

检索增强生成（RAG）方法通过筛选相关上下文提升大型语言模型性能，但传统单步检索难以应对复杂问题。现有多步检索方法通常微调小型LLMs，资源消耗大且无法利用更大模型。本研究提出Q-RAG，采用强化学习微调嵌入器模型以实现多步检索，避免了资源密集问题。该方法在开放域问答任务中提供资源高效的替代方案，并在长上下文基准测试BabiLong和RULER上取得最先进结果，支持高达1000万词元的上下文。代码已开源。

arXiv GitHub 检索增强推理

08:00

HuggingFace Daily Papers（社区热门论文）

KinDER：机器人学习与规划的物理推理基准测试

KinDER是一个针对机器人学习与规划中物理推理挑战的基准测试平台。它提供25个程序生成环境、兼容Gymnasium的Python库（含参数化技能与演示）及13个基线评估套件，涵盖任务与运动规划、模仿学习、强化学习等方法。平台聚焦五大核心挑战：基础空间关系、非抓握多物体操控、工具使用、组合几何约束和动态约束，剥离了感知与语言理解等复杂性。实验表明，现有方法在多数环境中表现不佳，揭示物理推理能力显著不足。此外，通过移动机械臂的实-仿-实实验验证了仿真与真实交互的对应性。KinDER已开源，旨在推动物理推理研究的系统化比较。

arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ARIS：通过对抗性多智能体协作实现自主研究

ARIS是一个开源自主研究框架，旨在通过对抗性多智能体协作机制提升长周期研究工作的可靠性。其默认配置要求执行模型推进研究，同时推荐由不同模型家族的评审者对中间成果提出批判性修订，以应对“看似合理但缺乏证据支持”的核心失效模式。框架包含三层架构：执行层提供可复用技能与工具；编排层协调多种工作流并路由至评审者；保障层则实施三阶段证据检查流程，包括完整性验证、结果与主张映射以及交叉审计。原型系统还包含一个需经评审批准的自改进循环。

智能体 arXiv MCP/工具开源/仓库

08:00

HuggingFace Daily Papers（社区热门论文）

TTS-STT飞轮系统：合成实体密集音频弥补印度语言ASR在细分领域的性能差距

针对数字、地址、品牌名等细分领域的印度语言自动语音识别，现有开源与商业系统表现不佳。研究通过构建自循环的TTS-STT飞轮系统，以低成本合成了约2.2万条印英混合的实体密集语音数据。基于此数据对开源模型进行LoRA微调后，在泰卢固语测试集上的实体命中率提升至0.473，较最佳开源模型提升17倍，较商业系统提升3倍，同时在通用数据集上的词错误率仅小幅增加。该方法在印地语和泰米尔语上也验证有效，并确认了合成数据向真实语音的迁移能力。全部代码、测试集与语料库均已开源。

arXiv GitHub 数据/训练论文/研究

5月3日

08:00

HuggingFace Daily Papers（社区热门论文）

Linear-Time Global Visual Modeling without Explicit Attention

研究提出新视角，将注意力机制数学重构为具有动态预测参数的多层感知机，从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此，研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模，同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究，证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案，为高效序列建模开辟了新途径。相关代码已开源。

arXiv GitHub 推理论文/研究

00:49

Hacker News 热门（buzzing.cc 中文翻译）

大型语言模型（LLMs）总是更倾向于选择自己生成的简历，而非人类或其他模型生成的简历

一项研究发现，大型语言模型在评估简历时，持续表现出对自身生成简历的偏好，而非人类或其他模型生成的版本。研究基于对GPT-4、Claude等主流模型的测试，模型选择自己生成简历的比例显著高于随机水平。这一现象揭示了LLMs可能存在的“自我偏好”偏差，对其在招聘、内容审核等实际应用中的客观性提出了重要警示。

arXiv 安全/对齐论文/研究

5月2日

08:00

HuggingFace Daily Papers（社区热门论文）

证据链：面向迭代检索增强生成的像素级视觉归因框架

针对迭代检索增强生成在解析文本时存在的证据定位粗粒度与视觉语义丢失问题，本研究提出了“证据链”框架。该框架与检索器无关，直接利用视觉语言模型对检索到的文档截图进行推理，无需针对特定格式进行解析，并能输出精确的边界框以可视化完整推理链条。在Wiki-CoE和SlideVQA两个基准上的实验表明，经微调的Qwen3-VL-8B-Instruct模型表现稳健，在需要视觉布局理解的场景中显著优于基于文本的基线方法，为像素级可解释的iRAG提供了一个通用解决方案。代码已开源。

arXiv 检索增强多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SplAttN：通过高斯软光栅化和注意力桥接2D与3D的点云补全

多模态点云补全中，硬投影易导致跨模态熵崩溃，阻碍视觉先验传播。为此，SplAttN提出一种新方法，以可微分高斯光栅化替代硬投影，将投影转化为连续密度估计，生成密集连续的图像平面表示。这避免了稀疏支持问题，改善了梯度流动与跨模态连接学习能力。实验显示，SplAttN在PCN和ShapeNet-55/34数据集上达到最先进性能。在KITTI真实场景基准测试中，反事实评估表明，SplAttN能保持对视觉线索的强健依赖，而基线模型则退化为对视觉移除不敏感的单模态模板检索器，验证了其有效建立跨模态连接。代码已开源。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

幻觉损害信任；元认知是前进方向

尽管生成式AI的事实可靠性已提升，但幻觉错误仍是核心问题，即使在简单问答中前沿模型仍会产生幻觉。当前事实性改进主要源于扩大模型的知识边界，而非增强对边界的认知能力。模型可能难以完美区分已知与未知，导致消除幻觉与保持实用性之间存在权衡。若将幻觉理解为“自信的错误”，则可通过表达不确定性开辟新路径——忠实不确定性，即语言表达与内在不确定性保持一致。这是元认知的一个方面，对于直接交互需诚实传达不确定性，对于智能体系统则成为控制层，决定何时搜索与信任何种信息。元认知是实现大语言模型既可信又有能力的关键。

arXiv 安全/对齐论文/研究

5月1日

23:15

HuggingFace Daily Papers（社区热门论文）

FlashRT：面向提示注入与知识腐蚀的高效红队测试框架

针对长上下文大语言模型在优化式红队测试中计算与内存消耗巨大的问题，研究人员提出了FlashRT框架。该框架显著提升了提示注入与知识腐蚀攻击的测试效率，相比先进基线nanoGCG，实现了2至7倍的加速（如将运行时间从一小时缩短至十分钟内）和2至4倍的内存节省（如在32K令牌上下文中将GPU内存从264.1 GB降至65.7 GB）。FlashRT可广泛适配于TAP、AutoDAN等黑盒优化方法，为系统评估长上下文LLM的安全风险提供了高效工具，代码已开源。

arXiv 安全/对齐论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

ExoActor：以第三人称视频生成为可泛化交互式人形控制

人形机器人流畅的富交互行为建模是一大挑战。ExoActor提出新框架，利用大规模视频生成模型的泛化能力，将任务指令与场景上下文输入，通过第三人称视频生成技术合成隐含机器人、环境与物体协调交互的合理执行过程，再将其转化为可执行的人形机器人行为序列。实验表明，该端到端系统能泛化至新场景且无需额外真实数据收集，为建模富交互行为提供了可扩展路径，有望推动通用人形智能发展。

arXiv 具身智能论文/研究

12:14

HuggingFace Daily Papers（社区热门论文）

基于验证推理的强化学习在图像编辑中的应用

针对图像编辑中缺乏通用奖励模型的问题，本研究提出Edit-R1框架。该框架构建了一个基于思维链的推理奖励模型，通过将编辑指令分解为多项原则进行细粒度评估，生成可解释的奖励信号。为训练此模型，研究采用监督微调进行“冷启动”，并引入群体对比偏好优化算法，利用人类成对偏好数据强化模型。实验表明，该推理奖励模型在编辑任务上超越了Seed-1.5-VL等视觉语言模型，且性能随参数规模从3B增至7B持续提升。最终，该框架成功提升了如FLUX.1-kontext等下游图像编辑模型的效果。

arXiv 图像生成论文/研究

10:14

HuggingFace Daily Papers（社区热门论文）

表征弗雷歇损失用于视觉生成

本研究提出FD-loss，通过将弗雷歇距离（FD）估计所需的大规模样本量与梯度计算的小批量解耦，首次将其有效优化为训练目标。该方法在不同表征空间中对基础生成器进行后训练，能持续提升样本视觉质量，并在Inception空间下使单步生成器在ImageNet 256x256上达到0.72的FID。FD-loss无需蒸馏或对抗训练，即可将多步生成器转化为高性能单步模型。研究同时发现，仅依赖Inception FID可能误导质量评估，因此提出了多表征度量指标FDr^k。这项工作推动了分布距离在生成模型的训练与评估中的进一步探索。

arXiv 图像生成数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向定制化多模态角色扮演

本文提出定制化多模态角色扮演任务，旨在统一模型中协同实现角色人格、对话风格与视觉身份的定制，并保持跨模态输出的一致性。研究构建了包含20个角色的RoleScape-20数据集，并开发了名为UniCharacter的两阶段训练框架，包含统一有监督微调与角色特定组相对策略优化。仅需10张图像及对应交互样例，模型即可习得目标角色特征，并在文本与图像生成中展现一致的角色表现，训练约需100 GPU小时。实验表明，该方法显著优于现有方案，消融研究验证了其跨模态一致性设计与小样本定制策略的有效性。

arXiv Hugging Face 多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

CGM-JEPA：通过预测性自监督预训练学习一致的连续血糖监测表征

研究团队提出CGM-JEPA自监督预训练框架及其扩展X-CGM-JEPA，以解决连续血糖监测（CGM）在跨模态、跨场景部署时的表征迁移与一致性问题。该方法通过预测掩码的潜在表征，并结合跨视图的血糖密度目标，从大规模无标签CGM数据中学习高层次时空与分布结构。在三个临床队列的评估中，X-CGM-JEPA在所有测试机制下对两个代谢终点的预测性能均位列前二，最高超越基线6.5个百分点。该模型在保持平均性能的同时，显著缩小了种族间的性能差异，并在稀疏静脉数据上提升了聚类效果。

arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于扩散策略的隐藏奖励恢复

本文提出EnergyFlow框架，通过参数化一个标量能量函数，将生成式动作建模与逆强化学习统一起来。该框架证明，在最大熵最优性下，通过去噪分数匹配学到的分数函数可恢复专家软Q函数的梯度，从而无需对抗训练即可提取奖励。理论分析表明，约束学习场为保守场能降低假设复杂性并收紧分布外泛化界限。实验显示，EnergyFlow在各种操作任务上实现了最先进的模仿性能，其提供的奖励信号在下游强化学习中优于对抗性IRL和基于似然的方法。这表明有效的奖励提取约束本身即是有益于策略泛化的归纳偏置。

arXiv GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越SFT到RL：基于黑盒在线策略蒸馏的多模态RL预对齐方法

针对大型多模态模型后训练中SFT阶段引发的分布漂移问题，研究团队提出了PRISM三阶段流程。它在监督微调与强化学习验证奖励之间，新增了一个基于在线策略蒸馏的显式分布对齐阶段。该阶段将对齐构建为策略与混合专家判别器之间的黑盒对抗游戏，由感知和推理专家提供解耦的纠正信号。团队使用来自Gemini 3 Flash的11.3万条高保真演示进行对齐。在Qwen3-VL上的实验表明，PRISM能持续提升下游强化学习性能，使4B和8B模型在多个基准上的平均准确率较基线分别提升4.4和6.0个百分点。

arXiv GitHub 多模态推理

08:00

HuggingFace Daily Papers（社区热门论文）

BlenderRAG：基于检索增强代码合成的高保真3D物体生成

BlenderRAG是一个检索增强生成系统，能够从自然语言描述自动生成可执行的Blender代码。该系统基于一个包含500个经专家验证的多模态样本（文本、代码、图像）的数据集，覆盖50种物体类别。在代码生成过程中，系统通过检索语义相似的示例来引导大语言模型，从而将四大前沿模型的代码编译成功率从40.8%显著提升至70.0%，并将语义对齐度（CLIP相似度）从0.41提高到0.77。该方法无需对模型进行微调或使用专用硬件，可立即部署使用。相关数据集和代码已在GitHub开源。

arXiv GitHub 检索增强多模态