5月8日

08:00

HuggingFace Daily Papers（社区热门论文）

循环LLM架构（如Ouro）通过迭代更新内部表征进行推理，但其标准KV缓存导致内存消耗随推理深度线性增长，限制了可扩展性。本研究提出高效内存循环Transformer（MELT），通过每层共享一个跨循环的KV缓存，并利用可学习的门控机制更新缓存，从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法：插值过渡与注意力对齐蒸馏。实验表明，基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM，同时内存占用与标准模型相当，远低于Ouro，实现了不牺牲性能的恒定内存迭代推理。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

BalCapRL：基于强化学习的平衡型多模态大语言模型图像描述框架

针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题，研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量，通过采用GDPO风格的奖励解耦归一化处理连续值奖励，并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明，该方法能一致提升描述质量，不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于量规的在线策略蒸馏

针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题，本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率，仅需教师生成的响应即可工作，实现了黑盒兼容。ROPD通过对比师生响应差异，自动生成针对特定提示的量规，并据此对学生模型输出进行评分与在线策略优化。实验证明，该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法，样本效率最高可提升10倍，为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。

arXiv GitHub 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ModelLens：从海量模型中为你的任务寻找最佳模型

开源生态拥有数十万个预训练模型，但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池，或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录，通过学习模型-数据集-指标三元组的性能感知潜在空间，可直接为未见过的数据集推荐未见过的模型，无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中，其性能超越了依赖元数据或需运行每个候选模型的基线方法，并能将多种路由方法的性能提升高达81%，在文本和视觉-语言任务上展现了泛化能力。

arXiv Hugging Face 多模态开源生态

08:00

HuggingFace Daily Papers（社区热门论文）

以轨迹为师：基于能量导航蒸馏的少步离散流匹配

针对离散流匹配生成文本需数百步迭代的问题，本研究提出轨迹塑形离散流匹配方法。传统蒸馏中，由随机跳跃构建的轨迹质量是性能瓶颈。新方法引入轻量级“能量罗盘”，在训练时评估并选择最连贯的候选序列来引导轨迹生成，此过程仅增加训练成本。在1.7亿参数语言建模任务中，经塑形的8步学生模型比1024步教师模型困惑度降低32%、速度提升128倍，且在不同数据与模型规模上表现一致。该方法取得了优于所有对比基线的最佳困惑度，包括使用更多数据或更大模型的方案。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

MatryoshkaLoRA：一种用于大语言模型微调的学习精确层次化低秩表示的通用框架

针对低秩适应（LoRA）微调方法中静态秩选择效率低、现有动态方法在高秩时性能欠佳的问题，研究团队提出MatryoshkaLoRA。该框架通过在现有LoRA适配器间插入一个固定的对角矩阵P，来相应地缩放其子秩，从而学习精确的层次化低秩表示。这一简单修改确保了所有子秩都能高效利用梯度信息，支持动态秩选择且精度损失最小。团队同时提出了“秩精度曲线下面积”（AURAC）评估指标。实验表明，该方法相比现有秩自适应方法能学习到更精确的表示，并在多个数据集上实现了更优的精度与性能权衡。代码已开源。

arXiv 开源生态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

从误差控制动力学角度重新思考循环模型中的状态追踪

循环模型状态追踪理论长期聚焦于表达能力，但误差控制同样关键，它主导着隐藏状态在区分符号状态方向上的漂移。研究证明，包含状态空间模型和线性注意力在内的仿射循环网络，一旦保存状态表示，就无法纠正沿状态分离子空间的误差。因此，实际模型学到的并非鲁棒的状态追踪，而是受累积误差控制的有限时域解。分析表明，仅当累积的类内扩散相对于初始类间分离较小时，追踪结果才可读。在群体状态追踪任务上的实验证实，当可区分比率超过解码器可读阈值时，追踪会崩溃，且该临界点能准确预测下游任务失效的时域。这表明，鲁棒的状态追踪不仅取决于架构的理论表达能力，更关键地取决于其误差控制能力。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SpecBlock：一种具有动态树草案生成的块迭代推测解码方法

SpecBlock是一种新型块迭代推测解码草案器，旨在融合路径依赖性与低成本生成。其核心在于每次前向传播生成一个包含K个连续依赖位置的“块”，通过重复块扩展构建草案树。关键技术包括：块内层间移位传递隐藏状态；跨块机制允许新块从旧块任意位置继承路径状态；协同训练的排序头动态分配分支，取代固定Top-K树；有效前缀掩码优化训练目标。部署时采用成本感知赌博算法，仅当预期吞吐增益超过更新成本时才利用验证器反馈选择性更新草案器。实验表明，在仅消耗EAGLE-3草案成本44-52%的情况下，SpecBlock将平均加速比提升了8-13%，成本感知自适应进一步将优势扩大至11-19%。

arXiv 推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SCOPE：面向复杂图像生成的结构化分解与条件技能编排框架

针对复杂图像生成中语义承诺难以持续追踪的“概念断层”问题，本文提出了SCOPE框架。该框架通过维护一个动态演化的结构化规范来管理语义承诺，并围绕未解决或被违反的承诺，有条件地调用检索、推理和修复等技能。为评估承诺级别的意图实现效果，研究构建了人工标注基准Gen-Arena并提出了严格的“实体门控意图通过率”指标。实验表明，SCOPE在Gen-Arena上以0.60的EGIP显著超越所有基线模型，在WISE-V和MindBench基准上也表现出色，验证了持续承诺跟踪的有效性。

arXiv 图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

通过双层路由混合专家将持续学习扩展至300多个任务

研究团队提出名为CaRE的持续学习模型，其核心是创新的双层路由混合专家（BR-MoE）机制。该机制通过动态激活任务特定路由器和专家网络，将判别性与综合性特征注入模型各层，有效平衡了学习的稳定性与可塑性。为评估长任务序列性能，团队发布了包含数百个任务的OmniBenchmark-1K数据集。实验表明，CaRE在经典任务序列（5-20个任务）及超长序列（100至300多个非重叠任务）上均大幅领先现有基线，成为首个可扩展至300多个任务的持续学习器。代码与数据集已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

各向异性模态对齐

多模态大语言模型训练受限于高质量配对数据稀缺。现有方法利用预训练多模态对比模型的共享表示空间进行单模态训练，但跨模态表示互换性受模态鸿沟阻碍。研究发现，模态鸿沟并非全局偏移，而是集中于少数主导方向的各向异性残差结构。基于此，提出各向异性模态对齐原则，设计几何校正框架AnisoAlign，利用目标模态内部几何先验对源模态表示进行有界校正，构建目标模态替代表示。实验验证该方法在几何诊断和纯文本MLLM训练中的有效性，将模态鸿沟转化为可校正的结构化几何现象，为单模态数据训练多模态模型提供新对齐视角。

arXiv 多模态数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HyperEyes：面向并行多模态搜索代理的双粒度效率感知强化学习

针对现有多模态搜索代理顺序处理实体导致效率低下的问题，本文提出HyperEyes。它将视觉定位与检索融合为单一原子操作，支持对多实体进行并行搜索，并将推理效率作为核心训练目标。其训练采用双阶段策略：首先通过并行适配数据合成流程进行冷启动监督；随后运用双粒度效率感知强化学习框架，在宏观层面通过动态收紧参考的轨迹级奖励抑制冗余工具调用，在微观层面利用策略蒸馏注入密集的令牌级纠正信号。研究还构建了人工标注基准IMEB以同时评估搜索能力与效率。实验表明，HyperEyes-30B在六个基准上以平均减少5.3倍工具调用轮次的代价，在准确率上超越最强开源代理9.9%。

智能体 arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

大语言模型自我改进：用于测试时扩展的智能体发现框架

研究团队提出环境驱动框架AutoTTS，将测试时扩展策略设计转化为可自动探索的环境构建问题。该框架将宽度-深度扩展形式化为对预收集推理轨迹的控制器合成，通过Beta参数化使搜索可行，并利用细粒度执行轨迹反馈提升效率。在数学推理基准测试中，自动发现的策略在准确率-成本权衡上优于人工基线，并能泛化至未见过的任务和模型规模，整个发现过程仅需39.9美元和160分钟。相关代码与数据已开源。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

STARFlow2：连接语言模型与标准化流以实现统一多模态生成

为构建真正统一的文本-图像序列生成模型，研究团队提出STARFlow2。该模型基于Pretzel架构，通过残差跳跃连接垂直交织预训练视觉语言模型流与TarFlow流，两者共享因果掩码。结合深浅流设计与统一的FAE潜在空间，STARFlow2实现了缓存友好的交错生成，文本与视觉输出可直接进入KV缓存而无需重新编码。实验证明，该模型在图像生成与多模态理解任务上均表现优异，验证了自回归标准化流作为统一多模态建模基础的可行性。

arXiv 图像生成多模态论文/研究

01:06

elvis@omarsar0

研究显示，多智能体LLM系统在生产环境中的故障率高达41%至87%，且多数失败源于协调缺陷，而非基础模型能力问题。当前多数架构对比无法区分性能提升是来自协调优化还是更大的上下文窗口。该研究主张将协调视为一个独立、可配置的架构层，并通过控制变量实验验证：在保持LLM、工具、提示等所有条件不变时，仅改变协调结构即可显著影响系统表现。这为准确评估协调机制的价值提供了更清晰的方法论，并建立了将协调视为核心架构而非底层实现的理论框架。

DAIR.AI: Pay attention to this one if you build multi-agent systems. Coordination is as important as prompts or agent architectur...

智能体 arXiv 论文/研究部署/工程

5月7日

23:22

HuggingFace Daily Papers（社区热门论文）

首个词元即知晓：单次解码置信度用于幻觉检测

研究发现，仅通过单次贪婪解码中首个内容答案词元的归一化熵计算置信度指标 phi_first，就能有效检测大语言模型在闭卷事实问答中的幻觉。在三个7-8B指令微调模型和两个基准上，phi_first 的平均AUROC达0.820，优于需多次采样的语义一致性方法（0.793）和标准表层自洽性方法（0.791）。该指标与语义一致性呈中到强相关，两者结合提升有限，表明模型在首个词元分布中已包含了多样本一致性所捕获的大部分不确定性信息，可作为低成本基线指标。

arXiv 安全/对齐推理论文/研究

23:06

Hacker News 热门（buzzing.cc 中文翻译）

ProgramBench：语言模型能否从头重建程序？

研究提出ProgramBench基准，用于评估语言模型能否仅根据问题描述从头生成完整且可执行的程序。该基准包含2,000个编程问题，覆盖多种难度与类型，要求模型输出可直接运行的代码。测试显示，当前先进模型在此任务上表现仍不理想，准确率较低，突显了语言模型在复杂、无示例编程任务中的局限性。这项工作为衡量模型的实际编程能力提供了新工具。

arXiv 编码论文/研究

18:22

HuggingFace Daily Papers（社区热门论文）

何时思考，何时输出：学习大语言模型推理的披露策略

针对单流自回归接口中“思考”与“输出”耦合导致的“沉默税”问题，本研究提出了“并排交错推理”方法。它将披露时机转化为可控决策，允许模型在同一上下文中交错进行私有推理和部分内容披露，仅当推理充分支持时才释放内容。通过构建蕴含对齐的交错轨迹进行监督微调，并结合强化学习恢复推理性能。在Qwen3系列模型上的实验表明，该方法在AIME25和GPQA-Diamond基准测试中，有效改善了准确性、内容产出与延迟之间的帕累托权衡。

arXiv 推理论文/研究部署/工程

18:16

IT之家（RSS）

小米开源 OmniVoice 多语言语音克隆 TTS，号称一个模型搞定 600 余种语言

小米AI实验室开源多语言语音克隆TTS模型OmniVoice，覆盖600余种语言。该模型采用极简双向Transformer架构，无需复杂结构即可实现文本到语音的直接转换。其语音合成质量超越同类主流模型，训练速度可达一天10万小时。关键设计包括全码本随机掩蔽策略和引入大语言模型预训练参数，显著提升训练效率与语音可懂度。测试显示，在多种语言中其相似度与可懂度超越多款商用系统，并对低资源小语种也能实现高质量合成。模型还支持自定义音色、带噪音频适配等实用功能。

arXiv GitHub 多模态开源生态

13:22

HuggingFace Daily Papers（社区热门论文）

精选75

OpenSearch-VL：前沿多模态搜索智能体的开源方案

研究团队推出完全开源的OpenSearch-VL方案，用于训练前沿多模态深度搜索智能体。该方案包含三大核心：通过维基百科路径采样、模糊实体重写和视觉定位构建的高质量训练数据集（包括用于微调的SearchVL-SFT-36k和用于强化学习的SearchVL-RL-8k）；统一文本搜索、图像搜索、OCR及图像处理工具的多样化环境；以及能处理级联工具失败的多轮致命错误感知GRPO训练算法。基于此训练的智能体在七个基准测试中平均提升超过10分，在多项任务上达到与专有商业模型相当的水平。所有数据、代码和模型均将开源。

智能体 arXiv 多模态论文/研究

推荐理由：把多模态搜索 agent 的完整训练配方开源了，数据、环境、算法全都有，七个基准平均涨 10 点，直接对标商业模型，做深度搜索的同学可以无脑跟。

12:22

HuggingFace Daily Papers（社区热门论文）

基于上下文稀疏注意力的闪电式统一视频编辑

针对上下文学习视频编辑中的计算瓶颈，研究团队提出首个近无损稀疏框架ISA。该框架基于上下文令牌显著性低、查询锐度与近似误差相关两项发现，采用预选择策略修剪冗余上下文，并通过动态查询分组机制，将高误差查询路由至完整注意力、低误差查询路由至高效的零阶泰勒稀疏注意力。结合新建的170万高质量视频数据集，团队构建了LIVEditor模型。实验表明，该模型在注意力模块延迟降低约60%的同时，在多个评测基准上超越现有先进方法，实现了近无损加速并保持了视觉保真度。

arXiv 多模态视频论文/研究

12:22

HuggingFace Daily Papers（社区热门论文）

Stream-T1：面向流式视频生成的测试时缩放框架

针对流式视频生成中候选探索成本高、缺乏时序引导的问题，研究团队提出了首个综合性测试时缩放框架Stream-T1。该框架包含三个核心单元：流式缩放噪声传播利用历史高质量块噪声优化当前生成，建立时序依赖；流式缩放奖励剪枝结合短期与基于滑动窗口的长期评估，平衡局部空间美学与全局时间连贯性；流式缩放记忆沉淀根据奖励动态管理KV缓存上下文。在5秒和30秒视频基准测试中，Stream-T1显著提升了时间一致性、运动平滑度与帧级视觉质量，同时大幅降低了计算开销。

arXiv 推理论文/研究

11:22

HuggingFace Daily Papers（社区热门论文）

PhysForge：为交互式虚拟世界生成基于物理的3D资产

针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈，现有方法多忽视功能性。本文提出PhysForge，一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段，视觉语言模型担任“物理架构师”，规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段，基于物理的扩散模型通过新颖的运动体素注入机制，合成高保真几何与精确运动学参数。实验证明，PhysForge能生成功能合理、可直接仿真的资产，为交互式3D内容与具身智能体提供了强大的数据引擎。

arXiv 具身智能多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

MobileEgo Anywhere：基于通用硬件的长时程自我中心数据开放基础设施

为解决VLA模型对长时程自我中心数据的需求与现有短时程数据集之间的矛盾，本文提出MobileEgo Anywhere框架。该框架利用智能手机传感器实现高精度位姿追踪，降低了数据采集的硬件门槛。主要贡献包括：发布了一个包含200小时多样化长时程轨迹的数据集，开源了移动数据采集应用，并提供了将原始数据转换为标准训练格式的完整处理流程。这实现了跨全球环境的大规模长时程数据获取，为机器人策略研究提供了关键数据支持。

arXiv 具身智能开源生态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Relit-LiVE：通过联合学习环境视频实现视频重照明

Relit-LiVE提出了一种无需相机姿态先验知识的视频重照明框架。其核心创新在于，将原始参考图像显式引入渲染过程，以恢复固有表示中丢失的关键场景信息；同时，通过单一扩散过程联合预测重照明视频与每帧对齐的环境光照图，增强了几何-光照对齐性，显著提升了动态光照和相机运动下的物理一致性与时间稳定性。实验表明，该方法在合成与真实场景基准测试中均优于现有先进方法，并支持场景渲染、材质编辑等下游应用。

arXiv 图像生成多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

无需训练的多模态大语言模型密集手部接触估计方法

针对密集手部接触估计任务，本文提出了一种无需训练、零样本的方法ContactPrompt，以利用多模态大语言模型（MLLMs）的推理能力。该方法通过引入详细的手部分割和基于部分的顶点网格表示，有效编码了3D手部几何结构。同时，采用多阶段结构化接触推理与部分条件化机制，逐步融合全局语义理解与细粒度几何分析，从而实现精确的顶点级接触定位。实验表明，该方法在无需任何训练的情况下，性能优于此前基于大规模数据集训练的有监督方法，展现了MLLMs处理复杂视觉任务的潜力。代码将公开。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

X-OmniClaw技术报告：一个用于多模态理解与交互的统一移动智能体

本文介绍了X-OmniClaw，这是一个为安卓系统设计的统一移动智能体，旨在通过多模态理解与交互处理复杂任务。其架构整合了感知、记忆与行动三大模块：Omni Perception提供统一的多模态输入管道，整合UI状态、视觉上下文与语音，并分解为结构化意图表示；Omni Memory融合运行时工作记忆与本地数据提炼的长期个人记忆，以增强个性化与上下文感知；Omni Action采用结合XML元数据与视觉感知的混合落地策略，通过行为克隆与轨迹回放捕获用户导航技能，实现精确的直接访问执行。多场景演示表明，该系统能有效提升交互效率与任务可靠性，为下一代移动原生个人助手提供了实用蓝图。

智能体 arXiv 多模态端侧

08:00

HuggingFace Daily Papers（社区热门论文）

精选75

反思强化学习对大语言模型推理的作用：是稀疏策略选择，而非能力学习

研究发现，强化学习改进大语言模型推理时，并非教授新策略，而是对基础模型已掌握的解决方案进行概率重分配。其有效影响仅集中在1–3%的高熵决策token上，且所提升的token始终位于基础模型前5个备选之中。基于此，研究者提出无需强化学习的ReasonMaxxer方法，仅在熵选通的决策点施加对比损失，仅需数百次基础模型推演且无需在线生成。在多个模型和数学推理基准测试中，该方法达到或超越了完整强化学习的性能，而训练仅需数十道题目、数分钟的单GPU时间，成本降低约三个数量级。

arXiv 推理数据/训练论文/研究

推荐理由：这篇论文直接挑战当前主流 RL 训练范式，认为 RL 只是在选择已有策略而非学习新能力，并给出千分之一成本就能追平的替代方案，做 reasoning 的同行可以认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

PrefixGuard：从LLM智能体轨迹到在线故障预警监控器

PrefixGuard是一个将LLM智能体执行轨迹自动转换为在线预警监控器的框架。它通过离线的StepView归纳步骤，从原始轨迹样本中推导出确定性的类型化步骤适配器，并基于最终结果监督式地学习事件抽象和前缀风险评分器。在四个基准测试中，其最强监控器的AUPRC值分别达到0.900、0.710、0.533和0.557，平均比原始文本对照方法提升0.137 AUPRC。研究还揭示了基于AUPRC的观测性上限，并指出强排名不等同于部署实用性：例如在WebArena上难以实现低误报预警，而τ^2-Bench和TerminalBench则能保留更多可操作的早期预警。

智能体 arXiv 论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

CPCANet：基于深度展开通用主成分分析的领域泛化方法

CPCANet是一种新颖的领域泛化框架，其核心是将通用主成分分析（CPCA）的迭代式Flury-Gautschi算法展开为完全可微的神经层。该方法将CPCA的统计特性融入端到端可训练框架，强制模型从不同领域中发现一个共享的、具有可解释性的子空间。在四个标准领域泛化基准测试上的实验表明，CPCANet在零样本迁移任务中取得了最先进的性能。该框架与具体网络架构无关，且无需针对特定数据集进行调优，为在分布偏移下学习鲁棒表征提供了一种简单高效的解决方案。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

HumanNet：将人类中心视频学习扩展到百万小时

HumanNet是一个百万小时规模的人类中心视频数据集，涵盖第一和第三人称视角，包含精细活动、人-物交互、工具使用及长期行为。它提供交互中心标注，如描述文本、动作说明及身体信号，支持动作与交互感知学习。数据构建强调人类中心筛选、时序结构化、视角多样性和标注增强，将互联网视频转化为可扩展学习基础。实验表明，用其1000小时第一人称视频训练Qwen VLM模型，效果优于100小时真实机器人数据，提示人类视频可作为机器人数据的可扩展且经济高效替代。该项目旨在探索通过人类视频扩展具身基础模型。

arXiv 具身智能数据/训练视频

08:00

HuggingFace Daily Papers（社区热门论文）

EMO：为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型，旨在实现模块化部署，允许独立使用和组合专家子集，而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家，仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当，但关键优势在于支持选择性使用专家：仅保留25%的专家仅导致1%的绝对性能下降，保留12.5%时下降3%，而标准MoE在相同设置下会失效。此外，EMO中的专家子集在语义层面（如数学、代码等领域）实现专业化，不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv 推理论文/研究部署/工程

04:34

Rohan Paul@rohanpaul_ai

OpenClaw-RL：通过日常对话持续训练语言模型

本研究提出OpenClaw-RL系统，使语言模型能通过日常对话进行持续训练，无需人工标注数据。其核心是利用用户互动中产生的自然反馈（如纠正或重复提问）作为实时学习信号。系统从每次交互中提取两种信号：评估信号（判断行动成败，转化为数值奖励）和指导信号（获取具体改进方向，转化为词级监督）。该方法将标准部署环境转化为持续学习场景，使模型在后台运行中不断自我更新，自适应不同用户偏好，从而摆脱对大规模人工标注数据集的依赖。

智能体 arXiv 数据/训练论文/研究

5月6日

12:20

HuggingFace Daily Papers（社区热门论文）

PatRe：一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限，本文提出了PatRe，首个模拟完整专利审查生命周期（包括审查意见生成与申请人答复）的基准。它包含480个真实案例，支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现，专有与开源模型性能存在差异，且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时，兼具潜力与当前局限。相关代码与数据集已开源。

arXiv 论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

SymptomAI：面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中，SymptomAI的诊断准确性显著高于独立临床医生（OR = 2.47）。采用专用症状访谈策略（在诊断前获取额外信息）的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外，利用SymptomAI诊断标签分析超50万天可穿戴数据发现，急性感染（如流感）与生理指标变化存在强关联（OR > 7）。

智能体 arXiv 论文/研究

10:20

HuggingFace Daily Papers（社区热门论文）

交互式世界模型基准测试与统一动作生成框架

为系统评估交互式世界模型的物理交互能力，研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集，并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题，研究设计了一个统一的动作生成框架，构建了六类任务共4900个测试样本，以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估，研究揭示了当前关键局限，为未来方向提供了见解。相关排行榜已公开。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

FaithfulFaces：面向文本到视频生成的面部姿态忠实身份保持

现有身份保持文本到视频生成方法在面部姿态变化或遮挡时常出现身份失真。为此，研究团队提出FaithfulFaces框架，其核心是一个姿态共享身份对齐器，通过姿态共享字典与姿态变化-身份不变性约束，在不同视角间对齐面部姿态，并将单视角输入映射为包含显式欧拉角嵌入的全局面部姿态表示，为生成模型提供忠实的面部先验。团队还构建了一个包含丰富姿态变化的高质量视频数据集用于训练。实验表明，该框架在动态复杂场景中实现了最先进的性能，能有效保持身份一致性与结构清晰度。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

超越检索：代码搜索的多任务基准与模型

本文提出了CoREB，一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准，并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建，采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括：专用代码嵌入在代码到代码检索上优势显著（约2倍于通用编码器），但无单一模型全胜；接近真实开发者搜索的短关键词查询会使所有模型性能骤降；现有重排序器存在任务不对称性，而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。

arXiv 搜索编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RemoteZero：无需人工标注的地理空间推理

地理空间推理模型通常依赖人工标注的边界框坐标进行监督，这限制了其在海量无标注遥感数据上的自我进化。为此，研究团队提出RemoteZero框架，它利用多模态大语言模型在判别区域语义方面的优势，以内在语义验证取代几何坐标监督，从而实现了无需边界框标注的训练。该框架支持迭代式自我进化，模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明，RemoteZero在定位任务上取得了与强监督方法相竞争的性能，展现了自验证训练在地理空间推理领域的潜力。

arXiv 多模态推理数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

零样本逻辑规则归纳的基础模型

研究团队提出神经规则归纳器（NRI），一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限，转而使用类条件率、熵等与领域无关的统计属性来表征文字，从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器，后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行，支持仅基于预测准确性的端到端训练。评估表明，NRI在规则恢复、对噪声和虚假相关性的鲁棒性，以及在真实世界基准上的零样本迁移方面表现良好，为符号推理的基础模型开辟了新可能。

arXiv 推理论文/研究