AIHOT

5月7日

10:22

HuggingFace Daily Papers（社区热门论文）

针对高性能少步图像生成模型（如Z-Image-Turbo）在持续监督微调中会损害其固有少步推理能力的问题，本文提出D-OPSD训练范式。该方法利用以LLM/VLM为编码器的扩散模型可继承上下文能力的特点，将训练构建为在线策略自蒸馏过程：模型同时扮演教师（以文本和图像多模态特征为条件）和学生（仅以文本特征为条件）双重角色，并通过最小化其在自身生成轨迹上两个预测分布的差异进行优化。这使得模型能在自身监督下学习新概念或风格，同时保持原有的高效少步生成能力。

图像生成数据/训练论文/研究

08:30

Apple Machine Learning Research（RSS）

精选63

Normalizing Flows with Iterative Denoising

研究团队在归一化流（NFs）生成模型领域取得新进展，提出了迭代TARFlow（iTARFlow）。该方法在训练阶段保持完全端到端的基于似然的目标，采样时则采用自回归生成方式。iTARFlow延续了TARFlow在图像建模任务上的优势，使其成为扩散模型等方法的可行替代方案，进一步提升了归一化流生成模型的性能表现。

图像生成论文/研究

推荐理由：Normalizing Flows 这个老方法被苹果玩出新花样，iTARFlow 在训练上保留端到端似然，采样却自回归，给做生成模型的人提供了扩散模型之外的第二个靠谱选择。

08:30

Apple Machine Learning Research（RSS）

精选64

SpecMD：关于推测性专家预取的综合研究

研究团队开发了SpecMD，这是一个用于在各种硬件配置上对临时缓存策略进行基准测试的标准化框架。该研究聚焦于混合专家模型，这类模型虽然实现了稀疏专家激活，但需要专家缓存机制才能将稀疏性转化为实际性能提升。此前的研究提出了以硬件为中心的缓存策略，但不同缓存策略之间以及它们与不同硬件规格之间的相互作用尚不明确。SpecMD框架旨在填补这一理解空白，系统性地评估缓存策略的交互影响与硬件适配性。

推理论文/研究部署/工程

推荐理由：MoE推理的缓存策略一直靠经验摸，Apple给的标准化框架能系统比较不同策略，做分布式推理的可以省些心力。

08:00

HuggingFace Daily Papers（社区热门论文）

EMO：为涌现模块化预训练混合专家模型

EMO是一种新型混合专家模型，旨在实现模块化部署，允许独立使用和组合专家子集，而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家，仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当，但关键优势在于支持选择性使用专家：仅保留25%的专家仅导致1%的绝对性能下降，保留12.5%时下降3%，而标准MoE在相同设置下会失效。此外，EMO中的专家子集在语义层面（如数学、代码等领域）实现专业化，不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。

arXiv推理论文/研究部署/工程

06:30

Apple Machine Learning Research（RSS）

精选72

从位置认知到功能理解：为多模态大语言模型设立空间功能智能基准

现有基准如VSI-Bench主要评估基础几何感知能力，但未能触及具身智能所需的高阶认知。为此，研究团队推出了空间功能智能基准SFI-Bench，该基准包含超过1700个问题，数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力，标志着对智能体空间认知的评估从几何层面迈向功能层面。

多模态推理论文/研究

推荐理由：Apple 自己搞的 SFI-Bench 把评估从几何定位推进到功能理解，这个方向很对，做具身智能和空间推理的团队该跟一下。

04:34

Rohan Paul@rohanpaul_ai

OpenClaw-RL：通过日常对话持续训练语言模型

本研究提出OpenClaw-RL系统，使语言模型能通过日常对话进行持续训练，无需人工标注数据。其核心是利用用户互动中产生的自然反馈（如纠正或重复提问）作为实时学习信号。系统从每次交互中提取两种信号：评估信号（判断行动成败，转化为数值奖励）和指导信号（获取具体改进方向，转化为词级监督）。该方法将标准部署环境转化为持续学习场景，使模型在后台运行中不断自我更新，自适应不同用户偏好，从而摆脱对大规模人工标注数据集的依赖。

智能体arXiv数据/训练论文/研究

00:33

AK@_akhaliq

SVGS 利用空间变色基元增强高斯泼溅技术论文：https：//huggingface.co/papers/2411.18966

图像生成论文/研究

5月6日

12:20

HuggingFace Daily Papers（社区热门论文）

PatRe：一个用于专利审查的全周期审查意见与答复生成基准

针对现有基准将专利审查简化为分类或静态抽取的局限，本文提出了PatRe，首个模拟完整专利审查生命周期（包括审查意见生成与申请人答复）的基准。它包含480个真实案例，支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现，专有与开源模型性能存在差异，且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时，兼具潜力与当前局限。相关代码与数据集已开源。

arXiv论文/研究评测/基准

10:20

HuggingFace Daily Papers（社区热门论文）

SymptomAI：面向日常症状评估的对话式AI代理

研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中，SymptomAI的诊断准确性显著高于独立临床医生（OR = 2.47）。采用专用症状访谈策略（在诊断前获取额外信息）的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外，利用SymptomAI诊断标签分析超50万天可穿戴数据发现，急性感染（如流感）与生理指标变化存在强关联（OR > 7）。

智能体arXiv论文/研究

10:20

HuggingFace Daily Papers（社区热门论文）

精选72

OpenSeeker-v2：利用高信息量、高难度轨迹突破搜索智能体的极限

本研究提出了一种仅通过监督微调（SFT）训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进：扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2，在四个基准测试中均取得了领先性能，全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体，其模型权重将开源以促进社区研究。

智能体开源生态搜索论文/研究

推荐理由：纯学术团队仅靠SFT和一万条数据，就在多个搜索基准上反超工业级管线，并且开源模型。这证明高质量数据比烧钱RL更关键，做Agent的朋友值得认真看。