全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态资讯 · 2713 条

全部一手资讯 X 论文

标签「论文/研究」清除

5月26日周二

08:00HuggingFace Daily Papers（社区热门论文）64GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法

08:00HuggingFace Daily Papers（社区热门论文）72精选GE-Sim 2.0：面向机器人操作的全面闭环视频世界模拟器路线图

08:00HuggingFace Daily Papers（社区热门论文）63SkillGrad：像梯度下降一样优化智能体技能

08:00HuggingFace Daily Papers（社区热门论文）50在采样中迷失：通过词汇覆盖度分数（WCS）评估大语言模型的词汇可达性

08:00HuggingFace Daily Papers（社区热门论文）58利用稀疏自编码器的模型内部信号指导LLM后训练数据工程

08:00HuggingFace Daily Papers（社区热门论文）55AgensFlow：面向多智能体系统的协调策略基础框架

08:00HuggingFace Daily Papers（社区热门论文）69Verus-SpecGym：一个用于评估规格自动形式化的智能体环境

08:00HuggingFace Daily Papers（社区热门论文）61PEAM：通过经验对比内化实现的参数化具身智能体记忆

08:00HuggingFace Daily Papers（社区热门论文）61Chartographer：用于评估视觉语言模型的反事实图表生成

08:00HuggingFace Daily Papers（社区热门论文）64少即是多：用于On-policy蒸馏的早期停止生成策略

08:00HuggingFace Daily Papers（社区热门论文）57通过对称注意力分解平衡扩散模型中的保真度与多样性：Hopfield 视角

00:00MiniMax：Blog（网页）59精选为什么MiniMax大语言模型无法说出"马嘉祺"？稀疏Token遗忘的内部调查

5月25日周一

18:58The Decoder：AI News（RSS）72同事件精选Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题同一事件，精选展示《AlphaProof Nexus：用形式化验证驱动AI数学证明搜索》

15:58The Decoder：AI News（RSS）55AI models often give the right answers but point to the wrong sources

13:11IT之家（RSS）77精选华为何庭波"韬定律"论文发布，逻辑折叠技术提升芯片性能

12:28Hacker News 热门（buzzing.cc 中文翻译）70精选感知图像编解码器：实用学习型图像压缩中的关键因素

08:00HuggingFace Daily Papers（社区热门论文）44当梯度冲突时：LLM Judge多目标提示优化的失败模式

08:00HuggingFace Daily Papers（社区热门论文）48提出 Unified Neural Scaling Laws （UNSL），统一建模多维度变化的深度神经网络缩放规律

08:00HuggingFace Daily Papers（社区热门论文）50可验证奖励强化学习中的时间调度策略

08:00HuggingFace Daily Papers（社区热门论文）44StreamChar：面向角色动画的流式音视频生成框架

08:00HuggingFace Daily Papers（社区热门论文）52从模型扩展到系统扩展：扩展AI智能体的执行层

08:00HuggingFace Daily Papers（社区热门论文）57CollectionLoRA：通过多教师在策略蒸馏将50种效果统一于1个LoRA

08:00HuggingFace Daily Papers（社区热门论文）57通过多视角基础模型的统一全景几何估计

08:00HuggingFace Daily Papers（社区热门论文）58你的智能体也在老化：部署系统的智能体寿命工程

08:00HuggingFace Daily Papers（社区热门论文）49评估视频质量模型对扩散模型视频超分辨率的预测准确性

08:00HuggingFace Daily Papers（社区热门论文）64AgentHijack：针对电脑使用代理在常见环境干扰下的鲁棒性评测基准

08:00HuggingFace Daily Papers（社区热门论文）58SKILD：尺度不变扩散模型统一图像生成与连续超分辨率

08:00HuggingFace Daily Papers（社区热门论文）56Fast-dDrive：用于自动驾驶的高效块扩散视觉语言-动作模型

08:00HuggingFace Daily Papers（社区热门论文）50三元组块扩散 RWKV

08:00HuggingFace Daily Papers（社区热门论文）66ScientistOne：迈向人类水平自主研究

08:00HuggingFace Daily Papers（社区热门论文）60推进大型多模态模型的创造性物理智能

08:00HuggingFace Daily Papers（社区热门论文）59LLM能够内省吗？现实检验

08:00HuggingFace Daily Papers（社区热门论文）60NSF-SciFy：从NSF奖项数据库中挖掘科学主张

08:00HuggingFace Daily Papers（社区热门论文）52CroCo：基于自生成响应的跨语言对比偏好调优

08:00HuggingFace Daily Papers（社区热门论文）51D^2-Monitor：一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法

08:00HuggingFace Daily Papers（社区热门论文）61重新思考VLA初始化中的VLM表征

08:00HuggingFace Daily Papers（社区热门论文）46激活预言机的置信度与校准研究

08:00HuggingFace Daily Papers（社区热门论文）53LLaVA-OneVision-2：迈向新一代感知智能

08:00HuggingFace Daily Papers（社区热门论文）56LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

08:00HuggingFace Daily Papers（社区热门论文）69MobileGym：面向移动GUI智能体研究的可验证高度并行仿真平台

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月26日

08:00

HuggingFace Daily Papers（社区热门论文）

64

GradSentry：用于大语言模型微调中后门样本过滤的梯度谱熵方法

GradSentry是一种基于单样本梯度谱熵的后门样本过滤方法，用于防御大语言模型微调中的数据投毒攻击。其核心发现是中毒样本产生的梯度谱熵高于干净样本。该方法通过分析单样本的梯度谱来捕获后门特征，避免了成对比较或聚类，且具有训练无关性，适用于LoRA等参数高效微调及全参数微调。GradSentry在1%到90%的投毒比例下均有效，为7B模型引入的计算开销仅为每样本20-50毫秒。在四个问答数据集和四种攻击类型上的评估验证了其有效性。

安全/对齐开源/仓库数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

GE-Sim 2.0：面向机器人操作的全面闭环视频世界模拟器路线图

GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架，并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练，提升了动作跟随与轨迹覆盖能力。其核心新增三个模块：从视频潜变量解码本体感受状态的“状态专家”；为生成轨迹评分并提供成功信号与奖励的“世界评判”；以及能实现快速轨迹生成的加速框架。该模型仅2B参数，在WorldArena排行榜上位列第一，优于专用模型与闭源生成器，其训练出的策略能转化为实际世界性能提升。

具身智能视频论文/研究

推荐理由：过去机器人策略训练卡在仿真到真机的鸿沟上，GE-Sim 2.0 把视频生成、状态提取和自动评估闭环了，策略迭代效率可能翻倍，搞具身智能的很值得蹲一下。

08:00

HuggingFace Daily Papers（社区热门论文）

63

SkillGrad：像梯度下降一样优化智能体技能

针对智能体技能不可靠的问题，SkillGrad 提出了一种受梯度下降启发的优化框架。该框架将技能包视为可优化的结构化参数，利用任务执行产生的轨迹级损失证据生成基于文本的梯度，并通过动量智能体积累诊断模式以稳定优化。最终由基于大语言模型的修补器执行参数更新。在 SpreadsheetBench Verified 和 WikiTableQuestions 上的评估显示，SkillGrad 在两个骨干大语言模型上均优于基于训练的技能进化基线，平均性能提升6.7个百分点。消融实验验证了动量机制与对比诊断方法的有效性。

智能体推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

在采样中迷失：通过词汇覆盖度分数（WCS）评估大语言模型的词汇可达性

研究指出，工业标准的采样默认参数（如 Top-p、Top-k 和 Min-p）无意中充当了审查机制，过滤掉了许多低频但高信息量的人类词汇，导致大语言模型生成的文本趋于同质化。研究团队提出了词汇覆盖度分数（WCS）来量化这一现象，它衡量了上下文语境中被标准采样过滤器修剪掉的人类词汇比例。通过审计开放权重模型，该研究识别出被解码器排除在可达范围之外的逻辑词汇选项，为在文本连贯性与词汇丰富度之间寻找平衡提供了诊断框架。

论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

58

利用稀疏自编码器的模型内部信号指导LLM后训练数据工程

SAERL是一个面向大语言模型强化学习的数据工程框架，利用稀疏自编码器从模型内部提取信号。它建模了数据的多样性、难度和质量三个属性，并分别对应批次混合控制、难度排序和质量过滤等具体工程操作。实验表明，在通义千问（Qwen2.5-Math-1.5B）上，SAERL相比标准GRPO平均准确率提升3.00%，并能以减少20%的训练步数达到目标准确率。该方法在不同模型规模和RL算法上均有一致收益，且SAE能跨模型系列和规模有效迁移，证明了模型内部信号作为后训练数据工程信号源的实用价值。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

55

AgensFlow：面向多智能体系统的协调策略基础框架

AgensFlow是一个开源框架，它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策（如技能调用、角色分配、模型绑定等）变得可观察和可学习，取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明，在协调密集型任务中，该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点；其中“skip:X”模块有效隔离了拓扑压缩的作用；热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。

智能体 arXiv MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

Verus-SpecGym：一个用于评估规格自动形式化的智能体环境

该研究引入了Verus-SpecBench基准测试集，包含581个源自Codeforces问题、针对Rust验证器Verus的规格编写任务，以及Verus-SpecGym这一AI智能体交互环境。核心挑战是评估规格的正确性。研究通过扩展Verus的执行机制，并使用官方测试用例和对抗性用例进行评测。结果显示，最强模型Gemini 3.1 Pro解决了77.8%的任务，其他前沿模型解决率为51.1%-57.8%，开源模型仅为21.5%-25.5%。分析发现，LLM评判会遗漏26%的错误。结论是规格自动形式化对前沿智能体已可触及，但仍显脆弱。

智能体编码论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

PEAM：通过经验对比内化实现的参数化具身智能体记忆

PEAM是在Minecraft中提出的智能体记忆框架，它将记忆从推理时检索转变为通过经验内化的参数化技能。框架将用于开放式推理的慢速大语言模型与用于快速技能执行的参数模块相结合。该快速模块采用多模态Mixture-of-Experts LoRA架构，并配备按类别物理隔离的适配器，以实现无灾难性遗忘的参数级持续学习。框架将失败视为首要训练信号，通过行为克隆与对比目标联合学习失败-纠正轨迹对，使智能体不仅学习成功方案，还理解纠正与失败的区别。为控制整合过程，PEAM引入了参数化价值评分和无尺度自触发整合机制，使智能体能够自我进化，无需任务特定阈值即可决定整合时机。实验表明，该框架提升了长期任务性能，缓解了技能遗忘，并提升了参数化记忆相对于检索方法的效率。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

Chartographer：用于评估视觉语言模型的反事实图表生成

现有图表问答基准测试存在局限，模型可能依赖捷径或背景知识而非视觉推理来回答问题。为严格评估视觉推理能力，研究提出了“反事实图表”方法，即在保持图表-问答任务不变的前提下，改变底层图表及其答案。为此，研究引入了Chartographer框架，该框架能将图表逆向工程为可执行代码，验证重建保真度，生成种子可控的变体，并从可执行的问答逻辑中推导新答案。通过将此框架应用于现有数据集，研究评估了专有及开源视觉语言模型的变化敏感性与泛化能力。结果表明，反事实图表揭示了单一图表测试所隐藏的失败：模型在正确回答原始图表后，往往无法在更新图表需要全新视觉推理路径时成功泛化。

多模态论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

64

少即是多：用于On-policy蒸馏的早期停止生成策略

研究发现在On-policy蒸馏中存在“离策略教师衰减”问题：当学生模型的早期轨迹作为上下文时，教师模型为后续token产生修正分数的能力会衰减。为此，本文提出早期停止生成策略，将生成的rollout限制在前几个响应token上。实验表明，该策略在不同模型规模、模型族、任务和训练设置下均能超越完整的On-policy蒸馏性能，并展现出更高的GPU效率和训练稳定性，尤其在跨模型族场景中。研究进一步揭示了其“级联对齐”与“子模式承诺”效应，这解释了其有效性的机制。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

通过对称注意力分解平衡扩散模型中的保真度与多样性：Hopfield 视角

研究将 Transformer 中的注意力矩阵表征为编码特征间关联的联想记忆矩阵。通过将其分解为对称与反对称部分，前者被解释为控制能量景观的结构，后者驱动该景观上的循环运动。基于对称部分推导出 Hopfield 风格的稳定度量，用于量化检索特征的稳定性。观察发现，这些稳定度量与生成中的保真度-多样性权衡存在有意义的相关性。最终，提出通过修改底层动态的循环来调节该权衡的可控方法。代码已开源。

图像生成开源生态论文/研究

00:00

MiniMax：Blog（网页）

精选59

为什么MiniMax大语言模型无法说出"马嘉祺"？稀疏Token遗忘的内部调查

MiniMax M2系列大语言模型在生成时无法输出稀疏token“嘉祺”（如“马嘉祺”）。内部调查排除tokenizer对齐问题，发现根因是后训练阶段对低频token的生成概率产生抑制。该问题已在后续模型更新中修复，并顺带解决了其他小语种混合问题。

数据/训练论文/研究

推荐理由：这种官方自己拆自己的技术调查不多见，把「低频token遗忘」从社区猜测一路推到SFT数据缺失导致lm_head漂移的根因，做模型训练的可以当案例看。

5月25日

18:58

The Decoder：AI News（RSS）

同事件精选72

Google DeepMind 的 AlphaProof Nexus 以几百美元的成本解决数十年未解的数学问题

Google DeepMind 的 AlphaProof Nexus 自主解决了 9 个开放的 Erdős 问题，其中包括两个困扰数学界 56 年的难题。其推理成本低至每个问题仅需几百美元。系统通过 Lean 编译器验证每个证明步骤，而非使用 OpenAI 的自然语言方法。当前的整体问题解决成功率为 2.5%。

DeepMind Google 推理论文/研究

同一事件，精选展示《AlphaProof Nexus：用形式化验证驱动AI数学证明搜索》

推荐理由：AlphaProof Nexus 花几百美元就解决了数学家 56 年没做出来的问题，虽然成功率只有 2.5%，但这条路证明形式化验证+强化学习是走得通的，做推理的该盯着看了。

15:58

The Decoder：AI News（RSS）

55

AI models often give the right answers but point to the wrong sources

北京大学研究人员发现，GPT 和 Gemini 等主流大语言模型在进行文档分析时，经常引用无法支持其答案的文本段落。即便答案本身正确，被引用的证据也常是错误的。研究人员将此现象称为“归因幻觉”，并指出这是法律和医疗等受监管领域的风险。为此，他们提出了首个系统性测试该问题的新基准 CiteVQA。

Google OpenAI 安全/对齐论文/研究

13:11

IT之家（RSS）

精选77

华为何庭波"韬定律"论文发布，逻辑折叠技术提升芯片性能

华为何庭波在ISCAS 2026上提出“韬定律”，并介绍逻辑折叠（LogicFolding）技术。该技术通过三维空间拓扑重组提升芯片性能，不依赖新光刻工艺。在麒麟2026芯片测试中，晶体管密度从155 MTr/mm²提升至238 MTr/mm²，性能核心能效提高41%，最大时钟频率提升近13%。论文显示，麒麟2027芯片已进入Silicon状态，后续规划包括麒麟2028、2029。AI芯片方面，昇腾990计划在2030年左右引入逻辑折叠，硬件集成预计到2035年提高超过100倍。

推理端侧论文/研究

关联讨论 2 条X：Rohan Paul (@rohanpaul_ai)IT之家（RSS）

推荐理由：华为用‘逻辑折叠’替代光刻进步，在不依赖新工艺下实现代际性能提升，这是中国芯片行业的一个技术转折，做硬件和AI推理的值得仔细看看。

12:28

Hacker News 热门（buzzing.cc 中文翻译）

精选70

感知图像编解码器：实用学习型图像压缩中的关键因素

苹果公司的研究探讨了感知图像编解码器，分析其在实用学习型图像压缩中的关键作用。该研究聚焦于提升压缩效率与视觉质量平衡的实际需求。

开源/仓库论文/研究部署/工程

推荐理由：苹果官方把学习型图像压缩落地时真正重要的几个因素讲透了，附带代码，做视频编码和图像传输的同行值得看。

08:00

HuggingFace Daily Papers（社区热门论文）

44

当梯度冲突时：LLM Judge多目标提示优化的失败模式

针对LLM Judge的多目标提示优化中，文本梯度方法无法借用多任务学习的冲突解决工具，因其产生自然语言评语而非数值向量。通过改变损失、梯度和优化器LLM之间跨任务信息共享程度，测试了五种分解模式。结果发现，10种配置中有6种优化从未优于初始提示。当梯度LLM同时处理多个标准时，梯度特异性下降59%（从9.0降至3.7）。将各任务指令简单合并为单条提示使Spearman's rho下降-5.3%。这些结果识别出两种可分离的失败模式：优化时梯度稀释与推理时指令干扰。

数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

48

提出 Unified Neural Scaling Laws （UNSL），统一建模多维度变化的深度神经网络缩放规律

研究提出了一个称为统一神经缩放规律的功能形式，能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为。这些维度包括模型参数数量、训练数据集大小、训练步数、推理步数、计算量及多种超参数。该规律适用于多样架构，并覆盖视觉、语言、数学和强化学习等上游与下游任务。实验表明，相比其他缩放规律的功能形式，UNSL 在该集合上的行为外推结果显著更准确。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

可验证奖励强化学习中的时间调度策略

本文指出，在大语言模型后训练的可验证奖励强化学习中，学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定，而本文引入时间维度，在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token，并逐渐转向一般化优化，从而使学习过程更稳定高效。实验表明，这种时间调度方法在数学和通用推理基准上实现了持续改进，并能引导更健康的策略演进。

arXiv 推理数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

44

StreamChar：面向角色动画的流式音视频生成框架

StreamChar是一个面向角色动画的流式音视频生成框架。它将长时间序列的编排与短窗口的音视频去噪进行解耦。核心是由基于大语言模型的编排器生成帧对齐的音频条件，再由联合音视频DiT执行局部双向去噪。为实现高效部署，框架采用两阶段蒸馏流水线。此外，利用进度感知指针和持久视觉锚点来减少音画偏移与长时漂移。实验表明，StreamChar在单张H100 GPU上能实时运行，并在转录保真度、音画同步、视觉质量和流式稳定性方面取得了有利的系统级权衡。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

从模型扩展到系统扩展：扩展AI智能体的执行层

本研究指出，AI智能体的下一个主要瓶颈是系统扩展，而非单纯的模型扩展。研究提出了“扩展执行层”的概念，即需要将基础模型周围的结构化执行层作为首要设计对象。该执行层由记忆、检索、工具使用、编排和验证等组件构成，它们的交互共同决定了智能体的长期行为。论文聚焦于扩展执行层的三大核心瓶颈：上下文治理、可信记忆与动态技能路由。为进行具体讨论，研究开发了CheetahClaws这一参考实现，并与Claude Code、OpenClaw进行了对比。其核心观点是，AI智能体的未来进展将同样依赖于更强的基础模型与更优的系统设计。

智能体 arXiv GitHub 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

CollectionLoRA：通过多教师在策略蒸馏将50种效果统一于1个LoRA

CollectionLoRA是一个多教师在策略蒸馏框架，旨在解决为扩散模型定制大量视觉效果时，因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标，用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示，CollectionLoRA在显著降低部署成本的同时，实现了与独立教师模型相当或更优的概念保真度。

arXiv 图像生成论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

57

通过多视角基础模型的统一全景几何估计

PaGeR（全景几何重建）是一个将3D基础模型扩展到全景领域的框架。它基于预训练的3D重建 Transformer 架构，通过最小化改动并混合透视与全景图像进行训练，使其能在单次前向传播中从透视和全向图像预测尺度不变深度、度量深度、表面法线和天空掩码。该模型在透视和全景图像上均实现了高性能，能够在室内和室外环境中从单张全景图像估计几何一致的360度场景，展现出卓越的零样本性能。

arXiv 多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

58

你的智能体也在老化：部署系统的智能体寿命工程

本文提出了AgingBench，一个用于评估AI智能体长期可靠性的纵向基准。部署后的智能体会因交互历史压缩、记忆检索等机制而逐渐老化。AgingBench通过时间依赖图和反事实探针诊断记忆管道问题。测试发现老化现象复杂：行为测试可能正常，但事实精度已下降；相同错误答案可能需要不同的修复策略。结论是可靠的智能体部署需要生命周期评估与机制级诊断，而不仅是更强的基础模型。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

49

评估视频质量模型对扩散模型视频超分辨率的预测准确性

本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比，研究分析了六种超分辨率方法（Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini）在处理压缩（AV1, DCVC-RT）和未压缩低分辨率视频时的表现。结果表明，基于CNN的全参考模型（如LPIPS, DISTS, CVQA-FR）表现出更高的相关系数。大多数模型高估了SCST的结果，而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终，所有测试的视频质量模型均未达到足以替代主观测试的准确度。

arXiv 视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

64

AgentHijack：针对电脑使用代理在常见环境干扰下的鲁棒性评测基准

AgentHijack 是一个评测基准，用于评估由多模态大语言模型驱动的电脑使用代理在动态环境干扰下的鲁棒性。该基准设置了 9 种可配置的常见干扰来模拟真实世界中的不理想场景。实验发现，即使轻微的干扰也会导致代理性能显著下降，凸显了增强其鲁棒性的必要性。为此，研究提出了一个改进框架 AgentHijack-Agent，它结合了具有增强定位能力的动作生成器以及负责行为总结和环境检查的观察者模块。

智能体论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

58

SKILD：尺度不变扩散模型统一图像生成与连续超分辨率

SKILD是一个尺度不变的扩散模型，它利用自然图像和物理系统的尺度不变性，在一个统一的无条件框架内同时实现图像生成和连续超分辨率任务。其前向过程从细到粗尺度逐步衰减图像内容并注入噪声。训练后的反向过程仅通过改变起始时间步，即可执行生成或超分辨率，无需任务特定架构。在无条件CIFAR-10上，SKILD达到FID 2.65和Inception Score 9.63；在ImageNet上，它从单一无条件检查点实现了2倍至8倍超分辨率，并在感知指标上优于条件模型。

图像生成论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

Fast-dDrive：用于自动驾驶的高效块扩散视觉语言-动作模型

Fast-dDrive是一种块扩散视觉语言-动作模型，旨在平衡自动驾驶中的高保真规划与高效推理。它在语义单元内进行双向精炼，同时严格保持跨单元的因果顺序。该模型冻结结构token作为脚手架，并采用分段感知训练，优先保障安全关键规划。通过脚手架推测解码实现接近自回归模型的质量与更高吞吐量。其测试时扩展方案从单个共享前缀KV缓存分叉多个随机轨迹并取平均，以低成本有效抑制预测方差。实验表明，Fast-dDrive在WOD-E2E测试集上取得了SOTA的ADE@3s与ADE@5s成绩，在nuScenes上将平均L2误差降至0.32米（提升22%），集成SGLang后较自回归基线实现12倍吞吐量提升。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

50

三元组块扩散 RWKV

B³D-RWKV 是一种扩散 RWKV 变体，旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法，将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下，在 8 项任务套件中达到了与现有模型相当的准确率，同时解码吞吐量显著优于基线，平均速度提升达 1.6 倍。

arXiv 推理论文/研究部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

66

ScientistOne：迈向人类水平自主研究

自主研究智能体虽能生成看似专业的论文，但存在可验证性缺陷，如模型幻觉引用、分数不可复现及方法描述与实现不符。本文提出三项贡献：Chain-of-Evidence（CoE）验证框架，要求每个声明可追溯至证据源；ScientistOne系统，在文献调研、方案发现和论文撰写中构建证据链；CoE Audit审计工具，进行四项完整性检查。在对涵盖五个系统的75篇论文评测中，所有基线系统均存在系统性问题，如幻觉引用率达21%。ScientistOne则实现零幻觉引用、完美的分数验证及最高的方法-代码一致性，并在五项任务上匹配或超越人类专家水平，还成功泛化至其他任务，在 Parameter Golf 上达到SOTA。

智能体 arXiv 论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

推进大型多模态模型的创造性物理智能

该研究评估了大型多模态模型（LMMs）在开放环境中发现物理可行视觉解决方案的能力。为此，推出了MM-CreativityBench基准，用于评估在视觉丰富、物理受限环境中的功能可供性扎根的创造性工具使用。实验表明，当前LMMs因无法维持扎根式探索而表现不佳，常忽略实体、检查不足或产生模型幻觉。为此，研究提出功能可供性扎根对齐方法，将创造性工具使用建模为偏好学习问题，利用DPO引导模型选择基于视觉证据的推理，并结合可供性知识库监督，以减少幻觉并提升实体与部件选择能力。

多模态推理论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

LLM能够内省吗？现实检验

针对“大语言模型能否检视并报告其内部状态”这一问题，本文基于人类元认知研究指出，现有结论可能为时过早。作者重新审视了两个评估范式：在第一个范式中，模型无法可靠区分针对其内部状态的干预与输入操纵；在第二个范式中，仅访问输入的分类器能达到与模型自身预测相当的性能，且引入的重新标记控制实验显示模型表现接近随机。这些结果表明，当前证据不足以确立LLM展现出真正的内省或元认知监控能力。

arXiv 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

60

NSF-SciFy：从NSF奖项数据库中挖掘科学主张

NSF-SciFy是一个从美国国家科学基金会奖项摘要中提取的科学主张数据集，包含来自40万篇摘要的280万条主张，涵盖所有科学与数学学科。提供了两个子集：材料科学方向的11.4万条主张和跨五个部门的13.5万条主张。研究采用零样本提示联合提取科学主张与研究方案，并在非技术摘要生成、主张提取等三个下游任务上微调模型，获得显著提升，相对增益常超100%。代码与数据已开源。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

52

CroCo：基于自生成响应的跨语言对比偏好调优

本研究提出CroCo方法，扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移，在包含14种高低资源语言的评估中，使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明，单语或多语配对设置均能提升多数任务性能，并防止监督微调导致的灾难性遗忘。具体而言，在结构化任务上，调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平；在开放式生成任务中，两个模型在全部11种评估语言上均优于基线。

arXiv 数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

51

D^2-Monitor：一种基于"安全犹豫"路由的扩散大语言模型动态安全监控方法

针对扩散大语言模型（D-LLM）安全监控的空白，研究发现其中间隐藏状态反复接近探测器决策边界的“安全犹豫”信号最能预测轻量级监控器的失败。基于此，提出了D^2-Monitor双层架构：使用一个参数不超过0.85M的轻量探测器作为基础分类器，当犹豫水平超阈值时，动态激活一个更强的探测器。在WildguardMix等3个数据集和4个D-LLM上的评估显示，该架构以紧凑规模实现了效果与效率的最佳平衡。

安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

61

重新思考VLA初始化中的VLM表征

视觉-语言-动作（VLA）模型常以预训练视觉-语言模型（VLM）为骨干，但何种VLM表征适合作为初始化尚不明确。本研究将其视为表征设计问题，沿三个轴实验：具身VQA监督、参数更新策略和机器人数据预训练。发现原始预训练VLM表征是动作性能关键。具身VQA适应收益不一致，取决于下游瓶颈。LoRA比全量微调更可靠，表明过度重塑表征会削弱效果。机器人数据预训练可进一步提升，最优变体来自基于LoRA的分阶段训练。结论是有效适应应在注入动作相关信号的同时，保留预训练VLM中对动作学习有用的表征。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

46

激活预言机的置信度与校准研究

本研究调查了6种用于估计激活预言机置信度的方法，并评估其校准程度。实验针对Qwen3-8B和通义千问（Qwen3.6-27B）两个模型进行，每个预言机测试6000个样本。结果显示，引导模式频率是校准效果最佳的方法，其ECE在两个模型上分别为5.7%和10.3%，显著优于作为基线的答案词对数概率方法。此外，对数概率基线可作为一种低成本的快速筛选信号。

GitHub 安全/对齐论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

53

LLaVA-OneVision-2：迈向新一代感知智能

LLaVA-OneVision-2 是 LLaVA-OneVision 系列中能力最强的视觉语言模型。其核心是编解码流 tokenization 技术，通过分析压缩视频的比特成本动态进行自适应分组，并利用运动残差线索将关键空间信息压缩到紧凑的视觉画布中。模型采用共享的 3D RoPE 统一图像与视频的时空坐标，并在约 800 万重标注视频样本上预训练、400 万空间语料上微调。在面向高频重复动作定位的 JumpScore 评测中，其 8B 版本达到 74.9 分的 mAP，显著超越 Qwen3-VL-8B（30.1 分），且在匹配 token 预算下，编解码流输入较帧采样在时序定位上提升 9.7 点。该模型在视频、空间和跟踪任务基准上也全面领先。

多模态推理视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

56

LongAV-Compass：面向分钟级音视频生成跨T2AV、I2AV和V2AV的统一评测框架

LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例，覆盖文本到音视频（T2AV）、图像到音视频（I2AV）和视频到音视频（V2AV）三种条件模态。该基准采用分类引导构建方法，并整合了统一评估框架。该框架结合了多模态大模型（MLLM）辅助评估与多种感知及多模态指标，例如 DINO-v2、ArcFace、CLIP 和 ImageBind，对超过 20 个细粒度维度进行评分，涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证，LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。

arXiv 多模态视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

69

MobileGym：面向移动GUI智能体研究的可验证高度并行仿真平台

MobileGym是一个浏览器托管、轻量级且完全可控的移动端日常使用环境。它实现了基于结构化JSON状态的确定性状态判定，以提供可验证的结果信号，并通过低成本并行轮转实现可扩展的在线强化学习。其完整环境状态以JSON进行捕获与配置，单个服务器可托管数百个并行实例，单实例内存约400MB，冷启动约3秒。配套的MobileGym-Bench提供了覆盖28个应用的416个参数化任务模板。在Sim-to-Real案例研究中，使用GRPO对通义千问Qwen3-VL-4B-Instruct进行训练，在测试集上提升了+12.8个百分点，且真实设备执行保留了仿真端95.1%的训练增益。项目主页：https://mobilegym.github.io。

智能体 arXiv 论文/研究

1…30 313233 34…50