AIHOT

全部动态论文 · 2201 条

全部一手资讯 X 论文

5月13日周三

08:00HuggingFace Daily Papers（社区热门论文）56SPIN：基于迭代导航的工业任务结构LLM规划 08:00HuggingFace Daily Papers（社区热门论文）59基于Hodge分解的拓扑保持神经算子学习 08:00HuggingFace Daily Papers（社区热门论文）70精选通过简单统一的扩展实现奥赛金牌级推理 08:00HuggingFace Daily Papers（社区热门论文）62EvolveMem：基于AutoResearch的LLM智能体自进化记忆架构 08:00HuggingFace Daily Papers（社区热门论文）66书签：面向角色扮演代理的高效主动故事情节记忆框架 05:44HuggingFace Daily Papers（社区热门论文）66GridProbe：面向长视频视觉语言模型的自适应测试时计算后验探测 05:44HuggingFace Daily Papers（社区热门论文）62揭示策略蒸馏：何处有益、何处有害及原因 02:44HuggingFace Daily Papers（社区热门论文）51PlantMarkerBench：一个用于评估基于文献的植物标记基因推理能力的多物种基准 00:44HuggingFace Daily Papers（社区热门论文）66Pi-Serini下的代理搜索再思考：词法检索是否足够？00:44HuggingFace Daily Papers（社区热门论文）60DeepRefine：基于强化学习的智能体知识库精炼 00:01elvis68Nous Research提出Lighthouse Attention：一种可移除的训练时注意力加速方案

5月12日周二

22:44HuggingFace Daily Papers（社区热门论文）63提示-激活对偶性：通过注意力层干预改进激活引导 22:41Perplexity56Qwen3模型在GB200平台实现高效推理 21:44HuggingFace Daily Papers（社区热门论文）69键值均值注意力机制 21:29AK56Qwen-Image-2.0技术报告发布 21:29AK57多智能体协同扩展测试时计算能力 21:29AK54逆向教师信号探索推理强化学习自蒸馏新法 21:29AK64多智能体协同扩展测试时计算能力 20:44HuggingFace Daily Papers（社区热门论文）58ELF：嵌入式语言流 18:44HuggingFace Daily Papers（社区热门论文）57Muon能微调Adam预训练的模型吗？17:59AK63数学家构建基准测试评估LLM研究级数学能力 16:59AK58Pixal3D实现图像到三维生成 16:44HuggingFace Daily Papers（社区热门论文）69RoboMemArena：一个全面且具有挑战性的机器人记忆基准 16:44HuggingFace Daily Papers（社区热门论文）61CapVector：在参数空间中为视觉-语言-动作模型学习可迁移的能力向量 16:44HuggingFace Daily Papers（社区热门论文）65SlimSpec：用于加速推测解码的低秩草稿模型LM-Head 16:44HuggingFace Daily Papers（社区热门论文）62TMAS：通过多智能体协同扩展测试时计算 15:44HuggingFace Daily Papers（社区热门论文）59DECO：面向终端设备的稀疏混合专家模型，实现媲美稠密模型的性能 14:44HuggingFace Daily Papers（社区热门论文）65Alpha Blending假说：深度伪造检测中的合成捷径 13:44HuggingFace Daily Papers（社区热门论文）62通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题 13:44HuggingFace Daily Papers（社区热门论文）59PaperFit：面向科学文档的视觉在环排版优化 12:44HuggingFace Daily Papers（社区热门论文）65Shepherd：一个为元智能体提供形式化执行追踪的运行时基板 12:44HuggingFace Daily Papers（社区热门论文）70精选WorldReasonBench：面向未来世界状态预测的视频生成器人类对齐压力测试 12:44HuggingFace Daily Papers（社区热门论文）62NanoResearch：通过技能、记忆与策略协同演化实现个性化研究自动化 12:44HuggingFace Daily Papers（社区热门论文）64面向智能体强化学习的动态技能生命周期管理 11:44HuggingFace Daily Papers（社区热门论文）64Omni-Persona：系统性全模态个性化基准测试与改进 11:44HuggingFace Daily Papers（社区热门论文）67G-Zero：从零数据出发的开放式生成自我博弈框架 11:44HuggingFace Daily Papers（社区热门论文）64大语言模型中的模型合并缩放定律 11:44HuggingFace Daily Papers（社区热门论文）67叛逆学生：通过反转教师信号实现自蒸馏推理探索 11:44HuggingFace Daily Papers（社区热门论文）68Pixal3D：基于图像的像素对齐3D生成 11:44HuggingFace Daily Papers（社区热门论文）63Mela：基于转换假说的测试时记忆巩固模型

5月13日

08:00

HuggingFace Daily Papers（社区热门论文）

56

SPIN：基于迭代导航的工业任务结构LLM规划

工业LLM代理系统常将规划与执行分离，但LLM规划器易产生结构无效或过长的流程，导致脆弱失败和额外成本。SPIN是一种规划封装器，结合验证有向无环图（DAG）规划和基于前缀的执行控制。它通过验证与修复提示强制执行严格的DAG契约，在下游执行前生成可执行计划，并增量评估DAG前缀以在满足查询时提前停止。在AssetOpsBench的261个场景中，SPIN将执行任务数从1061降至623，任务完成率从0.638提升至0.706，每次运行的工具调用数从11.81减少至6.82。在MCP Bench上，该封装器同样提升了GPT OSS1和Llama 4 Maverick在规划、落地和依赖关系方面的评分。

智能体MCP/工具论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

59

基于Hodge分解的拓扑保持神经算子学习

本文从函数空间视角研究几何网格上物理场方程的解算子。我们发现Hodge正交性通过分离不可学习的拓扑自由度和可学习的几何动力学，从根本上解决了谱干扰问题，实现了结构保持子空间的加性逼近。基于Hodge理论和算子分裂，我们推导了原则性的算子级分解，构建了称为Hodge Spectral Duality (HSD)的混合欧拉-拉格朗日架构。该框架使用离散微分形式捕获拓扑主导分量，并利用正交辅助环境空间表示复杂局部动力学。我们的方法在几何图上实现了更高的精度和效率，同时增强了对物理不变量的保真度。代码已开源。

arXiv开源生态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

通过简单统一的扩展实现奥赛金牌级推理

本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调，以灌输严谨的证明搜索与自我检查行为；随后通过两阶段强化学习流程扩展这些能力，最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01，在仅使用约34万条短轨迹微调和200步强化学习后，能稳定处理超过10万token的长轨迹难题，并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现，同时展现出向数学物理之外科学领域的强推理泛化能力。

arXiv推理数据/训练论文/研究

推荐理由：IMO 金牌级推理模型又多了一个，SU-01 的方法干净统一，特别在超长推理链上的稳定性是真正突破，做推理模型训练和竞赛级 AI 的可以认真读一下。

08:00

HuggingFace Daily Papers（社区热门论文）

62

EvolveMem：基于AutoResearch的LLM智能体自进化记忆架构

针对LLM智能体长期记忆系统中检索机制固定不变的问题，研究团队提出自进化记忆架构EvolveMem。该架构将完整的检索配置（如评分函数、融合策略）构建为结构化行动空间，由一个LLM驱动的诊断模块进行闭环优化。系统通过AutoResearch过程自主运行：诊断模块分析失败日志、定位根因并提出配置调整，再由受保护的元分析器在防性能衰退和探索停滞的保障下应用调整。实验表明，EvolveMem在LoCoMo和MemBench基准上显著优于基线，进化后的配置能跨基准正向迁移，表明系统捕捉到了通用的检索原则。代码已开源。

智能体检索增强论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

66

书签：面向角色扮演代理的高效主动故事情节记忆框架

针对角色扮演代理长期一致性记忆的需求，本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法，避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案，支持概念、行为和状态三种搜索类型，并采用高效同步机制更新答案以供未来复用。相比基线方法，该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中，其性能显著优于现有记忆基线。

智能体arXiv检索增强论文/研究

05:44

HuggingFace Daily Papers（社区热门论文）

66

GridProbe：面向长视频视觉语言模型的自适应测试时计算后验探测

GridProbe提出一种无需训练的后验探测推理范式，以解决长视频理解中二次注意力计算成本高的问题。该方法将视频帧排列在网格上，通过轻量级行列表探测，利用冻结视觉语言模型在答案空间中评估证据，并自适应选择问题相关帧。其核心Shape-Adaptive Selection规则根据问题难度动态确定有效帧预算，实现测试时计算量自适应调整。实验表明，在Video-MME-v2基准上，计算量降低3.36倍，平均准确率损失控制在1.6个百分点内；在LongVideoBench上帕累托占优于基线。该方法支持轻量级选择器与更强QA模型解耦组合，无需重新训练即可提升性能。

多模态推理论文/研究

05:44

HuggingFace Daily Papers（社区热门论文）

62

揭示策略蒸馏：何处有益、何处有害及原因

本研究针对策略蒸馏中监督信号的有效性不明确问题，引入一种免训练诊断框架，以逐词元、逐问题、逐教师的高分辨率评估蒸馏效果。该框架通过定义理想逐节点梯度，并开发可扩展的定向展开算法高效估算梯度，进而计算梯度对齐分数，量化特定蒸馏配置接近理想信号的程度。研究发现，蒸馏指导在模型错误展开时比正确展开时表现出更高的梯度对齐性；在正确展开时，学生模型已表现良好，教师信号往往变得嘈杂。此外，最优蒸馏上下文共同取决于学生模型的能力和目标任务，不存在普遍有效的单一配置。这些发现强调了针对蒸馏进行逐任务、逐词元诊断分析的必要性。

推理数据/训练论文/研究

02:44

HuggingFace Daily Papers（社区热门论文）

51

PlantMarkerBench：一个用于评估基于文献的植物标记基因推理能力的多物种基准

研究团队发布了PlantMarkerBench，这是一个用于评估从生物学全文文献中获取证据支撑的植物标记基因解释能力的多物种基准。该基准涵盖拟南芥、玉米、水稻和番茄四个物种，包含5,550个标注了证据有效性、类型和支持强度的句子实例，并定义了两项评估任务。测试显示，前沿模型在处理直接表达证据时表现尚可，但在功能、间接和弱支持证据上性能显著下降，且开放权重模型在模糊生物背景下假阳性率较高。该基准为基于文献的生物证据归因提供了可复现的评估框架。

推理数据/训练论文/研究

00:44

HuggingFace Daily Papers（社区热门论文）

66

Pi-Serini下的代理搜索再思考：词法检索是否足够？

本研究探讨在大型语言模型（LLM）代理循环中词法检索器的有效性，引入Pi-Serini搜索代理，配备检索、浏览和阅读工具。通过将优化配置的BM25与前沿LLMs（如gpt-5.5）配对，在BrowseComp-Plus数据集上的实验显示，该方法支持深度研究，实现83.1%答案准确率和94.7%表面证据召回率，优于使用密集检索器的搜索代理。消融实验表明，BM25调优比默认设置提升答案准确率18.0%和表面证据召回率11.1%，增加检索深度比浅层检索进一步提升表面证据召回率25.3%。源代码已公开。

智能体搜索论文/研究

00:44

HuggingFace Daily Papers（社区热门论文）

60

DeepRefine：基于强化学习的智能体知识库精炼

DeepRefine 是一种基于大语言模型的通用推理模型，旨在通过与知识库进行多轮交互，精炼其中存在的缺陷（如证据缺失、断言置信度低或指代模糊等问题），从而提升其在开放域、知识密集型下游任务中的适用性。该模型通过溯因诊断定位缺陷，并执行针对性操作以增量更新知识库。为在没有黄金参考的情况下优化精炼策略，研究引入了“超越草案增益”奖励，并采用强化学习进行端到端训练。大量实验表明，该方法能在多个强基线模型上带来一致的下游性能提升。

智能体检索增强数据/训练论文/研究

00:01

elvis@omarsar0

68

Nous Research提出Lighthouse Attention：一种可移除的训练时注意力加速方案

Lighthouse Attention是一种用于加速长上下文预训练的子二次注意力包装器。其核心是在训练时，通过一个无梯度的分层选择层对称压缩查询、键和值，从而包装标准SDPA注意力并保持因果性。关键优势在于，训练末期可通过简短恢复阶段完全移除该包装器，使得部署模型仍使用原始注意力机制，不增加任何推理开销。初步实验表明，它能缩短总训练时间并降低最终损失。与多数需改变架构或牺牲质量的方案不同，该方法作为纯训练时优化，成功规避了这两大问题，若未来可扩展，将成为长上下文预训练的重要加速工具。

数据/训练论文/研究

5月12日

22:44

HuggingFace Daily Papers（社区热门论文）

63

提示-激活对偶性：通过注意力层干预改进激活引导

针对传统残差流引导在多轮对话中因KV缓存污染导致连贯性下降的问题，本研究提出门控裁剪注意力差值引导（GCAD）方法。该方法从系统提示对自注意力的贡献中提取引导信号，并通过令牌级门控机制施加干预，从而避免累积性污染。在角色引导实验中，GCAD在保持特质控制的同时，显著提升了长程对话的连贯性。在多轮基准测试中，它将平均连贯性漂移从-18.6改善至-1.9，并将第10轮的特质表达率从78.0%提升至93.1%。结果表明，沿模型已有的提示介导路径进行干预，能使激活引导更为可靠。

安全/对齐论文/研究

22:41

Perplexity@perplexity_ai

56

我们发布了关于如何在NVIDIA GB200 NVL72 Blackwell机架上部署训练后Qwen3 235B模型的新研究。 GB200不仅是训练平台，更为大型MoE模型的高吞吐量推理带来了重大升级，相比Hopper实现显著进步。

论文/研究部署/工程

21:44

HuggingFace Daily Papers（社区热门论文）

69

键值均值注意力机制

研究团队提出键值均值注意力机制，这是一种支持固定或可增长状态的新型分块循环注意力。在强Transformer基线中引入固定大小的KVM层，仅需极少参数即可构建高效的O(N)分块RNN。使用可增长KVM缓存训练的模型在长上下文任务中表现优异，仅需次二次方预填充时间和次线性状态增长。该机制基于标准操作实现，无需定制内核，支持分块并行化训练与预填充，兼具传统Transformer与线性RNN的优势。它可应用于每一层以节省KV缓存内存，并在O(N)到O(N²)之间提供灵活的预填充时间复杂度选择，也可与线性RNN层混合部署以增强长上下文解码能力。相关代码与模型已开源。

开源/仓库论文/研究部署/工程

21:29

AK@_akhaliq

56

Qwen-Image-2.0 技术报告

图像生成多模态论文/研究

21:29

AK@_akhaliq

57

TMAS 通过多智能体协同扩展测试时计算

智能体推理论文/研究

21:29

AK@_akhaliq

54

叛逆学生通过逆向教师信号进行推理探索结合自蒸馏的RLVR方法

推理论文/研究

21:29

AK@_akhaliq

64

TMAS 通过多智能体协同扩展测试时计算

智能体推理论文/研究

20:44

HuggingFace Daily Papers（社区热门论文）

58

ELF：嵌入式语言流

研究团队提出嵌入式语言流（ELF），这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同，ELF在绝大部分采样过程中保持在连续空间，仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术（如无分类器引导）。实验表明，ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型，并能以更少的采样步骤实现更优性能，为构建有效的连续扩散语言模型提供了新路径。

arXiv数据/训练论文/研究

18:44

HuggingFace Daily Papers（社区热门论文）

57

Muon能微调Adam预训练的模型吗？

本研究探讨了在微调Adam预训练模型时，若将优化器直接切换为Muon会导致性能下降的问题，并将其归因于两者不同的隐式偏差造成的优化器不匹配。这种不匹配会破坏预训练知识，且其影响程度与参数更新强度成正比。实验表明，通过采用LoRA等参数高效微调方法来约束更新，可以有效缓解该问题。在语言和视觉任务中，LoRA显著缩小了全参数微调下Adam与Muon之间的性能差距。对LoRA秩、灾难性遗忘及变体的进一步研究证实，不匹配的严重程度确实与更新强度相关。相关代码已开源。

开源/仓库数据/训练论文/研究

17:59

AK@_akhaliq

63

Soohak 一个由数学家策划的基准测试，用于评估LLMs的研究级数学能力

Hugging Face推理论文/研究

16:59

AK@_akhaliq

58

Pixal3D 从图像生成像素对齐的三维模型

arXiv多模态论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

69

RoboMemArena：一个全面且具有挑战性的机器人记忆基准

研究团队推出机器人记忆基准 RoboMemArena，包含26个长轨迹任务，平均轨迹长度超1,000步，其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹，并提供记忆相关标注，同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构，通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库，并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型，为复杂记忆系统的设计提供了新见解。

智能体arXiv具身智能论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

61

CapVector：在参数空间中为视觉-语言-动作模型学习可迁移的能力向量

本文提出CapVector方法，以解决预训练视觉-语言-动作模型在标准微调中性能提升有限的问题。该方法将辅助目标微调的两个核心目标——增强通用能力与拟合任务特定分布——在参数空间进行解耦。仅需在小规模任务集上使用两种策略训练至收敛，所得两模型间的参数差值即构成“能力向量”。该向量与预训练参数合并后，能形成能力增强的元模型。实验表明，结合轻量正交正则化的标准微调，能以更低计算成本达到与辅助微调基线相当的性能，且所得向量在不同模型与新环境中均表现出有效性和泛化能力。

具身智能论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

65

SlimSpec：用于加速推测解码的低秩草稿模型LM-Head

推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理，但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断，但增加了复杂性。本文提出SlimSpec，采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出，从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估，SlimSpec在延迟和吞吐量场景下，相比标准LM-Head实现了4-5倍加速，同时保持有竞争力的接受长度，端到端加速效果超越现有方法8-9%，且对训练和推理流程改动最小。

arXiv推理论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

62

TMAS：通过多智能体协同扩展测试时计算

研究提出TMAS框架，通过组织多个专用智能体在推理过程中进行协作，实现跨智能体、轨迹与迭代的结构化信息流动。该框架引入分层记忆系统：经验库存储可靠的低层中间结论与局部反馈以供复用，指导库则记录已探索的高层策略以引导后续推理避开冗余模式。同时，团队设计了适配TMAS的混合奖励强化学习方案，在保持基础推理能力的同时，提升经验利用率并鼓励对新策略的探索。在多个高难度推理基准测试中，TMAS展现出优于现有基线的迭代扩展能力与稳定性。

智能体推理论文/研究

15:44

HuggingFace Daily Papers（社区热门论文）

59

DECO：面向终端设备的稀疏混合专家模型，实现媲美稠密模型的性能

为克服混合专家模型参数量大导致的存储与访存瓶颈，研究团队提出稀疏MoE架构DECO，以适配终端设备对高性能、低计算成本和小存储开销的需求。DECO采用基于可学习专家级缩放的ReLU可微分灵活路由，自适应平衡路由专家与共享专家的贡献，并引入NormSiLU激活函数提升路由稳定性与稀疏度。实验表明，在总参数量和训练数据量相同的情况下，DECO仅激活20%的专家即可匹配稠密Transformer性能，且超越现有MoE基线；其专用加速内核在真实硬件上实现了相比稠密推理3.00倍的加速。代码与模型将开源。

开源/仓库推理端侧论文/研究

14:44

HuggingFace Daily Papers（社区热门论文）

65

Alpha Blending假说：深度伪造检测中的合成捷径

本文提出Alpha Blending假说，认为当前先进的深度伪造检测器主要依赖定位伪造人脸与原始帧合成时产生的低级合成痕迹，而非识别语义异常或生成指纹。实验证实检测器对自混合图像及非生成式篡改高度敏感。基于此提出的BlenD方法，仅使用真实人脸与自混合图像训练，在2019至2025年的15个复合深度伪造数据集上实现了最优的跨数据集泛化性能。通过集成显式混合搜索器与抗混合捷径的模型预测，AUROC指标提升至94.0%，达到最新最高水平。代码与模型将公开。

安全/对齐数据/训练论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

62

通过强化学习将分布感知注入多模态大语言模型以解决深度不平衡回归问题

针对多模态大语言模型在长尾目标分布下数值回归表现不佳的问题，本研究提出一种基于分布感知的强化学习框架。该方法通过群组相对策略优化，引入基于一致性相关系数的奖励机制，在批次层面提供基于比较的监督，使模型预测分布与真实分布在相关性、尺度和均值上对齐。该即插即用框架无需修改模型架构。在统一的长尾回归基准测试中，该方法相比监督微调和现有回归方法取得了持续改进，尤其在中等样本和少样本场景下提升显著。

多模态数据/训练论文/研究

13:44

HuggingFace Daily Papers（社区热门论文）

59

PaperFit：面向科学文档的视觉在环排版优化

研究团队提出了视觉排版优化任务，旨在通过迭代的视觉验证与源码修订，将可编译的LaTeX论文转化为视觉精良且符合页面预算的PDF。为此，他们构建了PaperFit-Bench基准，涵盖10种会议模板和13种缺陷类型。论文提出的PaperFit系统是一个视觉在环的智能体，能够迭代渲染页面、诊断排版缺陷并执行约束修复。实验表明，PaperFit大幅优于所有基线方法，证实了从可编译源码到可出版PDF的转化需要视觉在环的优化，且该任务是文档自动化流程中一个关键缺失环节。

论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

65

Shepherd：一个为元智能体提供形式化执行追踪的运行时基板

Shepherd提出了一种函数式编程模型，将元智能体对目标智能体的操作形式化为函数，其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪，支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍，重放时提示缓存复用率超过95%。应用案例表明，其实时监督可将结对编程通过率从28.8%提升至54.7%；反事实元优化在四个基准测试中最高超出基线11个百分点，同时减少高达58%的挂钟时间；在Tree-RL训练中，于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。

智能体arXivMCP/工具开源/仓库

12:44

HuggingFace Daily Papers（社区热门论文）

精选70

WorldReasonBench：面向未来世界状态预测的视频生成器人类对齐压力测试

研究团队发布WorldReasonBench基准，旨在直接评估视频生成模型作为“世界模拟器”的推理能力。该基准包含436个测试案例，涵盖物理、社会、逻辑和信息四大维度及22个子类，要求模型根据初始状态与动作生成状态演化一致的未来视频。评估采用人类对齐的双部分方法：过程感知推理验证通过结构化问答检测时序与因果错误；多维质量评估则对推理质量、时序一致性和视觉美学进行评分。测试发现，当前先进模型在视觉合理性与世界推理能力间存在显著差距，生成的视频可能看似逼真却违反动态、因果或信息守恒规律。相关资源已开源。

多模态视频论文/研究

推荐理由：视频生成越来越像真的，但逻辑和因果一塌糊涂，这个基准把问题量化了，想做世界模拟器的团队可以拿来测测自己的模型到底懂不懂世界。

12:44

HuggingFace Daily Papers（社区热门论文）

62

NanoResearch：通过技能、记忆与策略协同演化实现个性化研究自动化

针对现有AI研究系统缺乏跨项目知识复用、用户经验保留与隐式偏好学习能力的问题，本文提出NanoResearch多智能体框架。该框架通过技能库、记忆模块和无标签策略学习三层结构协同演化：技能库提炼可复用操作规则，记忆模块保存用户与项目特定经验，策略学习将自由反馈转化为规划器参数更新。三者循环促进，使系统能基于个人历史与偏好持续自我优化。实验表明，NanoResearch性能显著优于现有系统，并能随使用周期不断降低成本、提升研究成果。

智能体论文/研究

12:44

HuggingFace Daily Papers（社区热门论文）

64

面向智能体强化学习的动态技能生命周期管理

研究团队提出SLIM框架，用于动态管理大型语言模型智能体在强化学习中使用的外部技能。该框架将活跃技能集视为与策略学习协同优化的变量，通过留一验证评估技能边际贡献，并执行三项操作：保留高价值技能、淘汰贡献可忽略的旧技能、在持续失败时扩展技能库。在ALFWorld和SearchQA基准测试中，SLIM平均超越最佳基线方法7.1个百分点。实验表明，策略学习与外部技能保留可共存：部分技能被策略内化，另一些则持续提供外部价值，验证了动态技能管理的普适性与优越性。

智能体MCP/工具论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

64

Omni-Persona：系统性全模态个性化基准测试与改进

研究团队推出首个全面的全模态个性化基准测试框架Omni-Persona，涵盖文本、图像和音频三大模态，包含4个任务组和18个细粒度任务。该研究将任务形式化为在“人物模态图”上进行跨模态路由，并提出了同时奖励正确基础定位与恰当弃答能力的校准准确率作为核心评估指标。诊断实验揭示了开源模型存在持续的音频与视觉基础定位差距，同时发现可回答召回率和参数规模不能完全诊断模型表现，而基于结果的强化学习虽泛化更一致，但在当前奖励设计下会趋于保守。该基准为后续训练和奖励设计提供了关键指导。

多模态论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

67

G-Zero：从零数据出发的开放式生成自我博弈框架

针对大语言模型在开放域任务中依赖外部评判导致的能力瓶颈与奖励破解问题，研究团队提出无需验证器的协同进化框架G-Zero。其核心是Hint-δ内在奖励机制，通过量化生成模型在有无自生成提示条件下预测结果的偏移，为自我改进提供信号。在此驱动下，提议模型持续生成挑战性查询与提示以针对生成模型的盲点，生成模型则内化这些提示引导的改进。理论分析表明，在理想条件下，该框架具有最佳迭代次优性保证。G-Zero完全从内部动态获取监督，绕开了外部评判者的能力上限，为不可验证领域的持续模型进化提供了可扩展且稳健的路径。

数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

64

大语言模型中的模型合并缩放定律

研究发现语言模型合并遵循一个紧凑的幂律定律，它将模型大小与专家数量相关联：模型容量越大，其性能下限越低；而合并带来的性能提升尾部则随专家数量增加呈现明显的收益递减。该定律在领域内和跨领域均成立，紧密契合不同架构与方法下的实测曲线，并解释了大部分收益在早期获得、且性能波动性随专家增多而缩小这两个稳健规律。基于此的简单理论将性能下限和尾部与基础模型特性及领域多样性联系起来。这一定律使得预测性规划成为可能，例如估算达到目标损失所需的专家数量，或在固定预算下权衡扩展基础模型与增加专家，从而将模型合并从启发式实践转变为一种可计算、可规划的高效方案。

arXiv数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

67

叛逆学生：通过反转教师信号实现自蒸馏推理探索

传统自蒸馏方法在指导学生模型时，会覆盖其成功推理的路径，抑制其自主推理能力。本研究提出一种反向解读自蒸馏信号的新视角：当学生模型在教师模型未预测的路径上成功推理时，这些标记被视为其自主推理的体现。基于此，团队推出了RLRT方法，该方法在GRPO基础上强化正确生成轨迹中的此类标记，将其定义为一种基于学生自身成功的有价值探索，而非均匀多样性探索。在多个版本的Qwen3模型上，RLRT均显著超越了传统自蒸馏和基于探索的基线方法，确立了信息不对称作为强化学习与价值回归框架中一个新的原则性设计维度。

推理数据/训练论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

68

Pixal3D：基于图像的像素对齐3D生成

针对现有图像到3D生成中像素级保真度不足的问题，研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法，通过像素回投影条件方案，将多尺度图像特征直接提升为3D特征体积，从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度，使其接近重建水平。该框架可扩展生成高质量3D资产，并能自然支持多视图生成与高保真、对象分离的3D场景合成。

arXiv图像生成多模态论文/研究

11:44

HuggingFace Daily Papers（社区热门论文）

63

Mela：基于转换假说的测试时记忆巩固模型

受神经科学记忆巩固理论与转换假说启发，本研究提出分层记忆模块（HMM）。该模块包含低频与高频子模块，分别生成抽象概要表征与细粒度细节表征，并通过动态重构组合输出。将其集成至Transformer解码器，形成Mela系列模型，可在测试时进行在线记忆巩固。同时引入MemStack方法，将多粒度记忆特征分布至解码器早期层。实验表明，Mela在所有模型规模上均优于Transformer基线，且在预训练上下文长度固定为4K时，能在显著更长的上下文中保持稳定性能，而基线模型一旦超出训练长度则性能急剧下降。

论文/研究