22:30

HuggingFace Daily Papers（社区热门论文）

RePoT是一种确定性验证重放方法，用于修复思维程序推理中产生的无效动作。当生成的Python轨迹出现无效状态转换时，它会回溯到已验证的前缀状态，并通过一次额外的大语言模型调用来恢复推理。在PuzzleZoo-775基准测试中，RePoT比PoT高出+3至+11个百分点，并在gpt-5.4-mini-medium上达到96.9%的准确率。可控恢复基准Derail-550的实验表明，检查点信息是关键的恢复信号。初步提出的自适应RePoT通过规则调度器在修复与重试间进行选择。

智能体 arXiv 推理论文/研究

21:30

HuggingFace Daily Papers（社区热门论文）

EarlyTom：早期Token压缩实现快速视频理解

视频大语言模型在视频理解中能力强，但处理海量视觉token效率低下。现有方案多在预填充后期压缩，未优化视觉编码器本身。研究指出视觉编码对时间首token（TTFT）延迟贡献大，因此压缩应提前。为此提出EarlyTom，一个免训练的压缩框架，它在视觉编码器内部执行早期视觉token压缩，并引入解耦的空间token选择策略。在单卡A100 GPU上运行LLaVA-OneVision-7B时，EarlyTom将TTFT最高降低2.65倍，FLOPs减少高达61%，同时保持与全token基线相当的准确度，提升了部署实用性。

多模态论文/研究部署/工程

21:30

HuggingFace Daily Papers（社区热门论文）

CoHyDE：大语言模型重写器与稠密编码器的迭代协同训练，用于工具检索

CoHyDE 是一种迭代训练框架，旨在解决大语言模型智能体在大型 API 目录中进行工具检索时面临的核心瓶颈。用户查询常使用口语化、描述不充分的自然语言，而 API 目录使用固定的技术性术语。该框架将稠密编码器与 LLM 重写器视为一个协同演化系统进行训练：编码器在重写器生成的、符合目录风格的假设性描述上通过 InfoNCE 进行重训练；重写器则通过 DPO 根据编码器的检索分数进行偏好对齐。在 ToolBench 目录约 10k 工具的子集上，三轮 CoHyDE 迭代后，其在标准查询上的 NDCG@5 得分较最强单组件基线提升 +2.5 pp，在模糊查询上提升 +6.3 pp。消融实验证实，协同训练是该方法在结构化与模糊查询上均取得优势的关键。

智能体 arXiv MCP/工具论文/研究

21:14

The Decoder：AI News（RSS）

新综述论文认为：代码是AI智能体的思考与行动方式，而非仅仅是其产出

一篇新综述论文提出，自主AI智能体的真正瓶颈并非语言模型本身，而是工具、内存、测试与权限边界等构成的软件层。这一“约束层”将无状态模型转化为能行动的工作智能体。DeepSeek已在北京组建专门的Harness团队，其“模型加约束层等于AI智能体”的公式印证了该观点。

智能体 DeepSeek MCP/工具论文/研究

18:30

HuggingFace Daily Papers（社区热门论文）

迈向一致的视频几何估计

ViGeo是一种前馈基础模型，用于从视频序列中恢复空间密集且时间一致的几何信息。它基于Transformer架构，支持流式、全序列和长视频推理。其核心设计为动态分块注意力机制，在训练时结合双向和因果时间上下文，并在测试时自适应调整。研究还引入基于补全的数据精炼框架，通过训练视频深度补全教师模型生成密集、时间连贯且可靠的训练目标。该模型在同一框架内同时预测深度、点图和表面法线，仅使用公开数据集训练，便在多个相关视频几何估计任务上达到了最先进水平。

视频论文/研究

18:15

Rohan Paul@rohanpaul_ai

本文展示了大语言模型如何在保持答案质量的同时，通过使用更短的上下文来降低成本。

论文提出了“效率前沿”框架，用于统一评估LLM上下文管理策略的成本与性能权衡。核心发现是，在部署时选择合适的上下文方法可使token使用量减少约25%，在部分记忆复用场景下可降低超50%成本，且答案质量损失较小。研究指出，上下文长度存在收益递减，后增加的token成本高但收益小。在5000个HotpotQA问题的测试中，轻量检索适合低复用率，记忆压缩在高复用率下更优，而全上下文提示仍是获取最高性能所需。

arXiv 推理论文/研究部署/工程

17:15

Rohan Paul@rohanpaul_ai

SkillOpt：实现智能体技能自我进化的执行策略

微软提出SkillOpt方法，旨在改进AI智能体技能的优化过程。其核心思想是将一个独立的技能文档视为优化对象，而非直接修改底层大语言模型。该方法让智能体尝试任务，分析成功与失败案例，然后由一个更强的优化器模型对技能文档进行小幅编辑。编辑只会在提升验证集表现时被接受，从而确保技能的稳定改进。在6个基准测试、7个目标模型和3种智能体设置（包括直接聊天、Codex和Claude Code）的共52个测试案例中，SkillOpt均达到最佳或并列最佳。在GPT-5.5上，它将直接聊天的平均准确度提升了23.5点。最终产出的技能文件可读、可移植且可复用，部署时无需重新训练模型。

智能体 Microsoft 数据/训练论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

PhyGenHOI：动态人-物交互的物理感知4D生成

PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示，该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体，物体则通过物质点方法模拟为物理智能体，并以3D高斯作为统一可微表示。交互通过三个耦合机制监督：时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟，以及增强接触保真度的遮罩视频-SDS目标。实验证明，PhyGenHOI能生成物理一致的交互，性能优于基线方法。

arXiv 具身智能多模态论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

Thinking Before Constraining： A Unified Decoding Framework for Large Language Models

本文提出一种名为 In-Writing 的混合解码框架，旨在解决大语言模型自由生成推理丰富但缺乏结构，与约束解码格式统一但可能过早限制推理能力的矛盾。该框架在单次调用中结合二者：模型首先进行无约束推理，待生成特定触发词后再应用结构化解码，从而将推理与格式化明确分离。此方法能有效消除“过早触发”这一失败模式。在涵盖分类与推理任务的多项数据集评估中，In-Writing 相比自然生成，准确率最高提升了27%，性能优于现有方法。相关代码已开源：https://github.com/Nokia-Bell-Labs/InWriting。

推理论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

几何 matters： 3D基础先验用于学习语义对应

自监督视觉模型与扩散模型提取的2D基础特征在语义对应任务中有效，但缺乏显式3D意识，易混淆对称物体的两侧、重复部件及视觉相似结构。新框架引入3D基础模型先验，使用SAM3D估计物体几何与位姿，并通过渲染比较优化进行细化。随后，基于估计位姿将PartField描述符从重建几何渲染至图像平面，生成几何感知特征图以补充DINO与Stable Diffusion特征，同时利用重建形状上的测地距离可靠过滤候选对应。该方法以过滤后的匹配为监督，训练一个轻量级适配器。与以往依赖位姿标注和粗略几何的后训练方法不同，此框架自动获取实例级3D结构并用于指导对应学习。实验表明，该方法在减少人工几何监督的同时提升了语义对应性能。

arXiv GitHub 多模态论文/研究

16:30

HuggingFace Daily Papers（社区热门论文）

当云端智能体遇见设备端智能体：来自混合多智能体系统的启示

智能体AI推理的设计空间横跨两个极端：云端大语言模型性能强大但成本高，设备端小语言模型更经济。混合多智能体系统结合设备端与云端模型，为平衡提供了可能，但也引入了任务准确性、经济成本与设备能耗三者紧密关联的复杂权衡。由于缺乏通用设计原则，此类混合方案多是基于特定领域做出的临时决策。本研究通过改造两种代表性的多智能体架构以适配混合推理，系统探讨了不同设计选择如何影响系统在性能、成本与能耗的Pareto前沿上的取舍。结果表明，小语言模型确实能从大语言模型的辅助中获益，但最优架构高度依赖具体任务，且更多的前沿计算并不总能带来更好的性能。

智能体端侧论文/研究部署/工程

15:30

HuggingFace Daily Papers（社区热门论文）

UniSteer：基于文本引导的激活空间流匹配模型，用于通用大语言模型行为引导

UniSteer是一种文本引导的激活空间流匹配模型，旨在统一控制冻结的大语言模型推理时的内部行为。该模型不依赖固定方向，而是基于自然语言条件学习残差流激活分布的通用条件速度场。推理时，它通过流反转将部分源激活输运至潜状态，并在目标文本条件下重新生成后注入模型。该统一模型同样支持通过选择重建能量最低的文本标签进行激活空间分类。实验表明，UniSteer在行为控制、真实性引导、细粒度概念引导、多约束指令遵循及激活空间分类等任务上提供了统一的接口。

安全/对齐论文/研究

14:30

HuggingFace Daily Papers（社区热门论文）

精选74

彩色噪声扩散采样

扩散模型的生成轨迹具有频谱偏差，早期处理低频全局结构，后期处理高频细节。传统随机微分方程求解器在整个过程中均匀注入白噪声，能量分配效率低。本研究提出彩色噪声采样（CNS），一种免训练的即插即用采样器。它通过动态、随时间和频率调整的噪声调度，更高效地将能量分配给尚未解析的频段。在SiT、JiT、FLUX等架构上的实验表明，CNS作为推理时的替换采样器显著提升了生成质量：在ImageNet-256上，无引导FID在SiT-XL/2上从8.26降至6.27，在JiT-B/16上从32.39降至26.69，在JiT-H/16上从11.88降至8.31，并且在使用无分类器引导时带来一致改进。

图像生成论文/研究

推荐理由：扩散模型采样时的白噪声注入一直很粗糙，这篇论文用动态调制的有色噪声把能量怼到未解析的频段，在多个模型上 FID 直接骨折，而且完全训练无关，拿来就能用。

14:30

HuggingFace Daily Papers（社区热门论文）

ChildVox：一个用于理解和表征儿童期声音的语音、音频与大型音频-语言模型基准

ChildVox 是一个用于评估AI模型对儿童多样化声学信号理解能力的新基准。它覆盖了从出生到学龄的完整发展轨迹，包含生理声音、非语言发声、规范音节和口语语言。该基准整合了17个儿童音频与语音数据集中的20多个子任务，实现了系统性跨语料库、跨领域比较。我们评估了自监督、面向ASR及大型音频-语言模型三类基础模型，任务涵盖生理声音分类、发声与规范音节建模、语音质量评估与识别。结果表明，ChildVox提供了一套高性能模型，能够识别广泛的儿童声学信号，支持下游应用，如表征儿童语言水平和追踪语音发展。

论文/研究评测/基准语音

14:30

HuggingFace Daily Papers（社区热门论文）

面向可验证的多模态深度研究：一个用于交错式报告生成的多智能体框架

大语言模型已将智能体从深度搜索推进至能生成长篇报告的深度研究。然而，可验证的多模态深度研究仍面临挑战。为此，研究提出了Ptah，一个多智能体框架。它通过规划、研究和写作阶段，协调从用户查询到网页报告的生成全流程，其中智能体负责构建计划、收集证据并维护视觉记忆。一个验证智能体确保整个流程的事实依据和跨模态一致性。研究还引入了PtahEval评估协议。实验表明，Ptah能生成比基线更可靠、视觉信息更丰富、更实用的多模态报告。

智能体 arXiv 多模态论文/研究

14:30

HuggingFace Daily Papers（社区热门论文）

超越数学与代码的可验证奖励：面向事实性问答的轻量级基于语料库的过程监督

针对强化学习提升事实性问答准确度时的奖励设计难题，本文提出CorVer方法。它用基于Wikipedia共现统计的轻量级语料库信号，替代了昂贵且不可靠的神经验证器（如NLI或LLM判断器）。CorVer为每个句子分配信用值，并通过简单对齐映射到token级优势，仅需一个0.5B的提取器和单次语料库查询。在覆盖六个指令微调模型和五个问答基准的30个测试组合中，CorVer使每个组合的性能均优于原始基线，其中TriviaQA平均提升+4.1个百分点。在可行配置下，它在20个组合中的18个超越了神经验证器基线，且训练速度快4.8至8.4倍。

arXiv 检索增强推理论文/研究

14:30

HuggingFace Daily Papers（社区热门论文）

发现协作流水线：面向序列社会困境的自主研究

本研究构建了一个两层自主研究系统：外层AI智能体自主重新设计内层用于多智能体序列社会困境（SSDs）的大语言模型策略合成流水线。在Cleanup和Gathering两个游戏、两种福利目标（功利效率与最大化最小）下，该系统在性能上可靠地超越手工设计的基准，显著降低运行方差，并优于仅优化提示词的方法。研究发现，所发现的流水线具有目标依赖性：仅在最大化最小目标下，系统才会向合成器流水线注入显式的公平机制，这种机制在其自身的系统提示词和所有面向效率优化的流水线中均不存在，支持了信息设计理论的观点。

智能体推理论文/研究

13:30

HuggingFace Daily Papers（社区热门论文）

CausaLab：面向AI科学家的交互式因果发现可扩展环境

本文介绍了CausaLab，这是一个评估LLM智能体交互式因果发现能力的可扩展环境。该环境在一个合成实验室内评估两个维度：智能体能否利用因果证据解决问题，以及其答案是否基于忠实恢复的因果机制。每个实验中，智能体接收先验观测数据，对操纵晶体进行干预，并预测反应晶体的共振频率。隐藏的数据生成过程是随机采样的结构因果模型（SCM），成功要求恢复因果图和结构方程。实验表明预测与机制恢复之间存在差距：在6节点纯观测设置中，GPT-5.2-high的任务准确率达92%，但全边F1值仅为0.471。混合观测-干预策略能提升结构保真度，而纯干预对强智能体仍具挑战。研究发现过早停止是主要弱点，一致性验证能缓解该问题。CausaLab将预测成功与因果理解分离开来，揭示了当前LLM智能体作为实验因果推理者的局限。

智能体推理论文/研究

12:29

HuggingFace Daily Papers（社区热门论文）

YOCAUSAL：视频生成距世界模型有多远？一个因果关系的视角

本文提出YOCAUSAL，一个受认知科学“违反期望”范式启发的两层级基准测试，用于评估视频扩散模型（VDMs）的因果理解能力。Level 1通过零成本的时间反转真实视频构建反事实样本，引入“反转惊奇指数”（RSI）量化模型对时间箭头的感知。Level 2引入“因果认知指数”（CCI），利用视觉语言模型将数据集分层，以区分真正的因果推理与时间偏差。对13个先进VDMs的评估表明，感知时间箭头并不等同于理解因果关系，当前模型在因果认知方面与人类水平仍存在显著差距。

arXiv 推理视频论文/研究

11:34

Berryxia.AI@berryxia

文本频率定律的发现与验证

脸谱心智（FaceMind）的研究发现，在保持语义不变的前提下，使用大模型预训练语料中出现频率更高的表达方式，能显著提升模型表现。该规律被命名为Adam’s Law（文本频率定律）。核心实验显示：在数学推理任务中，仅换用高频表述可使准确率平均提升；在机器翻译任务中，使用DeepSeek-V3测试100种语言到英语的翻译，绝大多数语言对在BLEU指标上获得提升。该研究指出现有数据工程忽视了“文本频率”这一维度。Anthropic的Claude Opus 4.7使用新分词器，被业界视为对低频token退化问题的间接验证。

Anthropic DeepSeek 数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

大语言模型的上下文信念管理

该研究指出大语言模型在长时程交互中需要管理累积信息，即上下文信念管理（CBM）。研究提出BeliefTrack基准进行精确评估，涵盖规则发现与电路诊断任务。发现普通大语言模型存在严重的CBM失败，包括无法保持状态、无法更新状态及无法隔离噪声。显式信念追踪提示收效有限，而采用信念状态奖励的强化学习将平均失败率降低了70.9%。进一步的表征层面引导将两项任务的失败率降低了46.1%。相关代码将在GitHub开源。

安全/对齐推理论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

同事件精选70

Qwen-VLA：统一跨任务、环境与机器人形态的视觉-语言-动作建模

Qwen-VLA是一个统一的具身基础模型，将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现，使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台，引入了感知载体感知的提示条件机制，并将操作、导航与轨迹预测统一到一个框架中。实验显示，Qwen-VLA-Instruct在多个基准上表现优异，例如在LIBERO达到97.9%，在真实世界ALOHA实验中平均分布外成功率为76.9%。

具身智能多模态论文/研究

同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

推荐理由：Qwen-VLA 让一个模型同时搞定操作、导航和轨迹，在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段，但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通，做机器人的值得认真读。

11:29

HuggingFace Daily Papers（社区热门论文）

UI-KOBE：面向轻量级图谱引导 GUI 智能体的知识导向行为探索

为解决轻量级移动端GUI智能体在端到端规划上的不足，本文提出UI-KOBE框架。该框架通过自主探索移动应用，构建包含UI状态节点与转换边的应用知识图谱。运行时，轻量级智能体可利用该图谱作为外部引导，结合用户任务与当前屏幕截图，在多种候选动作中进行选择。此方法减轻了轻量级模型进行端到端规划的负担，使其能更有效地执行任务，并兼顾效率、可解释性与隐私保护。

智能体端侧论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

AdaState：用于流式视频生成的自我演化锚点

自回归视频扩散模型通过序列生成帧来制作流式视频。其当前方法因固定锚定于第一帧，导致注意力缓存中的关键值表示占据特权位置，使生成的视频动态性不足、场景进展迟缓，呈现时间上的浅薄性。为此，AdaState 方法引入一个可自我演化的自适应状态来替代固定锚点。该状态是一个隐藏潜变量，模型在每个生成块中将其与内容一起去噪，但不进行渲染。模型通过同时关注前一状态和当前内容来生成场景锚点，使参考点随内容演化。这一设计将时间视为相对概念，为生成过程引入了循环性。实验证明，该自适应状态显著提升了视频动态性，能实现更丰富的运动和自然的场景进展。

多模态视频论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

超越3D视觉问答：将3D空间先验注入视觉语言模型以增强几何推理

视觉语言模型通常缺乏鲁棒的3D空间推理能力。现有方法或依赖3D视觉问答数据集进行微调，导致过拟合；或集成专用3D编码器，显得笨重且不灵活。本研究提出GASP框架，直接将基础几何先验注入大语言模型的Transformer层。该框架利用大规模视频场景的真值几何数据，通过一个小型对应头进行双目标训练：对比损失强化2D视角不变性，深度一致性监督解决3D几何歧义。分析表明，标准模型内部的对应匹配准确率极低（常低于5%）；GASP训练后，该指标峰值超过70%，且时间鲁棒性超过85%。这在下游基准测试中带来显著提升，包括在All-Angles Bench上提升+18.2%，在VSI-Bench上提升+29.0%，且无需任何3D VQA数据训练。

多模态推理论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

AgentDoG 1.5：一个轻量级且可扩展的AI智能体安全与安保对齐框架

AgentDoG 1.5是一个针对Codex和OpenClaw等现代开放世界智能体安全风险的轻量级、可扩展对齐框架。它更新了智能体安全分类法，构建了数据引擎，仅用约1k样本训练出0.8B至8B参数的模型变体，性能与GPT-5.4等闭源模型相当。该框架还构建了高效的训练环境，大幅降低部署开销，并可作为在线护栏进行实时安全审核。实验表明其在复杂交互场景中达到先进水平，所有模型和数据集均已开源。

智能体安全/对齐开源/仓库论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

OmniRetrieval：跨异构知识源的统一检索

现实世界的信息需求需要访问结构多样的知识源，但现有检索器一次只能处理单一类型源。OmniRetrieval 框架能接收自然语言查询，识别合适知识源，并向各源的本地执行引擎发送原生查询。在涵盖文本、关系型和图结构知识源的13个数据集与309个知识库的广泛基准测试中，OmniRetrieval 的性能超越了单源基线，证明其可以作为异构知识源的通用接口，同时保留了每个源独特的结构优势。

arXiv 搜索论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

神经物体运动学：NeuROK

当前数据驱动方法在静态3D物体重建上表现突出，但生成符合物理规律的4D动态形变仍具挑战，现有方法多依赖预定义物理模型与参数估计，局限于特定类别。该研究提出NeuROK，通过学习一个表征物体所有可能状态的潜空间及一个将潜空间采样映射为合理形变形状的解码器，实现了数据驱动的运动状态参数化。其在大规模4D数据集上训练了基于Transformer的编码器-解码器模型，将动态生成简化为低维潜空间中的操作，从而能更高效地生成多类物体的逼真动态。

多模态数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

minWM：一个用于实时交互式视频世界模型的全栈开源框架

minWM 是一个开源全栈框架，能将现有的双向视频扩散基础模型（如 Wan2.1-T2V-1.3B 和 HY1.5-TI2V-8B）转换为支持相机控制、低延迟推演的少步自回归世界模型。它提供了模块化的端到端流程，包含可控微调、Causal Forcing++ 流水线与蒸馏步骤，并可适配如 HY-WorldPlay 等现有模型。项目已开源相关脚本、权重及代码。

开源生态视频论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

GenClaw：代码驱动的智能体图像生成

GenClaw提出一种代码驱动的智能体图像生成范式，让AI智能体像人类艺术家一样分步创作：先通过搜索与推理构建概念，再利用SVG、HTML、Three.js等代码渲染可执行的视觉草图，最后调用图像生成模型补充纹理、材质与真实感。该范式将代码作为连接语言推理与像素合成的可控中间画布，将图像生成从黑盒过程转变为类似人类创作的分步流程，迈向更高可控性与可解释性的视觉生成系统。

智能体 arXiv 图像生成论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

局部模态替换：实现更深度融合的视觉语言模型

现有视觉语言模型存在“载体敏感性”问题，即将文本问题替换为等义图像后性能会显著下降，原因在于训练数据中文本和图像的角色不对称。为此，研究者提出一种轻量级、架构无关的数据整理范式LoMo，其通过将单模态提示词动态重构为“文本、图像、文本”的交错多模态序列，来提供跨模态表征不变性的监督信号。在13个多模态基准测试上的实验表明，LoMo能有效提升模型的多模态推理能力，相比标准SFT，LLaVA-OneVision-1.5-8B提升2.67分，Qwen3.5-9B提升2.82分。

多模态论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

精选75

WorldMemArena：通过行动-世界交互循环评估多模态智能体记忆

针对现有基准无法精确诊断多模态智能体记忆在动态环境中的具体失败阶段，研究提出了“行动-世界交互循环”记忆模型，并构建了WorldMemArena基准。该基准包含400个多会话多模态任务，涵盖“终身进化”和“智能体执行”两类场景，支持对记忆写入、维护、检索和使用的阶段级评估。研究首次对长上下文、RAG等手工设计系统与基于框架的记忆智能体进行直接比较，发现记忆写入与存储质量的提升不直接带来性能改善，且多模态记忆在利用视觉证据及跨领域稳定性上仍存在挑战。

智能体多模态论文/研究评测/基准

推荐理由：首个能定位多模态 Agent 记忆“写、维、取、用”哪一步出问题的基准，头对头比较长上下文、RAG 和自管理记忆，结论是写得好未必用得上，做 Agent 的值得认真看。

11:29

HuggingFace Daily Papers（社区热门论文）

大模型为何能学会更多：容量、干扰与罕见任务保持效应

本研究探讨了更大模型能学习小模型无法掌握任务的原因。通过合成数据实验发现，小模型因神经元资源有限，倾向于将其分配给高频或低复杂度任务，导致其在罕见复杂任务上表现不佳，即使存在可表达该任务的潜在解。大模型则通过一种减弱的干扰机制克服此瓶颈：它们能为常见任务分配足够资源，使得相关梯度更新变弱，从而让罕见任务特征得以缓慢积累而不被覆盖。使用OLMo模型（4M至4B参数）在新任务上的预训练验证了这一结论：只有更大的模型学会了不频繁且复杂的任务，且这些模型在表征中嵌入了更多任务特征，任务间的梯度干扰更少。

数据/训练论文/研究

11:29

HuggingFace Daily Papers（社区热门论文）

PhoneWorld：可扩展的手机使用智能体环境

PhoneWorld 提出了一种可重用流程，能将真实的手机 GUI 轨迹和截图转化为可控的智能体环境、可执行任务及自动验证器。该系统覆盖了 16 个领域的 34 款应用。实验表明，在固定训练预算下，用 PhoneWorld 数据替代部分基准数据，可同步提升四个评测基准的得分。研究还发现，增加 PhoneWorld 监督数据或扩大应用覆盖范围能进一步提升性能，这标志着从构建单一基准转向规模化供应智能体环境的范式转变。

智能体端侧论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

用于生成的原生音视频对齐

针对现有开源方法在联合音视频生成中存在的音视频精细协同不足或语义条件与底层同步耦合的问题，本文提出了NAVA（原生音视频对齐）框架。该框架在专用交互空间建立音视频对应关系后，利用外部上下文条件化联合去噪过程。具体实现上，NAVA采用Align-then-Fuse MMDiT架构，并引入Timbre-in-Context Conditioning技术。在Verse-Bench和Seed-TTS上的实验表明，NAVA仅用6.3B参数即实现了高质量的视频生成、精准的音视频同步、有竞争力的音频质量以及更强的参考音色可控性。

arXiv 多模态视频论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

LaRA：基于逐层表征分析的强化学习后训练数据污染检测

强化学习后训练能提升大语言模型的推理能力，但也可能引入数据污染，影响模型泛化和评估可靠性。现有基于输出层信号的检测方法对RL模型效果不佳。为此，研究提出了LaRA框架，通过逐层分析模型表征来检测污染。该框架引入三个互补指标，分别度量受控扰动下的扰动敏感度、方向坍缩和局部表征刚性。研究发现，污染会导致模型表征在各层出现渐进式几何偏差。基于此，研究开发了一种聚合各层与各指标表征偏差的检测协议，实验表明其性能优于现有的输出级基线方法。

arXiv 推理数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

LoRA 如何记忆？大语言模型微调中的参数记忆定律

本研究使用 LoRA 作为控制探针，系统量化了大语言模型的精确参数记忆能力。提出了参数记忆定律，建立了损失减少量与有效参数及序列长度之间的稳健幂律关系。在 token 层面的分析揭示确定性相变，表明预测概率 p > 0.5 是贪心解码下实现逐字记忆的充分条件。基于此，设计了阈值引导的优化策略 MemFT，能动态重分配训练预算以提升记忆保真度与效率。代码将发布于 https://github.com/zjunlp/ParametricMemoryLaw。

GitHub 开源生态数据/训练论文/研究

10:29

HuggingFace Daily Papers（社区热门论文）

LiteCoder-Terminal：构建用于训练语言智能体的可扩展长周期终端环境

训练能够进行多步规划和动态适应的终端环境语言智能体，其瓶颈在于依赖外部爬取的仓库。研究团队提出了零依赖的合成管道LiteCoder-Terminal-Gen，可从领域规范自主生成可执行、可验证的终端环境。基于此构建了两个大规模资源：包含10个领域、11,255条专家轨迹的SFT数据集，以及拥有602个可验证环境用于轨迹偏好优化的RL环境。在SFT数据集上对通义千问（Qwen）系列模型进行微调后，智能体性能显著提升，其32B变体在Terminal Bench 1.0、2.0和Pro上分别取得29.06%、18.54%和34.00%的pass@1分数。应用Direct Multi-turn Preference Optimization（DMPO）可带来进一步性能提升。

智能体数据/训练论文/研究

09:44

Rohan Paul@rohanpaul_ai

LeJEPA何时学习世界模型？

Yann LeCun团队的新论文探讨了LeJEPA模型学习真实世界隐藏变量的条件。其核心结论是，LeJEPA只有在真实的隐藏变量呈现高斯云结构时，才能可靠地学习它们。论文通过数学证明，当这些隐藏变量是独立高斯变量，并且配对视图由一个稳定的噪声过程生成时，LeJEPA的最优解能够以旋转或翻转等价的形式恢复这些变量。这项研究为自监督AI模型究竟在何时能真正理解世界结构（而不仅仅是提取在测试集上有效的特征）提供了理论解释。

Meta 多模态论文/研究

09:43

Ethan Mollick@emollick

Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文，经由 GPT-5.5 Pro 担任审稿人并指出错误后，Claude 对论文质量进行了量化自评：在1-10的识别度量表上，其稳健性检验后的评分从之前的3.5分提升至4.5分，但认为仍未达到准实验水平（约7分）。因此，Claude 将论文定性为"条件关联一致"的谨慎表述，而非声称因果识别。

Ethan Mollick: I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identifie...

Anthropic OpenAI 大佬观点论文/研究