5月14日

10:45

HuggingFace Daily Papers（社区热门论文）

研究团队提出非对称流建模（AsymFlow），以解决高维流生成中噪声预测的难题。其核心是秩非对称速度参数化，将噪声预测限制在低秩子空间，同时保持数据预测的全维度，并能解析恢复全维速度，无需改变网络架构或训练流程。在ImageNet 256×256任务上，该方法取得了1.57的领先FID分数。此外，AsymFlow首次实现了将预训练潜在流模型微调为像素空间模型的路径：通过子空间对齐进行无缝初始化，使微调主要改善低级特征而非重新学习生成。基于FLUX.2微调得到的像素模型在多项基准测试中超越了其潜在基础模型，建立了像素空间文生图的新技术标杆。

图像生成论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

基于主动信息搜索的上下文训练

研究为大型语言模型的上下文优化器引入维基百科搜索与浏览器工具，使其能够主动获取外部信息。单纯在标准流程中添加工具会降低性能，但配合基于搜索的训练流程——维护并修剪多个候选上下文——后，模型在多个领域实现显著提升。该方法在低资源翻译、健康场景以及强推理任务上均表现一致且高效，同时具备数据利用率高、超参数鲁棒性强等特点，所生成的文本上下文能很好地迁移至不同模型。

检索增强搜索论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

MAP：一种面向长程交互式智能体推理的先建图后行动范式

针对当前交互式大语言模型代理因环境感知延迟而陷入低效试错的问题，本研究提出可插拔的先建图后行动范式（MAP）。该范式将环境理解前置，包含全局探索、任务特定建图与知识增强执行三个阶段，旨在突破认知瓶颈。实验表明，MAP在多个基准测试中带来一致性能提升。在ARC-AGI-3的25个游戏环境中，前沿模型在MAP加持下于22个环境中超越了接近零的基线表现。同时发布的MAP-2K轨迹数据集证明，基于环境理解的训练优于单纯模仿专家轨迹，验证了先理解环境的核心价值。

智能体推理论文/研究

10:45

HuggingFace Daily Papers（社区热门论文）

精选72

AgentLens：揭示软件工程智能体评估中的"幸运通过"问题

当前软件工程智能体评估仅依赖最终补丁是否通过测试的二元信号，掩盖了解决方案质量的差异。研究分析了2,614条轨迹，发现在可评估的1,815条通过轨迹中，10.7%属于“幸运通过”，表现为回归循环、盲目重试等问题。为此，研究团队提出了用于过程级评估的AgentLens框架，并发布了标注质量分数、冗余信号等信息的AgentLens-Bench数据集。基于质量分数，通过轨迹被划分为幸运、扎实和理想三个等级，不同模型的幸运通过率介于0.5%至23.2%之间。若按质量分数而非通过率排名，部分模型的排名变化显著。相关资源已开源。

智能体论文/研究

推荐理由：SWE-agent评估只看通过率太粗暴了，这篇论文把乱试的“幸运通过”和真方案拆开看，10%的通过其实是蒙的，做agent评估的必读。

09:45

HuggingFace Daily Papers（社区热门论文）

精选72

持续更新导致LLM智能体记忆效用衰退

研究发现，当前由大语言模型驱动的智能体记忆系统在持续整合更新记忆时，会产生错误记忆，导致性能不升反降。即使基于完全正确的经验进行整合，GPT-4在部分问题上仍有54%的失败率，而这些问题是其无记忆时曾成功解决的。性能衰退源于整合步骤本身，而非原始经验。在受控测试中，默认保留原始经历片段的智能体，其准确率是强制整合版本的两倍；完全禁用整合、仅进行片段管理，能达到与自动管理相当的性能。因此，稳健的智能体记忆系统应将原始经历片段视为首要证据，并明确控制整合的触发条件，而非在每次交互后都自动执行。

智能体检索增强论文/研究

推荐理由：LLM 整合记忆的常规套路被这篇论文掀了桌子。连续更新反而会把有用的经验搞坏，甚至 GPT-5.4 自己解过的题，加上记忆后正确率暴跌。做 agent 的人值得认真看看，记忆架构可能要转向保留原始轨迹。