一项新研究提出“语言模型也需要休息”的观点。该论文于2026年5月26日在arXiv发布(编号2605.26099),并在Hacker News上获得102点热度。研究可能探讨了大语言模型在持续运行后需要某种形式的“睡眠”或暂停机制,以恢复性能或优化状态。
一项新研究提出“语言模型也需要休息”的观点。该论文于2026年5月26日在arXiv发布(编号2605.26099),并在Hacker News上获得102点热度。研究可能探讨了大语言模型在持续运行后需要某种形式的“睡眠”或暂停机制,以恢复性能或优化状态。
ICML 2026论文揭示,长上下文大语言模型的性能并非随错误信息增加而线性下降,而是呈现“第一滴墨水”效应。研究发现,仅当上下文包含10%的高难度错误文本时,损害就已基本完成。例如,在一个128K-token的Qwen2.5设置中,这最初的10%错误文本造成了58%的性能损失。其机制在于softmax注意力机制会赋予与问题相近但错误的文本过高权重,仅这10%的高难度干扰文本就能贡献约97%的干扰压力。因此,过滤文档带来的提升可能主要源于缩短了有效上下文,而非移除“坏内容”。
🤖 We often talk about "context rot": LLMs get worse as context grows. But once distracting information enters, is it ju...
CMU与UMD的研究团队在论文《Language Models Need Sleep》(arXiv 2605.26099)中指出,传统Transformer模型在处理长任务时,因注意力机制计算复杂度高及KV cache显存占用持续增长而导致效率低下。为此,他们提出了受生物启发的“类睡眠巩固”机制:模型会周期性进入“睡眠”状态,离线多轮处理最近的上下文,并将信息固化到模型状态空间块的fast weights中,随后清空KV cache。实验表明,增加睡眠深度或时长能显著提升模型后续的推理能力。该框架完全开源,提供了一种区别于暴力堆显存的长上下文处理新范式。
very cool research (and nomenclature)
Meta、CMU等机构在论文中提出了Self-play SWE-RL方法。该方法让编程智能体通过“自我博弈”生成训练数据,而非仅依赖人工标注的问题。具体而言,一个模型探索代码库、注入bug并留下测试用例来描述问题;另一个模型则学习根据测试修复系统。其中,测试成为了描述问题的核心语言。该方法在SWE-bench Verified上提升了+10.4分,在SWE-Bench Pro上提升了+7.8分。值得注意的是,评估使用了该系统未训练过的自然语言问题,表明其可能学到了更深层的软件理解能力。
针对计算机使用智能体(CUA)训练中可验证数据稀缺的问题,本文提出了CUA-Gym这一可扩展流水线,能够协同生成任务指令、环境状态与奖励函数。该流水线包含生成器智能体与判别器智能体,并通过协调器驱动执行与过滤。基于此流程,我们构建了包含32,112个验证元组、涵盖110个环境的数据集。使用GSPO算法在CUA-Gym上训练的A3B和A17B模型,在OSWorld-Verified基准上分别达到62.1%和72.6%的分数,优于同等规模的先前开源模型。模型还在未见过的WebArena基准上取得提升,展现了跨环境迁移能力。项目将开源完整的合成流程、数据集、环境及模型。
当前AI智能体是反应式的,仅在用户提问后响应,浪费了交互间的空闲时间。为解决此问题,本文提出了ProAct主动式智能体架构,它能利用空闲时间,通过分析对话历史与持久记忆预测用户需求,并迭代地获取信息、准备证据,从而在用户提问前填补知识缺口。为评估该能力,研究者发布了包含200个场景的ProActEval基准。实验表明,相比反应式基线,ProAct将任务完成所需轮次减少14.8%,用户操作负担降低11.7%,并将模型幻觉率大幅降低28.1%,同时在MemBench上取得了最先进的反思准确率。
本文提出奖励倾斜分布匹配蒸馏(RTDMD),这是一个将分布匹配蒸馏与奖励引导强化学习统一应用于少步流生成器的两阶段框架。该方法通过最小化到奖励倾斜教师分布的KL散度,自然分解为分布匹配项与奖励最大化项。第一阶段引入环境一致分布匹配蒸馏(AC-DMD),在子区间进行分布匹配,并通过一致性正则化辅助分数模型追踪生成器分布。第二阶段联合优化两项,并推导混合策略梯度及步子集GRPO(SubGRPO)以降低方差。在SD3、SD3.5和FLUX.2上的实验表明,RTDMD仅用4步推理即可在偏好、美学和组合指标上达到新的 state-of-the-art。
现有基于深度学习的低光增强方法受限于有限数据集和单一增强目标,泛化能力和可控性不足。本文提出ControlLight框架,通过构建带有连续光照强度监督的大规模真实退化图像数据集,并引入感知对齐加权流匹配损失以确保不同控制强度下输出结构的一致性,实现了对增强强度的灵活控制。实验表明,该方法在低光增强任务上达到了最先进的性能,同时具备强连续可控性和对真实场景的良好泛化能力。
WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。
为系统评估多模态大语言模型(MLLMs)对隐喻视频的理解能力,研究团队提出了首个专项基准测试 MetaphorVU-Bench。实验发现,当前 MLLMs 在隐喻视频理解上表现不佳,远未达到人类水平,主要缺陷在于跨域映射能力不足。为此,团队构建了一个隐喻知识图谱进行映射增强,并提出了推理时增强框架 MetaphorBoost,该框架实现了性能的持续提升。
RAMP是一个基于YatCC平台的生产级运行时评估基础设施,用于评估长时程软件工程智能体。它通过标准化接口提供统一评估架构,引入含串行依赖和复杂工具链交互的编译器构造工作负载,结合分阶段恢复机制分析局部失败下的执行行为,并采用面向效用的多维度指标联合评估结果质量和过程效率。对15个主流模型的评估显示,传统静态基准无法发现的能力退化:串行工作流中任务完成率从初始阶段100%下降至最终阶段20%,且无一模型完成整个流水线;计算成本在同类模型间差异高达三个数量级。RAMP推动评估向持续、运行时可观测、生产导向发展。
该研究引入一个可解释的深度学习框架,以探究拉丁语演变为奥克语(一种罗曼语)过程中语法性别体系从阳性、阴性、中性三分向二分转变的现象。研究发现,针对这种低资源历史语料,传统分词策略不够稳健,所提出的改进分词器提升了模型性能。在词汇层面评估了词形特征对性别预测的贡献,在上下文层面量化了不同词性类别对语法性别预测的影响,揭示了性别信息在词元及其句子上下文间的分布特征。
本研究探讨了密集检索器位置偏见的成因,聚焦于训练数据中证据位置分布的影响。通过构造证据位于文档开头、中间或结尾的合成训练集,并对8种架构的预训练模型进行微调,实验发现:偏斜的训练分布会使模型偏好相应位置的信息。在位置敏感的评测基准上,位置平衡训练可降低57%–87%的位置敏感性,且检索性能具有竞争力。表示层分析表明,微调能重塑模型的位置偏好,但部分模型中预训练或架构固有的倾向仍会持续。该研究指出训练数据的位置分布是影响检索位置偏见的主要可控因素,平衡数据编排是一种有效的缓解策略。
OmniInteract是一个用于评估实时全模态大语言模型的流式交互基准。它包含250个视频,定义了1,430个需要模型在线响应的时段:1,062个涵盖实时、主动与嵌套场景的单问单答时段,以及368个多问多答时段。模型必须处理原始音视频流,且无法预知未来内容。评估使用交互感知质量-时效性F1分数等指标。实验表明,当前模型在流式交互上表现薄弱,最优的整体IA-QTF1分数仅为0.368。
研究将评估从单轮转向多轮社会交互后,发现大语言模型智能体的隐私违规率显著上升。在对OpenAI模型的测试中,该比例从此前CIMemories基准的19.95%增至本研究的45.30%。隐私泄露具有社交传染性,智能体在观察到同伴泄露后,披露敏感信息的可能性增加8倍。即使有明确隐私指令,泄露率仍高于37.8%。结论指出,静态聊天基准会系统性低估部署风险,仅社会语境就足以引发在单轮评估中无法暴露的敏感信息披露。
跨视图空间推理是视觉语言模型的薄弱环节,因其依赖语言推理而损失几何精度。视觉思考通过生成中间思考图像来解决此问题,但模型常忽略这些视觉证据。研究提出View Dropout训练策略,通过隐藏部分输入视图的应答区域,同时保持思考图像token可见,来促使模型利用思考图像进行回答。研究将视觉思考建模为“可学习性-信息量”权衡,并测试了三种思考图像变体。在合成场景训练并在五个真实世界基准测试评估后,结果表明全景视觉思考结合View Dropout是唯一既具信息量又可学习的配置,实现了最佳跨域泛化。
SAERL是一个面向大语言模型强化学习的数据工程框架,利用稀疏自编码器从模型内部提取信号。它建模了数据的多样性、难度和质量三个属性,并分别对应批次混合控制、难度排序和质量过滤等具体工程操作。实验表明,在通义千问(Qwen2.5-Math-1.5B)上,SAERL相比标准GRPO平均准确率提升3.00%,并能以减少20%的训练步数达到目标准确率。该方法在不同模型规模和RL算法上均有一致收益,且SAE能跨模型系列和规模有效迁移,证明了模型内部信号作为后训练数据工程信号源的实用价值。
AgensFlow是一个开源框架,它将多智能体系统的协调视为部分可观察环境下的在线策略学习问题。该框架使协调决策(如技能调用、角色分配、模型绑定等)变得可观察和可学习,取代了传统的静态流水线设计。在分布式系统事件任务和安全顾问任务上的评估表明,在协调密集型任务中,该框架学习到的路由策略能达到比固定流水线基线更高质量的操作点;其中“skip:X”模块有效隔离了拓扑压缩的作用;热启动策略图能降低探索成本并维持平台期性能。研究支持可学习、可审计的路由能够改进多智能体工作流的协调。
研究发现在On-policy蒸馏中存在“离策略教师衰减”问题:当学生模型的早期轨迹作为上下文时,教师模型为后续token产生修正分数的能力会衰减。为此,本文提出早期停止生成策略,将生成的rollout限制在前几个响应token上。实验表明,该策略在不同模型规模、模型族、任务和训练设置下均能超越完整的On-policy蒸馏性能,并展现出更高的GPU效率和训练稳定性,尤其在跨模型族场景中。研究进一步揭示了其“级联对齐”与“子模式承诺”效应,这解释了其有效性的机制。
Meta、斯坦福与伊利诺伊的研究论文指出,AI智能体在将代码作为主要工作层时性能更佳。论文认为,大语言模型(LLM)作为文本预测器,在处理长任务时存在状态丢失、错误隐蔽等问题。真正的进步并非“AI写代码”,而是“AI在代码环境中思考”。论文的核心是提出一个以代码为中心的“智能体框架”,即工具、记忆、沙箱等系统。在此框架中,测试成为传感器,代码库成为记忆,日志成为历史,沙箱成为边界。生成的脚本成为可运行、检查、修改和共享的操控对象。总结发现,代码能通过可执行步骤帮助智能体推理,通过工具调用行动,并通过测试、日志等对环境进行建模。
研究提出了一个称为统一神经缩放规律的功能形式,能够准确建模并外推深度神经网络在多个维度同时变化时的缩放行为。这些维度包括模型参数数量、训练数据集大小、训练步数、推理步数、计算量及多种超参数。该规律适用于多样架构,并覆盖视觉、语言、数学和强化学习等上游与下游任务。实验表明,相比其他缩放规律的功能形式,UNSL 在该集合上的行为外推结果显著更准确。
本文指出,在大语言模型后训练的可验证奖励强化学习中,学习信号的调度时机与分配位置同样重要。传统方法的信用分配标准在训练中保持固定,而本文引入时间维度,在优化过程中动态调整该标准。具体方法是优先优化展现特定策略行为的 token,并逐渐转向一般化优化,从而使学习过程更稳定高效。实验表明,这种时间调度方法在数学和通用推理基准上实现了持续改进,并能引导更健康的策略演进。
StreamChar是一个面向角色动画的流式音视频生成框架。它将长时间序列的编排与短窗口的音视频去噪进行解耦。核心是由基于大语言模型的编排器生成帧对齐的音频条件,再由联合音视频DiT执行局部双向去噪。为实现高效部署,框架采用两阶段蒸馏流水线。此外,利用进度感知指针和持久视觉锚点来减少音画偏移与长时漂移。实验表明,StreamChar在单张H100 GPU上能实时运行,并在转录保真度、音画同步、视觉质量和流式稳定性方面取得了有利的系统级权衡。
本研究指出,AI智能体的下一个主要瓶颈是系统扩展,而非单纯的模型扩展。研究提出了“扩展执行层”的概念,即需要将基础模型周围的结构化执行层作为首要设计对象。该执行层由记忆、检索、工具使用、编排和验证等组件构成,它们的交互共同决定了智能体的长期行为。论文聚焦于扩展执行层的三大核心瓶颈:上下文治理、可信记忆与动态技能路由。为进行具体讨论,研究开发了CheetahClaws这一参考实现,并与Claude Code、OpenClaw进行了对比。其核心观点是,AI智能体的未来进展将同样依赖于更强的基础模型与更优的系统设计。
CollectionLoRA是一个多教师在策略蒸馏框架,旨在解决为扩散模型定制大量视觉效果时,因存储、加载多个LoRA导致的部署开销及参数干扰问题。该框架可将多达50种独立的效果LoRA概念与少步生成能力统一蒸馏到一个单一的LoRA模型中。其核心技术包括概率双流路由机制、非对称正交提示策略以及粗到精蒸馏目标,用以增强泛化、隔离概念并弥合教师与学生模型间的分布差异。评估显示,CollectionLoRA在显著降低部署成本的同时,实现了与独立教师模型相当或更优的概念保真度。
PaGeR(全景几何重建)是一个将3D基础模型扩展到全景领域的框架。它基于预训练的3D重建 Transformer 架构,通过最小化改动并混合透视与全景图像进行训练,使其能在单次前向传播中从透视和全向图像预测尺度不变深度、度量深度、表面法线和天空掩码。该模型在透视和全景图像上均实现了高性能,能够在室内和室外环境中从单张全景图像估计几何一致的360度场景,展现出卓越的零样本性能。
本研究旨在评估现有视频质量模型能否准确评估基于扩散模型的视频超分辨率方法。通过将模型预测与主观测试结果进行对比,研究分析了六种超分辨率方法(Lanczos, Rhea, SCST, DOVE, SeedVR2, Starlight Mini)在处理压缩(AV1, DCVC-RT)和未压缩低分辨率视频时的表现。结果表明,基于CNN的全参考模型(如LPIPS, DISTS, CVQA-FR)表现出更高的相关系数。大多数模型高估了SCST的结果,而VMAF主要因Starlight Mini引入的空间不一致性而失效。最终,所有测试的视频质量模型均未达到足以替代主观测试的准确度。
B³D-RWKV 是一种扩散 RWKV 变体,旨在统一因果大语言模型与离散扩散模型。它通过三元组块布局方法,将 RWKV 的 O(L) 线性推理效率与并行、双向的离散扩散过程相结合。该模型在 7.2B 参数规模下,在 8 项任务套件中达到了与现有模型相当的准确率,同时解码吞吐量显著优于基线,平均速度提升达 1.6 倍。
自主研究智能体虽能生成看似专业的论文,但存在可验证性缺陷,如模型幻觉引用、分数不可复现及方法描述与实现不符。本文提出三项贡献:Chain-of-Evidence(CoE)验证框架,要求每个声明可追溯至证据源;ScientistOne系统,在文献调研、方案发现和论文撰写中构建证据链;CoE Audit审计工具,进行四项完整性检查。在对涵盖五个系统的75篇论文评测中,所有基线系统均存在系统性问题,如幻觉引用率达21%。ScientistOne则实现零幻觉引用、完美的分数验证及最高的方法-代码一致性,并在五项任务上匹配或超越人类专家水平,还成功泛化至其他任务,在 Parameter Golf 上达到SOTA。
针对“大语言模型能否检视并报告其内部状态”这一问题,本文基于人类元认知研究指出,现有结论可能为时过早。作者重新审视了两个评估范式:在第一个范式中,模型无法可靠区分针对其内部状态的干预与输入操纵;在第二个范式中,仅访问输入的分类器能达到与模型自身预测相当的性能,且引入的重新标记控制实验显示模型表现接近随机。这些结果表明,当前证据不足以确立LLM展现出真正的内省或元认知监控能力。
NSF-SciFy是一个从美国国家科学基金会奖项摘要中提取的科学主张数据集,包含来自40万篇摘要的280万条主张,涵盖所有科学与数学学科。提供了两个子集:材料科学方向的11.4万条主张和跨五个部门的13.5万条主张。研究采用零样本提示联合提取科学主张与研究方案,并在非技术摘要生成、主张提取等三个下游任务上微调模型,获得显著提升,相对增益常超100%。代码与数据已开源。
本研究提出CroCo方法,扩展了英语中基于自生成响应的对比偏好调优技术。该方法无需语言特定的偏好标注即可实现跨语言迁移,在包含14种高低资源语言的评估中,使用英语偏好训练的奖励模型能为多数语言生成有效的语言内排序。在EuroLLM-9B与Aya-3B两个模型上的实验表明,单语或多语配对设置均能提升多数任务性能,并防止监督微调导致的灾难性遗忘。具体而言,在结构化任务上,调优后模型在EuroLLM-9B的6/7种语言和Aya-3B的4/7种设置中达到或超过基础模型水平;在开放式生成任务中,两个模型在全部11种评估语言上均优于基线。
LongAV-Compass 是一个针对分钟级音视频生成的系统化评测基准。它包含 284 个精选测试用例,覆盖文本到音视频(T2AV)、图像到音视频(I2AV)和视频到音视频(V2AV)三种条件模态。该基准采用分类引导构建方法,并整合了统一评估框架。该框架结合了多模态大模型(MLLM)辅助评估与多种感知及多模态指标,例如 DINO-v2、ArcFace、CLIP 和 ImageBind,对超过 20 个细粒度维度进行评分,涵盖片段内质量、跨片段一致性、全局叙事连贯性、语义对齐以及音视频同步等方面。通过对 11 个代表性模型进行实验并经过人工对齐验证,LongAV-Compass 为分析现有系统在跨模态条件下维持连贯、语义对齐且时间一致的分钟级音视频生成方面的局限性提供了诊断性测试平台。
MobileGym是一个浏览器托管、轻量级且完全可控的移动端日常使用环境。它实现了基于结构化JSON状态的确定性状态判定,以提供可验证的结果信号,并通过低成本并行轮转实现可扩展的在线强化学习。其完整环境状态以JSON进行捕获与配置,单个服务器可托管数百个并行实例,单实例内存约400MB,冷启动约3秒。配套的MobileGym-Bench提供了覆盖28个应用的416个参数化任务模板。在Sim-to-Real案例研究中,使用GRPO对通义千问Qwen3-VL-4B-Instruct进行训练,在测试集上提升了+12.8个百分点,且真实设备执行保留了仿真端95.1%的训练增益。项目主页:https://mobilegym.github.io。
提出几何感知表征去噪(GARD)框架,用于解决真实退化条件下多视角3D重建的鲁棒性问题。该框架在前馈3D重建模型的特征空间中执行基于扩散的多视角修复,利用其几何感知表征恢复精确场景几何结构。同时,通过额外的RGB图像解码器,可同步恢复高质量RGB图像。在Depth Anything 3 (DA3)基准测试上的全面实验证明了该框架的有效性。
阿里巴巴与南京大学提出RTPurbo,一种轻量级适配方法。该方法发现,已训练的全注意力模型内存在隐藏的稀疏结构。它利用一个轻量的16维token查找器作为“侦察兵”,为少数需要长程信息的关键注意力头定位重要token,而让其他头主要关注局部文本。基于此,RTPurbo在100万token预填充任务上,相比FlashAttention-2实现了高达9.36倍的加速,解码阶段也约有2倍加速,同时在长上下文和推理基准上保持了接近全注意力模型的精度。该研究表明,长上下文推理中的计算浪费具有可挖掘的结构性。
论文研究了大型语言模型代理在后端代码生成任务中存在的脆弱性,特别是“约束衰减”现象。该研究揭示了这类智能体在处理复杂后端开发时,其生成代码的质量或遵循指定约束的能力会随任务难度或上下文变化而出现下降。
一篇新论文提出对通用人工智能(AGI)的明确定义,认为AGI是一种“人工科学家”。该模型需要像人类科学家一样,具备自主规划实验、学习因果关系、平衡探索与行动的能力。其核心在于适应性,即能在计算、记忆和能量限制下,像人类科学家一样广泛、高效且科学地适应新环境和任务,评判标准是其发现和适应能力,而非通过拟人化测试。
WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后,模型生成未来帧,使选定物体沿轨迹运动同时相机继续导航。其核心包括:Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影;Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力;Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制,保持相机保真度,并维持跨长自回归滚动的物体状态。
标准的下一Token预测(NTP)仅使用输出logit空间的离散标签进行监督,这导致潜在表示空间约束不足。为解决此问题,本文提出了NITP方法,它在表示空间中引入了密集的连续监督信号。NITP训练模型预测下一Token的隐式语义内容,并以同一模型的浅层表示作为稳定的自监督目标。理论分析表明,NITP能正则化优化过程,促进紧凑且结构化的表示几何。实验表明,在从0.5B到9B参数的密集与MoE模型上,NITP以可忽略的计算开销持续提升了下游任务性能。在一个9B MoE模型上,NITP在MMLU-Pro上实现了5.7%的绝对提升,在C3和CommonsenseQA上分别带来了6.4%和4.3%的提升,仅增加约2%的训练FLOPs且无额外推理成本。