研究发现,训练单个Transformer层即可恢复甚至超越全参数强化学习(RL)后训练带来的收益。研究引入“层贡献度”量化指标,在Qwen3和Qwen2.5两个模型家族的七个模型上,使用GRPO、GiGPO、Dr. GRPO三种RL算法,覆盖数学推理、代码生成和智能体决策任务,发现RL收益高度集中于少数Transformer层,且高贡献层集中在堆栈中间,两端层贡献显著较小。
研究发现,训练单个Transformer层即可恢复甚至超越全参数强化学习(RL)后训练带来的收益。研究引入“层贡献度”量化指标,在Qwen3和Qwen2.5两个模型家族的七个模型上,使用GRPO、GiGPO、Dr. GRPO三种RL算法,覆盖数学推理、代码生成和智能体决策任务,发现RL收益高度集中于少数Transformer层,且高贡献层集中在堆栈中间,两端层贡献显著较小。
斯坦福大学提出 AutoMem,将智能体的记忆管理从固定模块变为可训练技能。模型自主决定编码内容、检索时机以及笔记组织方式,文件系统操作升级为一级动作。AutoMem 采用双循环机制:强 LLM 审查完整轨迹并重写记忆结构(提示词、模式、动作词表);同时利用智能体自身良好的记忆决策作为训练信号。仅优化记忆(不改任务动作),便在 Crafter、MiniHack、NetHack 上取得 2–4 倍提升,使 32B 开放模型性能媲美 Claude Opus 4.5 和 Gemini 3.1 Pro Thinking。论文:arxiv.org/abs/2607.01224。
研究团队开发 Graph-PRefLexOR,一组图原生推理模型,用 GRPO 微调,将推理组织为机制探索、图构建、模式提取和假设合成等显式阶段。在材料科学与力学的 100 个开放式问题上,相较基础模型提升 40–65%,最大增益来自推理可追溯性。嵌入分析显示语义多样性约为基线 2–3 倍;层间隐藏状态分析表明结构化推理与最终答案对齐更强。测试时图扩展表明,额外算力主要增加有限语义空间内的长距离概念重组。
Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。
CausalMix将大语言模型训练中的数据混合优化重构为因果推断问题,将数据池统计特征作为协变量、领域混合作为处理变量,在512次Qwen2.5-0.5B运行上拟合因果模型估计条件平均处理效应(CATE),外推出800K数据池的最优混合比例并用于训练7B模型。该框架还能泛化至Qwen3-4B-Base的长链式推理数据。通过因果建模隔离混杂偏差,CausalMix动态推断状态依赖的最优数据混合,在多个下游任务上优于RegMix等基线,并借助CATE解释器提供可视化分析。
该论文指出,MCP服务器设计不同于普通API,因为LLM通过纯语言描述选择工具,过多或模糊的工具会导致混淆。作者归纳了5种实际模式(如暴露数据、运行工作流、保持会话状态、组合服务器、翻译混乱领域API),并警告4个常见错误(大而全工具、模糊描述、不安全外部内容、慢工具应返回job ID)。在54个额外服务器上测试发现,弱模型在可见工具超过10-15个时准确率降至90%以下。良好MCP设计的核心是使工具列表小巧、清晰、安全且稳定。
GEAR联合训练向量量化(VQ)分词器与自回归(AR)生成器,通过表示对齐实现端到端学习。为解决VQ索引不可微导致梯度无法回传问题,采用双读出机制:硬one-hot分支用于next-token预测训练AR模型,可微分软分支传递对齐损失指导分词器更新,使AR引导分词器生成更易预测的索引分布。相比LlamaGen-REPA,在ImageNet gFID收敛速度最高提升10倍,并泛化至VQVAE、LFQ、IBQ等量化器及文生图任务。
TerraDiT-Ω是一个统一空间控制框架,可直接利用任意地理空间基元(多边形、折线、边界框、点)进行卫星图像生成。它联合使用精确和粗略标注,适应不同标注预算,适用于城市规划等设计任务。提出Geometry-Aware Local Attention机制,将几何线索注入注意力空间。在所有格式上优于密集和稀疏控制基线。该框架支持可控数据增强,提升土地覆盖分割、目标检测、道路图提取、场景分类等下游性能。代码、数据、权重已开源。
视频世界模型在长时段生成中缺乏记忆,导致场景不一致。MemLearner 提出基于学习的自适应上下文查询方法,利用 query tokens 桥接上下文与预测 token,并借助视频生成模型自身的预训练视觉先验进行上下文查询,无需从头训练额外模块。团队收集了带场景遮挡和动态物体的长视频数据集,辅以相机位姿标注,并采用多数据集训练策略同时利用标注渲染视频和无标注真实视频。实验表明,MemLearner 在场景一致性和记忆方面显著优于以往视频世界模型,尤其在遮挡和动态场景下。
针对扩散投机解码中固定推理块大小且假设最优解码策略对所有输入统一的问题,BlockPilot 提出一种样本自适应策略,利用预填充层的表示首次预测每个样本的最优块大小,将选择问题转化为低维结构化决策空间的轻量策略学习。该方法即插即用、开销极低,在 Qwen3-4B 模型、温度 T=1 条件下,实现接受长度 5.92 和 4.20 倍加速,无需牺牲生成质量。
ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态,通过手部叠加渲染目标适配扩散模型特征,保留世界先验的同时专门化手部特征,再由解码器恢复度量级姿态。整个管道直接处理全帧,无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上,ViDiHand 显著优于现有方法,表明视频扩散模型可作为手部运动重建的新基础,并为具身智能的可扩展野外数据收集提供途径。
NeuWorld提出场景中心范式Walking in the Implicit,将交互式视频生成的滚动变量从帧级潜变量替换为固定长度的可渲染隐式状态NIS。模型利用Transformer VAE从稀疏有姿态帧学习局部锚定的NIS,并通过扩散Transformer根据未来相机轨迹和几何感知历史演化NIS。通过复用VAE编码器作为统一条件器,将相机、参考图像和历史线索映射到同一NIS模态,避免外部异构编码器。模型在公开姿态视图数据上从头训练,未使用预训练视频骨干或3D重建器,实现了强长程一致性和有利推理效率。
Orca通过下一状态预测(Next-State-Prediction)统一建模多模态世界信号,学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注,包含无意识学习(连续视频中的密集自然状态转换)和有意识学习(语言描述事件和VQA监督下的稀疏状态转换)。冻结主干后,仅训练轻量级模态特定解码器,即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。
Qwen 发布关于强化学习编码智能体的新工作,指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹,发现每种信号都存在一个“地平线”:超出该界限后,信号不再跟踪真实正确性,而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题,指标的选择不如它能持续跟踪正确性的时长重要。
ASPIRE是一个持续学习系统,在代码即策略范式下自主编写和优化机器人控制程序,并累积经验为可复用的技能库。其三个组件为:闭环执行引擎(提供细粒度多模态轨迹,支持故障诊断、修复验证)、持续扩展的技能库(将修复蒸馏为可迁移知识)、进化搜索(生成多样化任务序列与控制程序)。在LIBERO-Pro扰动测试中比先前方法提升77%,Robosuite双臂交接提升72%,BEHAVIOR-1K长周期家务提升32%。其技能库实现零样本泛化:在LIBERO-Pro Long上ASPIRE成功率31%,对比方法仅4%。模拟发现的技能初步验证了仿真到真实迁移,减少了不同机器人与API上的编程工作量。
现有医学报告生成评估指标依赖表层n-gram重叠,无法捕捉临床事实准确性且易忽略灾难性诊断错误。AtomiMed是一种通用、跨模态框架,将医学叙述分解为标准化多层次原子临床事实(疾病级实体与位置、形态、严重程度等属性级描述),并通过在地面真实与预测报告间执行智能体交叉验证循环模拟多放射科医生同行评审,实现诊断检测与描述准确性的解耦评估。配套开源工具包MRGEvalKit与多模态基准OmniMRG-Bench(覆盖X光、CT、MRI、超声)。实验表明,AtomiMed与人类判断相关性显著高于传统及基于模型的指标。代码已开源。
Google 新论文提出“验证债务”概念:AI 加快论文产出,但人工核查成为瓶颈。为此推出智能体验证(agentic verification)方案,并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分,深入检查难点并汇总审稿意见,聚焦证明错误、实验漏洞、缺失对比等客观错误,而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中,该工具比单次模型调用发现更多证明错误;在 STOC 和 ICML 的面向作者试点中,许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。
剑桥大学、NVIDIA等机构发表新论文《The Red Queen Gödel Machine》,提出让AI智能体与评估者协同进化,避免固定基准导致的分数停滞或易被利用。每轮训练中,评估者冻结,同时用留出的人类/客观答案单独训练更强评估者,在安全交接点更新。在编程任务上,系统以1.35×-1.72×更少token超越此前最佳自改进编程智能体;论文写作中,协同进化的写作者获得审稿小组约1.86倍的平均接收率提升。论文强调更强AI需要更强的评估者与之共同成长。
CogSENet是一种受鹰视觉启发的动态语义对齐重建框架,用于盲图像去模糊。核心模块包括:语义驱动状态空间模块(SDSSM),通过可微分路由实现语义感知的token重组与提示条件长程依赖建模;双频融合块(BFFB),用小波变换分解高低频特征,模拟鹰视网膜功能分化;连续模糊场(CBF),从模糊图像估计算法融合CLIP语义先验,调制深层潜特征以适应空间非均匀模糊。实验表明,CogSENet以更少参数在视觉质量和结构保真度上超越现有去模糊方法,并在去雾、去雨、去噪任务上表现良好。
BrainJanus是首个统一脑模型,在单一框架内融合脑、视觉与语言。它通过Unified Brain Tokenizer将连续神经动态量化为离散token,与视觉和语言表征在共享Omni空间中对齐。基于All-in-One自回归架构,利用下一token预测实现任意方向生成,包括图像/文本到脑的编码以及脑到图像/文本的解码。实验在多个基准上表现优越,具备零样本泛化能力,并保持可解释的脑拓扑结构。代码已公开。
一篇新论文指出,当前Web假设人类浏览页面、观看广告、点击链接,但AI智能体可收集并总结内容而不回访原站,损害出版商利益并导致网站封锁。作者提议将AI智能体视为人类代理,在Web请求中添加“agent metadata”,标明身份、所代表的人类、目的、限制和支付规则。网站通过新策略文件agents.txt决定允许、限速、收费、继承用户订阅、提供代理友好内容或屏蔽。内容还需附带provenance标签,让智能体识别来源是人类、AI还是两者。缺乏新机制将导致Web更难访问、出版商更难盈利、AI内容循环降低可靠性。
一篇关于自我改进智能体的论文指出,自改进循环往往在评估器固定后停滞——智能体学会迎合固定评估器而非真正进步。剑桥大学提出的“Red Queen Gödel Machine”让智能体与其评估器共同进化,使标准随着智能体提升而持续提高,从结构上避免奖励欺骗(reward hacking)。名称借用了进化军备竞赛的隐喻:双方都必须不断奔跑才能保持原地。论文链接在arxiv。
传统LLM在长项目易因有限记忆空间遗忘细节。Accenture论文提出Memex(RL)系统:保留当前紧凑摘要,将历史行为存入独立可访问数据库;智能体通过索引快速检索精确过往信息,并利用定制训练学习自主判断哪些信息需保留、何时从长期档案调取。该方法避免历史过载,保持智能体对当前目标的专注,解决多步复杂任务中的信息丢失问题。论文链接:arxiv.org/abs/2603.04257。
一项前馈式3D场景重建框架,直接从无姿态多视图图像将场景分解为实例结构化3D token组。每组包含一个捕获实体级身份的实例token和多个编码局部几何与外观的锚点token,解码为一组3D高斯。通过可微渲染联合重建与分割监督学习,无需3D标注。该模型在类无关实例分割上超越逐场景优化基线,在新视图合成上具有竞争力。token组可直接实现实例级场景编辑(移除、平移、插入对象)以及高效开放词汇3D实例检索,检索复杂度随实例数而非基元数增长。
论文提出Grouped Query Experts,在分组查询注意力(GQA)基础上让每个token仅路由到少数query头专家。长上下文时prefill速度提升约1.7-1.8倍。250M参数模型经30B tokens训练,最佳版本准确率56.04(baseline 55.86),仅使用16个query注意力计算中的9个。表明GQA内可实现稀疏注意力且不损质量,但需强学习信号和一个始终打开的共享头。
推理系统通过多次采样(测试时扩展)来回答难题,覆盖率随采样次数增加而上升,但系统必须选出唯一答案。选择精度存在上限——模态天花板,在数十次采样内投票结果即趋稳定;相关性天花板则更早达到。超出这两个天花板后,额外采样只会增加计算成本,甚至让模型更确信错误答案,形成“可识别性差距”:模型能产出但无法选出的正确回答。论文将这一截止点量化为有效样本数,指出瓶颈在于识别正确答案而非生成更多候选。
清华自然语言处理实验室(THUNLP)与面壁智能OpenBMB发布论文,重新审视混合LLM架构中高效注意力(如SWA、Mamba-2、GDN)的实际作用。研究发现:高效注意力设计对短上下文Loss影响极小,但长上下文LongPPL差异显著;全注意力承担检索功能,限制其感受野会大幅提升LongPPL,而限制高效注意力几乎无影响。大窗口SWA导致模型懒惰,延迟检索能力形成。简单方法——对小窗口SWA混合架构的全注意力层仅用NoPE(SWA-128-NoPE),即可用极小短上下文代价显著提升长上下文性能。论文认为瓶颈在于全注意力的检索能力能否被有效激活。
研究人员构建了更严格的FINSABER测试框架,在约20年、多只股票、防挑结果条件下评估FinMem、FinAgent等LLM交易智能体。结果显示,LLM策略在狭窄测试中看似不错,但面对买入持有、规则交易、预测模型和强化学习等简单基线时,在长期公平测试中通常失败。LLM在市场上涨时过于谨慎,下跌时过于冒险,表明理解金融文本不等于能可靠把握市场时机。论文指出,当前LLM可能无法在长期跑赢简单市场策略。
RocketSmith 是一个利用大语言模型编排软件工具、自动执行增材制造设计流程的智能体系统,用于开发可发射的高功率火箭。系统通过子智能体与技能包实现零样本或人在回路中的飞行参数迭代优化,验证飞行稳定性并生成参数化火箭组件。研究团队使用多种 FDM 打印机制造了四枚不同电机与装配构型的火箭,经手动评估和现场发射测试,所有火箭均稳定发射,其中两枚成功回收且具备再次飞行条件。高度计数据表明火箭实际飞行高度达到系统预测远地点高度的 80%,验证了仿真与实验的一致性。
Video-MME-Logical围绕五种时间逻辑操作(状态跟踪、顺序计数、时序排序、动态空间性、结构组合)构建,包含25个细粒度任务类别,通过控制对象状态、转换和逻辑组合来分离评估多模态大语言模型(MLLM)的视频时间逻辑推理能力。实验表明,当前SOTA MLLM与人类之间存在显著差距,且随时间逻辑复杂度增加而扩大。即使对多达500K生成样本进行监督微调,仍无法弥合这一推理鸿沟。该基准为分析和改进MLLM的时间逻辑推理提供了可扩展的测试平台。
TUA-Bench是一个通用终端智能体基准测试,包含120个真实世界任务,覆盖文档编辑、邮件管理、实时网页信息搜索及科研与工程工作流五大类别。任务在真实终端中通过确定性脚本执行,采用基于执行的评分协议评估。最强前沿模型Claude Code搭配Claude Opus 4.8最大推理努力,整体性能65.8%,各任务类别间差距显著。该基准旨在推动从窄任务助手向多数字环境可靠运行的通用终端智能体转变。
ReFreeKV 提出一种无阈值的 KV 缓存压缩方法,通过自适应调整预算分配来消除对输入特定阈值的依赖,解决了传统方法因阈值选择不当导致的性能退化问题。在涵盖不同上下文长度、任务类型和模型规模的 13 个数据集上的实验表明,该方法在保持全缓存性能的同时实现了高效压缩。相关代码已公开。
现有方法依赖人工校准或文本表示,缺乏对认知过程的解释。Epi2Diff将Large Reasoning Models的推理轨迹映射为认知片段序列,提取动态特征并与语义表示结合,进行人类题目难度预测。在四个真实数据集上,Epi2Diff全面超越包括有监督LLM微调在内的强基线,在SAT分类基准上平均相对提升8.1%。更难题目引发更费力、迭代且以实现为中心的片段动态,而非仅更长的回答。
简化稀疏注意力(SSA)无需改变架构,通过在序列中插入gist token并施加注意力掩码进行继续预训练,使模型将各分块关键信息压缩至gist token。推理时,查询仅与少量gist token打分,选择性展开top-k分块的原始token,避免全KV缓存带宽开销。在LongBench上,SSA在相同压缩比下优于压缩和推理时稀疏注意力基线;在检索增强生成中,经继续预训练后超过全注意力5.7个百分点,归因于选择性展开能集中关注相关分块并过滤噪声。分层变体H-SSA在对数线性解码复杂度下,在32倍压缩比时仍维持或提升精度。代码已开源。
新论文"LLMs Do Not Always Need Readable Language"提出BabelTele压缩写作风格,让LLM间通信混合缩写、符号、多语言片段及非传统结构,替代人类自然语言的长文本。即使失去人类可读性,模型仍能回答、记忆并在智能体间传递信息。最强结果:BabelTele保持约99.5%语义保真度,同时将文本压缩至原始长度的27.9%。
一项基于172B token的研究测试了LLM在文档问答场景中的虚构答案频率。关键发现:最佳模型在32K上下文下虚构率1.19%;强模型通常为5%-7%;中等模型对不存在事实的虚构率达25%。当上下文扩展至200K时,所有模型至少虚构10%。更长上下文显著加剧幻觉。研究表明,幻觉不仅是检索失败,模型即便能正确找到事实,也易在事实缺失时过度作答。
Causal-rCM将扩散蒸馏框架rCM扩展至自回归视频扩散,提出教师强制(TF)与自强制(SF)互补训练范式,并发布统一开源算法与基础设施。通过自定义掩码FlashAttention-2 JVP内核,首次实现基于教师强制的连续时间一致性模型(sCM/MeanFlow)用于自回归视频扩散,收敛速度比离散时间版本快10倍。蒸馏后的2步因果Wan2.1-1.3B模型在仅1或2步采样下取得VBench-T2V分数84.63,仅使用合成数据即达到帧级和块级流式视频生成SOTA。该方法还应用于Cosmos 3全模态世界基础模型,实现动作条件生成的交互式世界模型。
DomainShuttle 提出一种面向开放域主题驱动文本到视频生成(S2V)的方法,支持域内(高保真保留参考主体特征)和跨域(允许主体无关属性随文本提示灵活变化)两种场景。该方法引入 Domain-MoT 模块,通过解耦视频与参考特征并采用域感知 AdaLN 进行主体特定建模;提出 Video-Reference DualRoPE 方案,将参考图像 token 与视频 token 置于独立 RoPE 空间实现主体级空间建模;设计 Cross-Pair Consistent Loss 提取不受无关特征干扰的内在主体特征。实验表明,DomainShuttle 在多种开放域场景中相比现有方法实现显著提升,兼具高主体保真度与生成灵活性。
Ling Team 在 arxiv 发表论文,重新思考 FP4 预训练中的格式选择。研究发现,主流 E2M1 格式存在先天 Shrinkage Bias,导致数值量化时左右 rounding bin 不对称,该 bias 在训练中累积拖慢收敛。相比之下,E1M2/INT4 这类 uniform 格式在配合 Random Hadamard Transform(RHT)后,更高的 bucket 利用率能转化为实际量化质量收益,收敛表现优于 E2M1。团队提出 UFP4 方案:在 E1M2/INT4 下为三种 GEMM 操作数启用 RHT,并将 SR 用于 dy 量化。研究认为,细粒度量化与 RHT 引入后,FP4 训练已转向“局部分辨率主导”,uniform 4-bit 格式的价值应被重新评估。
自回归Transformer可生成高质量网格拓扑,但串行解码计算量比并行模型慢数个数量级;连续扩散与流匹配方法无法直接处理离散网格。PolyFlow提出紧凑拓扑嵌入器,将离散顶点位置和法线投影为连续逐顶点嵌入,通过时空距离阈值忠实恢复原始邻接信息。预训练并冻结该嵌入器后,任意网格可转换为统一连续顶点状态空间。基于此表示,PolyFlow采用Transformer流匹配框架,对提取的点云特征条件化,实现完全并行顶点状态去噪;推理时通过ODE求解器快速生成,并支持直接指定目标顶点数精确控制分辨率。在Toys4K基准上,PolyFlow的Chamfer距离和Hausdorff距离均超越现有自回归基线。