在线策略蒸馏(OPD)结合智能体在线轨迹与密集教师监督,分析发现其更新幅度小且坐标稀疏,分布在各层、集中于FFN权重。仅训练子网络即可恢复近完整性能;但密集监督保留异质梯度尺度,SGD逊于AdamW。几何上更新满秩但谱集中,主要偏离源权重主奇异子空间,落在源权重近零的坐标上。
在线策略蒸馏(OPD)结合智能体在线轨迹与密集教师监督,分析发现其更新幅度小且坐标稀疏,分布在各层、集中于FFN权重。仅训练子网络即可恢复近完整性能;但密集监督保留异质梯度尺度,SGD逊于AdamW。几何上更新满秩但谱集中,主要偏离源权重主奇异子空间,落在源权重近零的坐标上。
研究揭示,LoRA中缩放因子α与学习率作用不同,α才是有效优化的主导因素。通过Signal-Drift框架与实证,发现三个机制:LoRA的光谱抑制平滑优化面,使标准超参数过于保守;α放大任务信号而不增加漂移比,比学习率更有效加速收敛;最优α与秩呈平方根律次线性关系,现有秩绑定启发式缩放不足。基于此提出LoRA-α框架,将α恢复至原则性区间,兼容标准小学习率,持续提升性能并简化超参数搜索。
μ_0是基于3D轨迹的可扩展世界模型,通过预测物体、工具、手及接触区域等关键交互点的平滑3D轨迹,形成紧凑且无关具身形态的运动接口。其配套的TraceExtract系统可从多样化视频源自动提取3D监督。μ_0结合预训练视觉-语言骨干与模块化轨迹专家,用B样条控制点表示查询并预测未来轨迹。实验显示,μ_0在2D和3D轨迹预测上优于基线模型。冻结后的μ_0可搭配下游机器人动作专家,无需动作标签预训练的策略性能与使用动作监督预训练的VLA模型相当。
Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。
现有PPO风格信任区域机制对所有token施加统一阈值,忽视自回归生成的非对称性和累积前缀漂移。CPPO通过位置加权阈值和累积前缀预算两种耦合机制进行优化:早期位置限制更严格以抑制序列级漂移,后期位置放宽约束以保障探索;同时动态追踪历史偏差,防止前缀沿累计误差。实验表明,该方法在不同模型规模下均能提升训练稳定性并显著提高推理准确率。
Google Research 在 AISTATS 2026 发表正则化 f-散度核检验,用于高效审计 LLM 等模型的机器遗忘。该方法通过统计两样本检验判断模型是否真正“忘记”特定训练数据,避免完全重训的巨大成本。相比最大均值差异等现有工具,新框架理论上可在任意样本量下自然控制假阳性,且假阴性风险随可用样本增加可靠收敛至零,解决了大规模模型审计中计算成本过高的问题。
现有智能体强化学习多基于工具调用边界等粗粒度单元分配回报。APPO将分支与信用分配迁移至序列中的细粒度决策点:通过分支分数(结合token不确定性与后续延续的策略诱导似然增益)选择分支位置,过滤高熵噪声;引入过程级优势缩放优化分支轨迹间的信用分布。在13个基准测试上,APPO在保持工具调用效率和行为可解释性的前提下,将强基线性能平均提升近4个点。
DeLM是一种去中心化多智能体系统框架,通过并行智能体、共享已验证上下文和任务队列避免中央控制器瓶颈。智能体异步认领子任务、读取累计进展、执行局部推理并写回紧凑的已验证更新。在SWE-bench Verified上,DeLM在Avg.@1、Pass@2和Pass@4指标中均取得最佳性能,相比最强基线提升最多10.5个百分点,每任务成本降低约50%。在LongBench-v2多文档问答上,DeLM在四个前沿模型家族中取得最高平均准确率,提升最多5.7个百分点。代码已开源。
Waymo与代尔夫特理工大学合作开发ReD(Reference Driver)认知模型,基于主动推理框架模拟人类驾驶员的避撞行为。模型包含“逼近感”判断纵向威胁、默认其他车辆遵守规则、意外阈值触发策略重评估,并还原单脚操作踏板习惯(切换停顿0.2秒)。与传统模型不同,ReD持续计算意外值并最小化自由能,实现主动避让。今年1月圣莫尼卡事故分析中,Waymo车辆减速至6英里/小时,而模型推算专注人类驾驶员可能以约14英里/小时撞上。代码已以学术非商业许可开源。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
自蒸馏通过匹配学生(仅看问题)与自教师(还看上下文)的输出分布,使模型在无上下文时仍保持改进。研究比较三种上下文设计:二值奖励(GRPO)、参考解、以及步骤对齐的批评。步骤对齐批评效果最佳,Avg@12上比GRPO高16.11分,比参考解条件高5.27分。逐token优势分析表明,步骤对齐反馈仅针对推理失败的token,而参考解强制模型改变所有token行为,包括正确步骤。这说明反馈与推理步骤的结构对齐是自蒸馏效果的关键驱动因素。
自回归视频生成器的历史 KV cache 随视频长度增长。FadeMem 提出距离感知内存合并机制,在固定缓存预算下将历史 KV 块组织成时间层次,利用频率依赖的时间衰减(细粒度细节快速去相关,粗粒度场景结构保持更久)。生成时新历史作为细粒度条目插入,较旧相邻条目按幂律调度逐步合并,形成近密远疏内存。无需改动架构,即可保留近期上下文并为身份与场景连贯性提供紧凑长程锚点。实验表明在主体一致性、背景稳定性和时间连贯性上优于现有有界缓存策略。
百度百舸团队与复旦大学合作提出Long-horizon Utility KV(LU-KV)框架,将头级KV Cache预算分配建模为面向长程边际效用的全局组合优化问题。LU-KV通过离线画像估计注意力头边际贡献曲线,结合凸包松弛与基于边际效用的贪心求解器,在较低开销下得到接近最优的预算配置,可适配SnapKV、KeyDiff等多类压缩方法。在LongBench和RULER基准上,80%压缩比下性能损失小,降低显存占用和推理延迟。相关论文被ICML 2026录用。
BrainSurgery是一种针对神经网络checkpoint的“张量手术”工具,通过声明式YAML计划执行复杂的权重变换。它支持结构修改、数学变换、张量重塑,利用正则表达式和结构定位进行精准操作,并内置断言验证张量形状、数据类型和值,防止静默错误。工具覆盖从模型升级(upcycling)到LoRA提取等四个示例和三个案例研究,旨在提供可重复、可验证的模型编辑基础。
PsychoSafe 是一种心理学导向的拒绝框架,将大语言模型的拒绝行为重构为结构化支持性沟通,基于循证干预策略。研究构建了包含8019条提示-响应对的语料库,覆盖五个高风险心理领域,采用提示工程和参数高效微调训练 Qwen 3.5 27B。在500条提示的验证集上,PsychoSafe 提示使拒绝质量较通用基线提升28.1%,其中外部资源转介提升46.8%、心理基础性提升34.8%,且不损害非拒绝任务性能。微调实现了近乎完美的拒绝与资源转介率,但降低了回复相关性。在 SORRY-Bench 和 XSTest 上表现强域内鲁棒性,但跨域泛化有限。
快手开源 Kwai Keye-VL-2.0-30B-A3B,一个 MoE 多模态基础模型,激活仅 3B 参数,专为长视频理解和智能体智能设计。模型首次将 DeepSeek Sparse Attention (DSA) 适配到 GQA 多模态架构,实现无损 256K 上下文处理,并通过可扩展视频 I/O、异构 ViT-LM 并行及自定义 DSA 内核优化吞吐与计算开销。引入跨模态多教师在策略蒸馏(MOPD)结合 Context-RL 和 Video-RL,缓解多任务对齐中的灾难性遗忘,原生支持代码、工具、搜索场景下的多智能体协作与多模态自纠正。在 TimeLens、Video-MME-v2、LongVideoBench 等多个基准上达到同类规模 SOTA,模型权重已开源。
研究在CosyVoice3的语言模型骨干上训练BatchTopK稀疏自编码器,并引入模态感知自动解释管道,为每个特征标注其触发来源(文本前缀、1秒语音片段或两者)。恢复的特征涵盖音素、笑声、口音提示和说话者性别,可解释性强。通过SAE潜空间进行操控表明这些特征具有因果性:定向干预使笑声概率从0.02升至0.79,翻转感知的说话者性别,并在保留口语内容的同时控制语速。SAE特征既可作为可解释性对象,也可作为TTS合成的控制方向。
现有深度学习模型在分布偏移下进行PET图像去噪时性能严重下降,根源在于固定参数范式无法适应测试数据的剂量水平或扫描仪类型变化。本文提出U-TTT,一种集成测试时训练(TTT)层的U形模型,通过自监督在推理时动态调整参数以适应每个测试实例的特征。U-TTT包含空间TTT(S-TTT)层和频率TTT(F-TTT)层构成的双域自适应机制,分别校正空间结构退化并抑制全局噪声频谱、恢复高频细节。实验表明,U-TTT在未见剂量水平和扫描仪类型等挑战性分布偏移下达到SOTA去噪性能与泛化能力。
现有基于深度学习的PET图像去噪方法通常假设低剂量图像的剂量降低因子(DRF)固定且已知,实际中DRF变化时性能大幅下降。UniPET将域泛化引入PET图像去噪,通过风格对齐网络(SAN)对齐并恢复不同DRF下的风格,同时提出区域感知学习策略(RALS),区分平坦区域与风格化区域并对后者进行对抗学习,防止过度平滑。实验表明,UniPET在特定DRF下性能与单DRF专用模型相当,在通用PET图像去噪任务上达到定量、感知和临床层面的最先进水平。
哈佛大学与Perplexity基于10000组真实数据对比研究发现,AI智能体(Perplexity Computer)与人工协作比传统搜索(Perplexity Search)加人工效率更高。智能体单次会话平均执行26分钟,搜索仅33秒,本地任务差距达75倍;智能体有效不满率1.3%,低于搜索的2.9%。“Search+人工”每任务需269分钟,“Computer+人工”仅36分钟,时间缩短87%。虽然智能体单任务模型成本约4-10美元(搜索约0.05美元),但人力边际成本从2.05美元降至0.16美元,总成本下降94%。短单步问题适合搜索,多步需工具调用任务适合智能体。
Role-Agent框架让单个大语言模型同时充当智能体和环境,实现自举式共同进化。包含两个组件:World-In-Agent(WIA)让LLM作为智能体并在每次动作后预测下一状态,将预测与实际状态的对齐作为过程奖励,激励环境感知推理;Agent-In-World(AIW)则从失败轨迹中分析失败模式,并检索具有相似失败模式的任务,重塑训练数据分布进行针对性练习。在多个基准测试上,Role-Agent平均比强基线提升超过4%。
将模型幻觉起始检测建模为最快变化点检测问题。基于RAGTruth验证的忠实/幻觉状态一阶马尔可夫模型,在虚警率0.01时Lorden下界约1.3个token。因果循环标注器相当于学习增量的CUSUM,在匹配虚警率下检测延迟11–13个token,而线性每token基线为31个token。优势主要来自更优的每token分数而非时间累积。Donsker-Varadhan型信息率最优性定理表明,学习得分仅实现了特征所携带散度的1/4.5,标定无法弥补该差距,剩余为有限时域效应。分类指标掩盖了延迟结构,序列分析使其可测量。
Lip Forcing提出了自回归扩散方法用于视频到视频唇同步,从14B参数的音频条件双向视频扩散教师模型蒸馏出因果学生模型。推理时每个块仅需两步去噪,无需CFG,实现实时流式处理。技术分析揭示CFG的保真度-同步权衡,进而衍生出Sync-Window DMD、两步推理调度和基于SyncNet的奖励三项组件。1.3B学生模型在31 FPS下实时输出,比同规模双向模型快17.6倍;14B学生模型是目前最大的V2V唇同步扩散模型,比教师快39.8倍,保真度接近。首帧时延均小于1毫秒。
CoT监督微调系统性地降低混合线性注意力模型(如HypeNet、Jet-Nemotron)的长上下文召回能力。在NIAH任务上,HypeNet-9B的S2@256K从67.2%降至9.4%,原因是CoT-SFT使注意力梯度偏向短程模式,破坏长程路由的W_Q和W_K投影。QK-Restore方法无需训练,从微调前检查点恢复W_Q和W_K,保留其余参数;Procrustes变体平衡路由保留与推理适应。在HypeNet-5B上,QK-Restore将S3@256K从65.4%提升至76.4%,推理性能不变。
WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循;几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐;交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明,当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。
Data2Story是一个多智能体框架,将数据记者工作流中的多种专业角色编排成虚拟新闻编辑室。其两项创新是:每个声明通过Inspector链接到数据、代码或外部参考,实现基于证据的归因;文章可多模态生成,如为地理内容生成交互式地图、为音乐生成音频。在18篇文章上的评估从四个维度进行:人与智能体的角度覆盖、53名参与者的评分、计算机使用智能体作为读者导航代理、以及可验证性(代码验证器重新执行语句并与参考对照)。Data2Story产出有竞争力且证据可追溯的多媒体故事,在透明度和可审计性上表现突出,但人类文章在编辑角度、创意设计和呈现上仍具优势。框架定位为记者协作者,代码和演示已公开。
针对流匹配模型中在线强化学习比率裁剪策略约束不当的问题,Flow-DPPO 提出用散度近端约束替代。关键洞察是流模型每步策略为高斯分布,可精确计算新旧策略间的 KL 散度。Flow-DPPO 采用非对称散度掩码,仅在梯度更新偏离信任区域且超阈值时阻止更新。实验表明,Flow-DPPO 获得更高奖励,KL 近端效率更优,缓解了灾难性遗忘,促进多目标均衡,并能在比率裁剪失效时支持稳定的多轮训练。代码已开源。
Latent Memory提出一种潜在空间记忆范式,由小型压缩器LLM/VLM将每个原始文本或图像证据压缩为单个高维潜在token。查询时,将查询嵌入同一空间检索相关token并直接输入预训练LLM/VLM生成答案。通过统一端到端训练,结合重建、对比和蒸馏目标,使单个token同时携带重建、检索和生成信息。在HotpotQA等七个纯文本QA基准和多项多模态QA基准上,Latent Memory取得与先进RAG基线相当的问答性能,同时生成器token消耗减少3至10倍,并在WebQA上达到图像问答最强性能。代码已公开。
EEVEE是首个面向LLM智能体的多数据集测试时提示学习框架,用于在真实任务流下自改进。为解决跨数据集干扰,它引入路由器将异构输入流划分到任务簇并分配适配提示配置,并通过路由器‑提示协同进化策略(交替执行路由器和提示学习阶段)优化二者依赖。实验表明,EEVEE在保持单基准学习能力与效率的同时,提升异构数据流鲁棒性:平均多基准得分比Qwen3-4B-Instruct高10.38分,比DeepSeek-V3.2高24.32分,超越SOTA方法GEPA和ACE最高达37.2%和48.2%。
QGF(Q-Guided Flow)是一种完全在测试时执行策略优化的强化学习算法。它先通过标准行为克隆预训练参考流策略和价值函数批评家,然后在测试时利用价值梯度引导参考策略生成更高价值的动作。在单任务和目标条件离线RL基准测试中,QGF优于先前的测试时强化学习方法,与最先进的训练时算法性能相当但运行成本更低,且通过避免演员-评论家训练的不稳定性展现了良好的模型规模扩展性。
Workflow-GYM是专门评估AI智能体在专业领域和专用软件环境下执行长周期GUI任务的基准。实验表明,即使是最强模型,成功率也仅略高于30%,凸显出专业长周期GUI工作流对当前智能体的巨大挑战。进一步分析发现,智能体难以维持工作流一致性,频繁出现阶段遗漏、错误传播、目标漂移以及对专业软件环境理解不足等问题。这些发现揭示了当前智能体的局限性,并为下一代GUI智能体研究指明了关键方向。
SCAIL-2 提出绕过姿态骨架等中间表示的端到端角色动画框架,通过直接拼接驱动视频获取全部视觉信息。为解决端到端数据匮乏,用解耦条件统一子任务,构建异构运动迁移数据集 MotionPair-60K。采用上下文掩码条件与模式特定 RoPE 作为软引导,并引入 Bias-Aware DPO 构建偏好对以缓解合成数据在细节区域的误差。实验表明,该方法在多个任务中显著优于现有 SOTA。部分合成数据与模型权重将开源。
大语言模型长上下文扩展受限于标准注意力的二次复杂度。现有线性注意力多状态方法采用固定合并策略,无法适应token动态重要性,造成关键token丢失。DLA提出信息感知动态状态合并,根据token级信息变化自适应确定状态边界;并引入容量有界记忆建模,通过选择性合并相邻低信息状态维护固定大小缓存。DLA在两个线性注意力模型上预训练,在16个数据集上超越现有最优方法。
ARM是一种基于离散表示的自回归模型,将图像理解、生成与编辑统一在下一个token预测框架中。首先训练离散语义视觉tokenizer,通过多目标监督实现语义判别、语言对齐与忠实重建;然后在文本与图像token序列上训练7B自回归模型,自然融合视觉语言感知与生成能力;最后用强化学习优化文本到图像生成与指令引导编辑的偏好对齐,使WISE整体得分从0.50提升至0.56,GEdit-Bench-EN的G_O评分从5.75提升至6.68,并观察到跨任务协同效果。
FlowTracer是一个针对大语言模型强化学习的框架,在注意力诱导的有向无环图上追踪从问题到正确答案的推理流。边容量来自聚合注意力权重,通过重新加权仅保留能到达答案区域的影响,并强制执行局部流守恒。提取信息流骨干,按流吞吐量对token评分,揭示高影响枢纽。重要性得分用于塑造token级奖励,使学习信号聚焦于路由信息的关键token,在多个推理任务上取得一致性能提升。
一项研究将大型语言模型(LLM)应用于超参数优化任务,并与经典算法进行对比实验,检验 LLM 在该场景下是否具备超越传统方法的表现。
Notes2Skills是一个两阶段框架,旨在将实验笔记转化为可验证的科学AI智能体技能,同时保留作者对观测结果的不确定性。在七个条件和三次湿实验室实验中,Notes2Skills是唯一既不会将不确定的笔记误认为明确指令、也不会丢弃明确指令的配置。研究表明,确定性保留是连接实验笔记与可靠智能体技能之间缺失的关键环节,为开发更安全的AI合作科学家系统提供了新路径。
研究团队开发了一款兼容开源核心网 Free5GC 的 NWDAF 实现,集成了大语言模型接口,支持操作员通过自然语言与网络交互。系统利用语义嵌入模型将用户意图编码并映射到 7 个预设意图类别,触发分析查询或事件订阅命令,简化传统接口的复杂性。该 NWDAF 支持 AMF 和 SMF 事件订阅、通过 Prometheus 进行实时监控与分析检索,所有功能均可通过对话式界面访问。项目代码与数据集已在 GitHub 开源。
稀疏自编码器(SAE)广泛用于解释神经网络表征,但特征是否跨训练运行可复现影响其效用。研究者通过特征稳定性量化每个特征在独立训练中再次出现的概率。大规模实验显示,稳定特征承载大部分重建与预测相关信号;不稳定特征个体影响微弱,主要由低频表面形式触发,主导自动解释结果。几何上,不稳定特征集中于可复现的低秩子空间,表明种子依赖性反映激活空间共享区域内的基模糊性而非纯噪声。通过合并跨种子独特特征,可构建更稳定SAE并保持解释方差。
开源Lean定理证明器家族Pythagoras-Prover包含4B和32B自回归模型及4B扩散模型。训练采用课程式SFT,通过动态证明推理过滤将每条样本控制在8k token上下文预算内,并引入增强型Lean形式化(ALF)将稀缺验证语料扩展为变体语句,以自蒸馏提供额外训练信号。Pythagoras-Prover-4B在MiniF2F-Test上以86.1% pass@32超越DeepSeek-Prover-V2-671B(82.4%),参数量减少约167倍;Pythagoras-Prover-32B以93.0%创下开源SOTA,并在PutnamBench上解决93/672题。项目同步发布MiniF2F-ALF基准。