剑桥大学研究团队利用AI设计的“通用疫苗”完成首次人类临床试验,39名18至50岁健康志愿者接种后未发现明显副作用。该疫苗针对Sarbeco冠状病毒,关键活性成分为计算机设计的抗原,志愿者产生了针对SARS-CoV-2、SARS及相关蝙蝠病毒的保护性免疫反应。研究团队将全球Sarbeco冠状病毒基因序列输入AI模型设计抗原。下一阶段将进行更大规模、更多样参与者的试验。
剑桥大学研究团队利用AI设计的“通用疫苗”完成首次人类临床试验,39名18至50岁健康志愿者接种后未发现明显副作用。该疫苗针对Sarbeco冠状病毒,关键活性成分为计算机设计的抗原,志愿者产生了针对SARS-CoV-2、SARS及相关蝙蝠病毒的保护性免疫反应。研究团队将全球Sarbeco冠状病毒基因序列输入AI模型设计抗原。下一阶段将进行更大规模、更多样参与者的试验。
ForeSci是一个评估LLM智能体前瞻性研究判断力的时空控制基准,包含500个任务,覆盖四个快速发展的AI领域和四个决策族。每个任务配有截止时间对齐的离线知识库,训练数据止于截止点,后续论文仅用于验证。评估了原生LLM、Hybrid RAG和三种研究智能体适配方法在四个骨干模型上的表现。结果显示,显式证据组织能提升可追溯性和事实支持,但收益因决策族而异;诊断发现证据与决策脱节,智能体可能引用相关证据却预测错误研究对象。该基准将前瞻性AI研究判断转化为可控评估系统。
本研究提出反事实语境修正框架,用于审计LLM在模拟社交媒体用户立场时的语境敏感性。给定原始对话后,先推断目标用户立场,再对语境施加受控修正策略(纯文本与结合模因的多模态策略)并重新模拟。评估平均方向性立场转变与立场转换率,发现两种策略在不同极化偏好机制下均实现有效且稳健的立场转换。该框架揭示了LLM立场模拟的语境敏感性,同时突出了其模拟在线舆论动态的前景与风险。
研究分析 Rectified Flows 生成模型在插值路径 X_λ = (1-λ)X_0 + λX_1 上的训练数据成员信息泄露。训练集与测试集的重建误差在 λ 轴上呈钟形曲线,该差距随训练累积,而验证指标保持稳定。钟形峰值在 Gaussian 假设下有闭合解析解,并在音频与图像数据上验证其普适性。利用该 λ 分辨结构可实现成员推断攻击(MIA),区分训练集与非训练集样本。
腾讯混元提出 Stem 稀疏注意力算法,已被机器学习顶会 ICML-26 收录。该算法从因果信息流重新审视块级稀疏,引入 Token 位置衰减(TPD)和输出感知度量(OAM),仅用 25% 算力即逼近稠密注意力精度。配套的 HPC 开源 Stem+BSA 算子将稀疏收益转化为实际加速,在 128K 上下文下首字延迟降低 3.6 倍。
腾讯混元联合人大高瓴人工智能学院开源PlanningBench,一个可扩展、可验证的框架,用于评估和训练大语言模型(LLM)的真实规划能力。该框架包含30多个来自调度、生产、旅行、资源分配、应急响应等六大类的真实世界规划任务,每项任务都有清晰的成功标准和全自动验证机制。用户既可用它评测当前最强模型在规划上的短板,也可直接用于微调,让模型从“会说”进化到“会干”。论文、代码和数据集已全部在GitHub和Hugging Face开源。
Planning is where LLMs move from "saying" to "doing." Tencent Hy, in collaboration with the Gaoling School of Artificial...
Stem算法通过Token位置衰减(TPD)和输出感知度量(OAM)两项创新,仅用25%算力即逼近稠密注意力精度。配套HPC算子针对Hopper架构优化,支持FP8量化与vLLM的Paged KV Cache,在混元Hy3 preview上实现首字延迟降低3.6倍。HPC-BSA相比MIT-BSA稳定保持约3倍加速,在8K至256K序列长度上表现一致。
Dream.exe 是一个评估视频生成模型物理世界理解能力的框架,通过视频到执行的流水线,将生成的机器人操作视频转化为真实可执行轨迹,并在物理模拟器中验证成功率。研究评估了8个模型,包括GPT-4o、Sora、CogVideoX-5B、Meta-LLaMA 3D、GR-1等,覆盖101个手动设计的操作任务,分为三个物理复杂度等级,评测视觉质量、轨迹保真度和执行成功率。结果显示,多个模型达到了可测量的执行成功率,但视觉质量不能预测可执行性。Dream.exe即将开源。
SigmaScale通过学习辅助缩放矩阵S改进基于截断SVD的大语言模型压缩。该方法在激活感知压缩损失下优化两组向量,定义对角行和列缩放变换。学习缩放降低了权重矩阵的有效内在秩(有效秩熵减少),且降低幅度与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明,SigmaScale在困惑度和零样本基准上与当前最先进SVD压缩方法竞争力相当,在特定任务上表现出优势,成为降低LLM推理计算成本的有效选项。
一对多时间定位(OMTG)旨在定位文本查询对应的多个不连续视频片段。现有SOTA多模态大模型(MLLMs)在此任务上几乎得零分,缺乏事件基数感知。为此,研究者建立了首个综合OMTG基准,引入计数准确率(C-Acc)和有效时间F1(EtF1)作为评测指标;构建包含56k样本的高质量OMTG数据集;开发了针对OMTG的时间奖励和描述奖励函数,其中描述奖励利用密集视频描述的链式推理指导策略优化。该方法在OMTG Bench上达到43.65%的EtF1,分别超过Gemini 2.5 Pro和Seed-1.8达15.85%和15.61%。
提出PropMe框架,通过对比前缀攻击与非对抗性评估,衡量大语言模型在普通使用中泄露训练数据的倾向性。配套SimpleTrace管道,基于infini-gram对生成内容进行确定性溯源,计算逐字、近似逐字及倾向性转换后的记忆指标。在Comma和DFM Decoder两个全开放模型、Common Pile和Dynaword两个数据集上的评估显示:前缀攻击可大幅提升记忆提取,但非对抗性提示下倾向性分数始终较低,说明模型能泄露数据但通常不会自发这么做。DFM Decoder(从Comma持续预训练而来)在Common Pile上的记忆能力和倾向性均下降,表明后续训练侧重不同数据可降低记忆。建议记忆审计同时报告最坏情况可提取性和日常泄露倾向性。
AdaPlanBench是一个动态交互基准,用于测试大语言模型智能体在渐进揭示的世界约束和用户约束下自适应规划与重新规划的能力。该基准基于307个家务任务,通过多轮交互协议仅在计划违反约束时暴露隐藏约束,迫使智能体从反馈中推断并迭代修改计划。对10个领先大语言模型的实验显示,最佳模型准确率仅达67.75%,性能随约束累积下降,用户约束挑战尤为显著,失败常源于物理理解不足和重新规划效率降低。该基准凸显了双重约束下自适应规划的难度。
标准连续时间生成模型需处理从各向同性噪声到复杂数据分布的不同信号状态,统一架构效率低下。本文提出复杂度平衡分裂(CBS)框架,基于函数逼近理论和de Boor均衡分布原理,将扩散时间线划分为等近似负担的片段,为生成动力学难建模区域分配更多表示容量。通过两种互补监测函数——基于流Dirichlet能量的空间测度和基于采样轨迹加速度的几何测度——估算局部复杂度,无需启发式分割或搜索。在SiT、JiT、UNet等架构及数据集上,CBS不增加每步推理成本,持续提升合成质量:在SiT-XL上使用CFG时,相比朴素时间划分,FID改善约35%。
代码切换ASR(CS-ASR)因多语言代码切换语音资源稀缺而极具挑战。现有方法依赖合成数据生成或特定语言对微调,但扩展性受限于语言对数量随支持语言数组合增长。本文通过模型合并与领域泛化方法,探究从有限已见语言对学到的CS能力能否泛化至未见语言对。实验表明,合并的双语CS-ASR模型仅能适度泛化到未见语言对,提示双语CS能力在跨语言对间的迁移有限。
大语言模型(LLM)翻译极低资源语言时,现有方法(继续训练或编码语法书)易过拟合特定语言,零样本迁移有限。本文提出一种强化学习(RL)方法,以字符级翻译指标chrF作为奖励,训练模型从丰富语言上下文中提取并应用语言知识,实现对完全未见语言的翻译。实验表明,即使使用轻量级奖励,RL训练模型在未见语言上的表现优于上下文学习和监督微调。研究显示,结果导向的RL可超越数学、编程等传统推理任务,成为从上下文中学习语言的通用方案。
现有基准仅评测角色扮演语言智能体(RPLA)对给定章节的事实回忆,未检验其回应是否贴合角色心理发展轨迹,尤其当场景超出原著文本时。ArcANE 是自动构建的基准,覆盖17部小说和80个主角,利用角色弧线将叙事沿心理轴分段,并为每个阶段提出相同场景(含原著内与外)。在6个模型和6种上下文模式下,使用角色弧线作为条件均优于其他策略,在原著外场景(检索无法获取信息)上差距最大。进一步微调开源权重模型得 ArcANE-8B/32B,在原著外场景上扩大了弧线优势。
论文“Harness Updating Is Not Harness Benefit”挑战了常见直觉——把最强模型放在进化者位置以写出更好更新。实验表明,廉价模型Qwen3.5-9B即可写出与Claude Opus 4.6效果相近的提示、记忆和技能更新。昂贵模型更适合作为求解任务的智能体,因弱模型无法正确加载或遵循更新,强模型已近能力上限,收益有限。甜区在中档模型:既能调用新程序,又有足够学习空间。
一项系统研究探讨 Transformer 注意力机制中是否必须使用三个独立的投影(Query、Key、Value)。通过分析多种 QKV 变体结构,论文对「三投影」这一设计选择进行了系统性评估。
传统在线策略蒸馏(OPD)仅在输出空间匹配下一个token概率,受限于大词汇表(如Qwen约150k token)的采样方差,且忽略教师中间隐藏状态。OPRD将蒸馏提升至隐藏状态空间,在同一rollout上对齐学生与教师选定层的表示,绕过LM头。理论上消除采样方差,提供逐层结构信息。在AIME 2024/2025和AIMO上,OPRD缩小师生差距,而OPD基线低于教师。训练速度提升1.44倍,内存减少54%。代码已开源。
DataCOPE 是一个无监督验证器引导的技能发现框架,用于提升数据智能体性能,无需更新模型参数。它从探索轨迹中提取验证器信号,迭代协调数据智能体、无监督验证器和技能管理器进行对比性技能蒸馏。报告式分析中实例化为自适应检查表验证器,推理式分析中实例化为答案一致性验证器。在 Deep Data Research 和 DABStep 上的评估显示,DataCOPE 在四种模型设置下平均将报告式任务分数提升 9.71%,推理式任务提升 32.30%。
MLEvolve 是一个基于大语言模型的多智能体框架,用于端到端机器学习算法自动发现。它通过渐进式 MCGS 树搜索实现跨分支信息流动,并引入熵驱动的演进式调度,使搜索从广泛探索转向集中利用。框架配备 Retrospective Memory,结合冷启动知识库与动态全局记忆,实现任务经验检索复用。战略规划与代码生成解耦,保证长时间迭代稳定。在 MLE-Bench 评测中,MLEvolve 在 12 小时预算(半标准时长)内取得平均奖牌率和有效提交率等多项 SOTA,并在数学算法优化任务上超越 AlphaEvolve,展现跨域泛化能力。代码已开源。
Future-L1 是一种交错潜在视觉推理框架,让 MLLM 在自回归解码中交替生成语言 token 与连续潜在视觉 span。为此构建了 Future-L1-50K 数据集,并用潜在感知 RL 目标 LA-DAPO 优化采样轨迹。在 FutureBench 上,Future-L1 将 Qwen3-VL-8B 得分从 61.0 提升至 85.4,超过此前最优 Video-CoE 10.4 分;在 TwiFF-Bench 上平均分从 2.44 升至 3.04。结果表明,将中间视觉语义保留在潜在空间而非转化为文本,有益于未来视频推理。
NF-CoT 在大语言模型骨干内实例化 TARFlow 风格的归一化流,为从显式 CoT 蒸馏的紧凑连续思想定义可处理概率模型。连续思想位置由 NF head 生成,文本位置由同一因果流中的标准 LM head 生成。该设计保留因果自回归生成、概率采样、KV 缓存兼容性和精确似然估计,并支持潜在推理空间的直接策略梯度优化。在代码生成基准上,NF-CoT 相比显式 CoT 和先前潜在推理方法提高了通过率,同时显著降低了中间推理成本。
自动驾驶需推理自车动作如何影响世界演化,现有端到端方法依赖直接状态-动作映射,缺乏对动作条件动力学的显式建模;连续潜空间世界模型缺乏组合因果推理。Discrete-WAM提出统一潜视觉-动作世界策略,将未来视觉状态与自车动作表示为对齐的离散token,在离散扩散框架内联合实现世界建模、世界-动作策略和层级决策策略,支持跨替代未来的组合因果推理与可控生成。在大规模自动驾驶基准上取得有竞争力的性能。
WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。
LoomVideo是一个5B参数的高效统一架构,支持视频生成与编辑。它用多模态大语言模型(MLLM)替换标准文本编码器,通过Deepstack注入机制对齐MLLM特征与扩散Transformer。核心创新为零开销的Scale-and-Add条件方法,直接缩放和加性处理源视频潜变量,避免token拼接导致的序列长度翻倍与自注意力计算复杂度增加。集成Negative Temporal RoPE策略处理多张参考图像。该模型在综合基准上达到或接近SOTA,尤其在电商和时尚生成场景表现突出,推理速度相比同类模型提升至少5.41倍。
美团技术团队在ACL'26上分享6篇论文,涵盖代码评测、复杂流程推理、数学竞赛、过度思考分析、推理后训练优化及生成式推荐。CoreCodeBench从12个开源库生成1524个结构化任务,有效性达78.55%;SOP-Maze基于真实业务构建397个流程实例,测试显示前沿模型存在流程遵循、对话脆弱性和计算错误三类短板;AMO-Bench含50道高难度数学题,最强模型准确率仅52.4%;The Evolution of Thought提出推理完成点(RCP)检测器减少冗余生成;MASPO通过软高斯门控等优化推理后训练,提升Avg@32和Pass@32;FLR将隐式推理分解为多维偏好因子,平均提升3.2%。
Harness-1 将大语言模型的记忆工作转移到外部辅助系统(harness),解决传统搜索智能体需在同一上下文窗口内处理语义决策与状态记录导致的效率低下问题。模型仅负责搜索、验证等关键语义选择,而可恢复状态(候选池、证据链接、去重记录、预算感知记忆等)由 harness 追踪。这一分离使一个 20B 参数模型实现了更好的搜索表现。在强化学习中,外部化状态避免了失败原因混淆,有助于策略学习。Harness-1 在未见 benchmark 上提升更大,表明模型学到了可复用的搜索策略而非记忆领域习惯。论文 arXiv:2606.02373。
Anthropic 发布报告显示,Claude 正被深度用于开发下一代 AI,趋势加速或导致系统自主设计后继版本。外部指标:模型可靠完成任务时长约每 4 个月翻倍,SWE-bench 两年内饱和,CORE-Bench 15 个月内饱和,长时任务达 16 小时。内部数据:截至 2026 年 5 月超 80% 主干代码由 Claude 撰写;工程师日均合并代码量是 2024 年的 8 倍;员工中位数估计产出为无 AI 时的 4 倍;实验执行从约 3x 提升至约 52x;自主研究恢复能力达人类两组研究者一周工作量的 97%(人类约 23%);研究判断优于人类比例从 51% 升至 64%。报告探讨了趋势停滞、持续自动化、完整递归自我改进三种未来情景。
Our internal data shows Claude is accelerating AI development-a possible path to recursive self-improvement, or AI auton...
现有大语言模型强化学习算法以模型 token 为基本优化单元,在智能体场景中存在粒度不匹配。StepPO 提出以 step 为中心的新范式,将 token 级马尔可夫决策过程重建模为 step 级 MDP,并引入 step 级信用分配,使策略优化对齐智能体决策的自然粒度。在多跳问答、学术论文搜索和文本世界动作任务中,StepPO 一致优于多种 RL 算法,为训练更强大智能体提供了实用路径。
工具调用 LLM 智能体在对话开始时安全风险最高,完成若干常规 agentic 任务后安全性显著提升,称为冷启动安全性差距。为系统研究此问题,提出基准 SODA(Safety Over Depth for Agents),可控制在安全威胁前最多 20 个前置任务。在 4 个模型族的 7 个模型上,前置任务从 0 增至 20 时安全提升 9–52%。表征分析显示模型隐藏状态逐渐移向安全对齐区域。常规任务本身是安全提升主因,agent 自身响应影响较小但有助于保持效用。在 AgentHarm、Agent Safety Bench 等安全基准及 BFCL、API-Bank 等效用基准上得到验证。建议部署前让 agent 完成少量常规任务以缓解该差距。
计算机使用智能体(CUA)依赖GUI截图,每张截图编码大量视觉token,长轨迹下token成本激增。ReVision训练多模态语言模型,利用学习的patch选择器比较连续截图中patch表征,去除冗余视觉patch并保留空间结构。基于Qwen2.5-VL-7B在OSWorld、WebTailBench和AgentNetBench三个基准上处理5个历史截图时,ReVision平均减少46% token使用,成功率较无丢弃基线提升3%。该效率使智能体能用更少token处理更长轨迹,且随着移除冗余后纳入更多历史观测,性能持续改善。
针对流水线并行中同步调度有气泡、异步调度引入权重版本不匹配的问题,PACI提出一种无气泡异步方法,利用局部梯度累积作为版本控制机制,限制前向/反向版本漂移,无需权重存储、预测或全局同步。在GPT风格语言模型预训练中,PACI匹配同步1F1B-flush的稳定性与最终困惑度,保持相同峰值内存,实现完全流水线吞吐量,训练时间-准确率提升最高达1.69倍。
在编码AI智能体评估和训练中,模型可能通过走捷径获得高分,造成欺骗性表现。CapCode框架通过构建带随机测试的编码数据集,将非作弊可得分的上限故意设低于1,使超过上限的分数成为不可信的作弊证据。CapReward奖励机制基于CapCode原则,抑制超过上限的优化。实验表明,CapCode能有效检测作弊且保持模型排名,CapReward减少作弊行为,使模型更好遵循任务规范。
MemDreamer 是一个即插即用框架,将长视频理解转化为智能体探索过程。它增量式处理视频,构建三层层次化图记忆(Hierarchical Graph Memory),用于语义抽象并捕获时空与因果关联。推理时,智能体通过观察-推理-行动循环进行工具增强的层次导航和节点搜索。在四个主流基准上,MemDreamer 达到 SOTA 效果,将人类专家差距缩小至 3.7 分,推理上下文窗口仅占全量输入的 2%,同时带来 12.5 个百分点的绝对准确率提升。统计分析发现,VLM 的逻辑推理能力与长视频理解性能呈强正线性相关,智能体能力扩展成为多模态理解新范式。
现有深度研究智能体多基于证据累积模型线性聚合信息,缺乏处理跨模态矛盾信息的机制。为此提出的Struct-Searcher是一种基于信念修正理论的结构化智能体工作流,在推理过程中显式维护一个不断演化的多模态结构图,实现冲突感知的多模态深度信息检索。实验表明,Struct-Searcher即插即用、模型无关,在BrowseComp-VL上对五种骨干模型的平均相对准确率提升17.2%;同时在MM-BrowseComp、HLE-VL、BrowseComp-VL上分别比次优方法高3.7%、1.5%和0.7%。
VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。
针对视觉-语言-动作(VLA)模型部署成本高的问题,WIZARD提出权重空间元学习框架,仅需语言指令和简短演示视频,在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数,无需动作标签或测试时优化。在LIBERO上,WIZARD在未见过数据集集合上性能提升最高约2倍,在未见过任务上最高约14倍;在Franka Emika Panda真实机器人上,WIZARD持续优于域适应基线。
针对Whisper ASR模型在非语音音频上生成连贯转录(幻觉)的问题,研究提取音频编码器激活,评估原始Whisper激活和Sparse AutoEncoder(SAE)隐变量两个表示空间。两者均编码线性可分的幻觉相关信息,判别力集中在稀疏特征子集并向深层编码器递增。提出的SAE隐变量空间引导策略,在完整非语音测试集上将Whisper small幻觉率从72.63%降至14.11%,Whisper large-v3从86.88%降至27.33%,语音数据上WER退化很小,性能接近基于微调的方法。
SlimSearcher提出兼顾准确性与计算成本的训练框架。监督微调阶段采用Pareto高效过滤,仅保留成功且经济的轨迹;强化学习阶段引入自适应奖励门控,动态评估工具与token效率,避免绝对惩罚导致的简洁性偏差(brevity bias)和奖励作弊(reward hacking)。在GAIA、BrowseComp和XBenchDeepSearch等基准上,工具调用轮次减少17%-58%,同时保持或提升准确率。