DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。
DenoiseRL是一种强化学习框架,旨在提升大语言模型的推理能力。它无需依赖更强的教师模型或精心筛选的困难数据集,而是通过在弱模型产生的失败推理轨迹上进行基于恢复的优化来直接学习,将错误转化为改进机会。这种方法提供了更丰富多样的学习信号,提升了探索效率。实验表明,DenoiseRL在竞争性的数学和通用推理基准测试中,持续优于强在策略RL基线,并能随着训练难度增加促进更强的自我纠正行为。
本文提出ESC-Skills框架,以解决情感支持对话系统可解释性不足与技能改进缺乏体系的问题。该框架首先将局部交互建模为干预单元(IUs),刻画寻求者状态、支持干预与情绪变化间的动态。基于从成功与失败对话中提取的IUs,构建了包含干预指导、适用条件、预期结果与潜在风险的可执行技能库。为进一步提升鲁棒性,框架引入了基于SAGE评估的多角色自我进化精炼流程,通过模拟不同寻求者画像来识别缺失技能与不安全干预,并据此更新技能库。实验证明,该框架在响应质量和对话级情感结果上均有提升,提供了更可解释和可控的支持行为。
现有记忆增强大语言模型智能体常将记忆视为静态存储,这在动态环境中较为脆弱。为此,FluxMem框架提出将记忆建模为异构图,并通过初始连接形成、反馈驱动细化和长期巩固三个阶段,持续优化其拓扑结构。在执行时,该框架能修复缺失连接、剪除干扰、对齐抽象粒度,并将反复成功的轨迹蒸馏为可复用的程序化回路。在LoCoMo、Mind2Web和GAIA三个基准测试上,FluxMem均达到了SOTA水平,展现出在复杂智能体环境中强大的适应与泛化能力。代码将开源于GitHub。
针对主动推荐系统中简单应用策略梯度方法存在的梯度估计缺陷,研究提出ProRL强化学习框架。该框架识别出路径级奖励分解为步级奖励时产生的长度依赖偏差,以及忽略分解结构导致的高方差问题。ProRL引入两个机制:逐步奖励中心化通过减去期望奖励消除长度偏差,位置特定优势估计利用奖励分解结构计算步级基线以降低方差。实验表明,ProRL在三个真实数据集上显著优于现有先进方法。
PEFT-Arena是一个新的参数高效微调评估基准,它同时衡量下游任务性能和大语言模型预训练通用能力的保留情况。研究发现,不同微调方法展现出不同的稳定性-可塑性特征;在相似参数预算下,正交微调取得了最佳的性能-保留权衡帕累托前沿。通过权重空间(谱分析)和激活空间(表示失真度量)两个几何视角的分析,研究解释了这些差异,并指出最终的SFT检查点常常会越过一个更优的目标-保留操作点。基于此,研究通过路径回溯案例展示了一种改进方法。
研究揭示基于LLM的搜索智能体存在“内在知识依赖”:在BrowseComp基准测试中,智能体在无需工具时仍能回答高达44.5%的问题,超过半数的搜索查询源于模型内部假设而非检索线索,移除支撑证据时其表现甚至差于闭卷基准。这表明静态基准可能奖励的是基于记忆的验证。为此,研究引入深度搜索基准LiveBrowseComp,包含335个依赖于基准构建前90天内发布事实的人工问题。在LiveBrowseComp上,所有智能体的闭卷准确率低于2%,搜索增强得分显著下降,且先前模型排名不再可靠。
OmniVerifier-M1是一个通过符号化元验证和解耦强化学习训练的多模态验证器。研究发现,使用符号化验证输出(如边界框)作为元验证依据,优于文本解释,便于基于规则的强化学习;同时将二元判断与元验证的强化学习目标解耦,显著优于联合优化。基于此,OmniVerifier-M1实现了稳健的视觉验证与细粒度错误定位,并支持M1-TTS,一个通过该验证器实现动态区域级自校正的生成系统。
该研究针对大语言模型在线强化学习中探索与利用的失衡问题,提出了新指标IB-Score,它基于信息瓶颈理论,量化了步级推理多样性与正确答案信息的权衡。分析表明,主流方法如GRPO难以维持此平衡。为此,论文提出IB-TPO框架,将IB-Score作为优化目标,并采用信息瓶颈引导的树采样策略,在相同token预算下可增加50%的轨迹。实验显示,该方法在标准基准上显著优于GRPO基线,性能提升2.9%至3.6%。代码已开源:https://github.com/alibaba/EfficientRL。
当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。
本文研究了大语言模型记忆系统中错误追踪与归因的新问题。我们提出了MemTrace框架,它将记忆管线转化为可执行的记忆演化图,以实现操作信息流的细粒度追踪。我们构建了MemTraceBench基准,数据来自Long-Context、RAG、Mem0和EverMemOS等代表性系统,用于系统研究记忆失效模式。此外,我们引入了一种自动归因方法,通过迭代追踪操作子图来定位失败根因。分析表明,记忆失败具有系统性,源于信息丢失与检索错位等操作级问题。利用这些细粒度归因信号指导下游提示词优化,可构建一个自动纠错的闭环系统,将端到端任务性能最高提升7.62%。
研究人员披露了名为 FROST 的新型浏览器侧信道攻击。该攻击无需用户额外操作,只要访问承载代码的网站,其 JavaScript 即可通过测量同一块 SSD 上的 I/O 延迟变化,并利用卷积神经网络分类延迟轨迹,来推断用户正在访问的其他网站内容。攻击需要在用户设备上创建一个可能超过 1GB 的 OPFS 文件。目前,该攻击已在搭载 M2 芯片的 Mac 上完成演示,Linux 上验证了底层方法可行,Windows 尚未测试。相关论文将在 7 月的 DIMVA 会议上报告。
本研究提出了HRBench,一个统一的评测框架,用于研究混合推理大语言模型的思考模式切换策略。框架从三类切换策略家族(基于提示的选择、外部路由、推测执行)与四种训练方式(免训练、SFT、离线RL、在线RL)两个维度设计空间,形成多种受控评测设置。研究在涵盖从Qwen3.5-2B到Kimi-K2.5-1.1T的6个模型,以及数学、科学、代码等5个推理基准上,重新实现了12余种现有方法并进行评估。分析表明,不同策略在有效性与效率的权衡中特点各异,且策略偏好随模型规模和任务领域变化。
针对现有大语言模型搜索方法(如 best-of-N 采样、树搜索)依赖稀疏验证信号且探索局限于高概率区域的问题,本文提出了双向进化搜索框架。该框架耦合了前向候选进化和后向目标分解。前向搜索利用进化算子重组部分轨迹,以生成难以通过单次模型展开获得的候选方案;后向搜索则递归分解原始任务,产生密集的中间反馈以指导搜索。理论分析表明,仅靠展开的搜索受限于窄熵壳,而进化算子可使其跳出,后向搜索则能指数级减少找到正确答案所需的样本数。实验显示,在主流后训练算法失效的任务上,BES 能带来一致性能提升;在三个开源问题求解基准的推理测试中,BES 在平均与最佳性能上均优于现有开源框架。
针对视觉语言模型在工具使用任务中存在的“思考-行动差距”(工具调用尝试率仅约30%,且其中约40%问题的所有工具调用均错误),研究提出AXPO(AI 智能体探索性策略优化)方法。该方法在标准强化学习(如GRPO)流程中,针对工具调用全错的子批次,固定思考前缀并重新采样工具调用及后续内容。在九个多模态基准和三种规模的Qwen3-VL-Thinking模型上,SFT+AXPO的平均性能优于SFT+GRPO(8B模型平均Pass@1和Pass@4均提升1.8个百分点)。8B的SFT+AXPO模型在Pass@4上甚至超越了参数量为其4倍的32B Base模型。
基于LLM的智能体在现有搜索基准上表现优异,但真实用户体验不佳,这源于现有基准依赖于高度明确的查询、单轮交互和固定格式评估,无法反映用户与智能体通过多轮对话协同澄清模糊意图的真实搜索行为。为此,研究提出了“VibeSearch”范式并发布了VibeSearchBench,该基准包含200个手工策划的双语任务,覆盖20个领域,分为专业与日常生活两个子集。评估通过用户模拟器和图匹配框架进行。对七个前沿模型的测试显示,所有模型在VibeSearch任务上表现均不充分(最佳F1分数为30.30),凸显了在长期上下文推理、主动意图激发等方面取得根本进展的必要性。
针对小型开放计算机使用智能体在特定领域能力较弱且失败案例分布不均的问题,研究团队提出了LearnWeak框架。该框架利用一个更强的参考智能体,自动识别学生智能体在目标领域的弱点,并据此合成针对性任务以构建训练数据。LearnWeak进一步引入错误感知特化目标,能够区分规划与执行错误,实现更精确的行为更新。在OSWorld基准测试中,该方法使EvoCUA-8B和OpenCUA-7B模型在八个领域的平均性能分别提升了11.6和11.1个百分点。
可验证奖励的强化学习已成为提升大语言模型推理能力的标准范式,而多Token预测是预训练中广泛采用的模块。当前实践通常分离两者的梯度,因为联合训练会导致性能下降。该研究从优化角度重新分析了这一问题,提出最优系数校准方法,能以极低开销在线追踪最优系数。在六个竞赛级数学推理基准测试中,OCC方法持续匹配或超越分离基线,改善了联合MTP-RL的训练性能。
本研究将AI研究智能体视为科学搜索系统进行评估。通过四个框架和六个大语言模型,从共享种子文献中生成了37,802个科学想法,并与人类论文、后续研究及种子文献进行对比。实验揭示了四个一致的模式:AI生成的想法比同领域人类论文更为集中;更贴近其起始文献,而非后续人类研究;与AI想法最相似的论文后续引用量往往较低;当AI想法与已有工作不同时,差异主要源于对现有技术方法的重组,而非引入全新的研究问题。总体而言,当前的AI研究智能体更擅长局部细化,而非拓展科学探索的广度。
本文介绍了ResearchMath-14K,这是一个包含14,056个研究级数学问题的数据集,通过多智能体流程从学术资料中策划而成,是目前此类规模最大的集合。研究还生成了ResearchMath-Reasoning(包含220K条教师轨迹),发现语言模型存在回避行为,且新一代模型产生的引用和虚假引用分别是旧模型的5.6倍和5.0倍。经过智能体过滤后,对参数规模为4B到30B的Qwen3模型进行微调,其平均得分比基础模型提高了9.2分,表明过滤后的开放问题尝试能为研究级数学推理提供有效监督。该数据集已公开发布。
提出一种名为NEO-ov的原生视觉语言基础模型,它能够端到端地学习跨帧和像素-词语的对应关系,无需任何外部图像编码器、辅助适配器或后处理融合。该架构完全消除了模块边界,使得精细、统一的时空建模能力在模型内部原生涌现。研究表明,NEO-ov在精细视觉感知任务上表现优异,大幅缩小了与模块化模型的性能差距,验证了原生One-Vision架构在规模化下的可行性。代码与模型已开源。
OSP-Next是一种高效的文生视频模型,旨在解决扩散 Transformer 全注意力机制的效率瓶颈。它采用混合全-稀疏注意力架构,稀疏部分基于 Skiparse-2D 注意力。基于此,模型提出了稀疏序列并行策略,相较 Ulysses 序列并行降低了 75% 的通信量。此外,模型集成了 HiF8 量化与 Mix-GRPO 后训练。实验表明,OSP-Next 在 VBench 上超越了 Wan2.1 基线,并在 H200 上实现了最高 1.64 倍单卡与 1.52 倍八卡加速。其量化版本在保持性能的同时,在 Ascend 950PR 上实现了显著的加速。
CubePart是一个生成式框架,可根据全局文本提示和用户自定义的零件模式,生成一组可组装为连贯物体的3D网格,实现对零件结构的显式控制。该框架构建了一个大规模的开放词汇、零件标注3D数据集,并采用两阶段生成架构,将全局形状合成与零件级解码分离。生成的资源可直接集成到游戏引擎中,无需手动后处理。
AutoScientists 是一个用于长期计算科学实验的去中心化 AI 智能体团队。智能体通过解读共享实验状态,围绕有前景的假设自组织成团队,在使用计算资源前审查提案,并共享成功与失败经验以减少冗余探索。该系统在生物医学机器学习、语言模型训练优化和蛋白质适应性预测三个领域,于匹配预算下均优于先前 AI 智能体。具体而言,其在 BioML-Bench 24 个任务上的平均排行榜百分位达 74.4%,比之前最强 AI 智能体提升 +8.33%;在 GPT 训练优化中达到目标的速度是 Autoresearch 的 1.9 倍,并发现了 7 项有效改进;在 ProteinGym 适应性预测中,其发现的一个 ACE2-Spike 结合方法使 Spearman 相关性比当前 SOTA 模型提升 +12.5%。
针对交互式视频生成世界模型多局限于单一智能体的现状,本文提出了Gamma-World,一个面向交互式模拟的生成式多智能体世界模型。模型设计了Simplex Rotary Agent Encoding,将AI智能体表示为旋转角空间中的正单形顶点,实现无参数扩展的独立可控制性与置换对称性。为降低计算开销,提出Sparse Hub Attention,通过可学习的枢纽token中介跨智能体交互,将注意力复杂度从二次降至线性。此外,通过将全上下文扩散模型蒸馏为因果模型,结合KV缓存实现了24 FPS的实时动作响应式生成。实验表明,该模型在视频保真度、动作可控性与智能体间一致性上优于基线方案,并能从双人场景泛化至四人场景而无需额外训练。
针对当前Transformer智能体因上下文不断增长而推理变慢变贵的问题,论文提出效仿人类睡眠机制进行记忆巩固。其核心方案是加入周期性的“睡眠阶段”:模型在此阶段暂停,多次重读近期上下文,将有用信息写入固定大小的记忆层(如状态空间块的快速权重),然后清空短期注意力缓存。此离线过程使后续回答仍只需一次前向传播。在细胞自动机、图查找和GSM-Infinite数学问题上的测试表明,更长的睡眠时间能提升性能,尤其对需要深度推理的复杂任务。该思路表明,长期智能体或可通过记忆巩固实现高效遗忘与重用,不必无限携带原始上下文。
Sakana AI 提出了 DiffusionBlocks 框架。该方法通过将残差网络(Residual Networks)的层更新过程解释为反向扩散(reverse diffusion)的去噪步骤,从而将其转换为一系列可以独立训练的块。
ResearchClawBench 是一个评估自主科学研究能力的基准,涵盖10个科学领域的40个任务,每项任务基于真实已发表论文并提供相关文献与原始数据。在统一协议下评估了七个自主研究智能体,并通过 ResearchHarness 评测了17个原生大语言模型(LLM)。当前最强自主研究智能体 Claude Code 平均得分21.5,最强 ResearchHarness LLM Claude-Opus-4.7 平均得分20.7,LLM 前沿均值仅26.5。错误分析显示失败集中在实验方案不匹配、证据不匹配和缺失科学核心。
针对单遍语音识别难以纠正语义关键错误的问题,研究者提出 Agentic ASR 闭环框架,将单遍 ASR 前端与语义校正、意图路由、基于推理的编辑整合,并将交互式语音识别建模为多轮校正任务。同时引入句子级语义错误率(S²ER)作为基于大语言模型的语义评估指标,并构建交互模拟系统用于可扩展、可复现的基准测试。在多语言、命名实体密集及代码切换基准上,迭代交互持续降低语义错误,S²ER 改善幅度远大于传统 token 级指标。人类-AI 对齐和消融研究验证了语义评估器的可靠性与框架的鲁棒性。代码和在线演示已公开。
研究提出一个基于LLM的多模态音乐推荐框架,在LastFM-1K数据集上融合三类信号:预训练模型提取的音频与歌词嵌入、使用MGPHot标注框架生成的LLM语义元数据、以及听歌完成率。该框架基于E4SRec扩展,集成SASRec、BERT4Rec、GRU4Rec等编码器,并引入LLaMa-2-13B、Qwen2.5-7B-Instruct和LLaMa-3-70B进行零样本与微调实验。相比仅使用歌曲ID的基线,内容特征融合使Recall最高提升95%、NDCG提升79%。研究还发现,简单拼接多模态特征并不总能带来叠加提升,并开放了一个大规模音乐推荐多模态基准。
记忆增强的LLM智能体通过递归摘要交互轨迹应对长时域任务,但现有结果导向强化学习无法定位中间记忆质量下降。本研究提出信念熵(Belief Entropy)作为自监督代理,衡量模型对潜在任务状态的不确定性,并在此基础上提出元认知记忆策略优化(MMPO),通过惩罚高认知不确定性的摘要提供细粒度监督。实验表明,MMPO在多种长时域任务上持续优于现有方法,在扩展到1.75M token上下文时仍保持97.1%性能。
Stable-Layers 是一个强化学习框架,无需配对监督即可微调预训练层分解模型,仅使用视觉语言模型(VLM)的反馈。基于 Qwen-Image-Layered 初始模型,采用 Flow-GRPO 和 LoRA 适配,每张图像采样多个候选分解,由 VLM 评分并通过组相对优势优化策略。为解决 VLM 单独评分时判断集中导致 GRPO 难以学习的问题,设计两阶段评估流程:先按五项编辑标准逐样本评分,再进行网格校准让 VLM 并列重评所有候选。相比基模型,Stable-Layers 在 Crello 数据集上实现更强的层分离、更少的空白或伪影层,并降低每层重建误差。
MergePipe 是一个预算感知的执行层,将大语言模型(LLM)权重空间合并转化为专家访问集问题。它在共享权重坐标系下,根据显式 I/O 预算选择要读取的专家增量块,生成确定性访问计划并执行合并。在 Qwen 和 Llama 合并工作负载上,MergePipe 将专家读取 I/O 最多减少一个数量级,实现最高 11 倍加速;参数偏差约为 \(10^{-3}\),且下游基准测试未出现单调退化。
该综述将工业视觉Sim-to-Real重新框架为基于先验可用性的域差距问题,区分了CAD可用(支持渲染、标定、位姿估计、分割及测试时几何验证)、CAD不可用(依赖法向参考外观、特征分布、教师‑学生残差、合成异常假设、基础特征或视觉‑语言先验)以及边界先验(仅保留部分CAD作用的近似模型、模板、参考视图或语义对应)三种设置。以T‑LESS/BOP、MVTec AD和VisA为实证锚点,发现CAD渲染数量本身并不能弥合迁移差距,源分布设计、检测器容量和小规模真实校准更为关键。测试时CAD通过掩码、姿态和深度一致性提供了独立验证通道,而CAD不可用检测则依赖校准的正常性和特征偏差。该文反对单一跨任务排行榜,主张根据先验可用性来部署决策。
AbaqusAgent 是一个基于大语言模型的多智能体框架,用于固体力学有限元分析。它通过将用户的自然语言指令转化为可执行的有限元分析流程与结果可视化,借助 Abaqus 软件完成分析。框架包含解释器、架构师、输入编写器、运行器、审查器和可视化器六个智能体,覆盖标准有限元分析的全部前处理与后处理步骤。在 50 个固体力学问题上验证,整体成功率达 86%。代码已在 GitHub 开源。
本研究探讨用于大语言模型监督微调的长链式推理轨迹。研究发现,即使推理轨迹答案正确,其在结论后仍继续的推理部分也可能对训练产生有害影响,导致微调结果显著不同。这种现象被定义为“有害延续”,其特征是持续的局部不确定性与减弱的终端方向进展不匹配。通过编辑器删除这些有害延续后,基于CoT的微调结果得到改善。研究进一步提出了Harmful Continuation Cut(HCC),作为近似有害延续边界的轻量级代理方法。
Domino是一种用于加速大语言模型推理的推测解码框架,它将因果依赖建模与高开销的自回归草拟过程解耦。该框架首先使用并行草拟骨干网络为整个块生成初步的草拟分布,随后应用一个轻量级的Domino头,利用前缀相关的因果信息对初步分布进行精细化修正。为稳定训练过程,论文提出了基础锚定训练课程,先强化并行骨干,再逐步优化因果修正后的最终分布。在Qwen3模型上的实验表明,Domino在Transformers后端下实现了高达5.49倍的端到端加速,在SGLang服务下实现了高达5.8倍的吞吐量加速。
该研究揭示了一个根本漏洞:当用户同时使用多个大语言模型时,现有的文本水印技术会失效。因为各模型独立施加的输出分布扰动会相互抵消。团队提出了WASH方法,通过线性集成平均各模型的输出概率分布,可以恢复未加水印的分布。实验在六个水印方案和三个LLM上进行,结果显示,平均三个模型即可将检测z分数从5-300显著抑制到低于检测阈值2(阈值为4),并将5% FPR下的TPR降至50%以下,同时提升了生成质量。研究指出,要实现鲁棒的水印检测,需要模型提供商之间进行前所未有的协调。
大型视觉语言模型在推理时面临将视觉输入映射为密集token序列带来的二次计算瓶颈。现有视觉token压缩方法在激进压缩下会损失空间保真度。本文提出PARCEL,一种新的视觉token化架构。它通过建立空间池token作为低频布局锚点,并以此为条件对弹性查询token进行重采样,从而动态分配特征提取任务。在27项基准测试中,PARCEL在不同视觉token预算下均优于现有基线方法,改善了性能与效率的帕累托前沿。