针对线性注意力模型中传统在线随机梯度下降存在的信息衰减快、收敛欠佳问题,本研究提出了一种结合步进动量规则的块状并行算法。从动力系统视角分析,该动量循环被视为引入复共轭特征值的二阶系统,从而指导了稳定门控约束的设计。新模型Momentum DeltaNet(MDN)利用Triton内核,实现了与Mamba2、KDA等模型相当的训练吞吐量。在4亿和13亿参数模型上的实验表明,MDN在多种下游评估基准上均优于Transformer、Mamba2和GDN等强基线模型。
本文推出IntentGrasp基准,用于评估大语言模型的意图理解能力。该基准从12个领域的49个语料库构建,包含超26万实例的训练集及“全集”、“精选集”两个测试集。对20个前沿模型的评估显示,其在全集和精选集上的得分分别低于60%和25%,显著低于约81.1%的人类估计表现,提升空间巨大。研究提出的意图微调方法使模型性能显著提升,在全集和精选集上F1分数分别增加30分和20分以上,留一领域实验也验证了其强大的跨领域泛化能力。
本研究提出列表式策略优化(LPO),为大语言模型可验证奖励强化学习提供新方法。现有分组策略梯度方法隐式地在响应单纯形上定义目标分布并进行一阶近似投影,LPO则将其显式化:先限制近端目标于单纯形以明确目标,再通过精确散度最小化投影策略。该框架能在列表目标上实现单调改进,其投影梯度有界、零和且自校正,并通过解耦的投影步骤灵活选择散度。实验表明,在相同目标下,LPO训练性能持续优于典型策略梯度基线,同时保持了优化稳定性与响应多样性。
EMO是一种新型混合专家模型,旨在实现模块化部署,允许独立使用和组合专家子集,而无需人工定义先验。其核心设计是让来自相似领域的token依赖相似的专家,仅利用文档边界即可在预训练中自发形成连贯的专家分组。研究团队使用1T token预训练了一个活跃参数1B、总参数14B的EMO模型。完整模型性能与标准MoE相当,但关键优势在于支持选择性使用专家:仅保留25%的专家仅导致1%的绝对性能下降,保留12.5%时下降3%,而标准MoE在相同设置下会失效。此外,EMO中的专家子集在语义层面(如数学、代码等领域)实现专业化,不同于标准MoE仅表现出的低层次句法专业化。这为大型稀疏模型的模块化、内存高效部署开辟了新路径。
现有基准如VSI-Bench主要评估基础几何感知能力,但未能触及具身智能所需的高阶认知。为此,研究团队推出了空间功能智能基准SFI-Bench,该基准包含超过1700个问题,数据来源于多样化的第一人称室内扫描视频。SFI-Bench旨在系统评估多模态大模型从物体位置感知到功能意图理解的高级空间推理能力,标志着对智能体空间认知的评估从几何层面迈向功能层面。
本研究提出OpenClaw-RL系统,使语言模型能通过日常对话进行持续训练,无需人工标注数据。其核心是利用用户互动中产生的自然反馈(如纠正或重复提问)作为实时学习信号。系统从每次交互中提取两种信号:评估信号(判断行动成败,转化为数值奖励)和指导信号(获取具体改进方向,转化为词级监督)。该方法将标准部署环境转化为持续学习场景,使模型在后台运行中不断自我更新,自适应不同用户偏好,从而摆脱对大规模人工标注数据集的依赖。
针对现有基准将专利审查简化为分类或静态抽取的局限,本文提出了PatRe,首个模拟完整专利审查生命周期(包括审查意见生成与申请人答复)的基准。它包含480个真实案例,支持基于标准答案和检索模拟两种评估设置。研究通过多类大语言模型的实验发现,专有与开源模型性能存在差异,且审查员分析与申请人答复任务间存在不对称性。这些结果揭示了LLMs在模拟专利审查中复杂的法律推理与技术新颖性判断时,兼具潜力与当前局限。相关代码与数据集已开源。
研究通过Fitbit应用向13,917名参与者随机部署SymptomAI对话代理进行症状访谈与鉴别诊断。在1,228名报告临床诊断的参与者中,SymptomAI的诊断准确性显著高于独立临床医生(OR = 2.47)。采用专用症状访谈策略(在诊断前获取额外信息)的代理表现优于用户引导对话。基于1,509个普通人群对话的辅助分析验证了结果的普适性。此外,利用SymptomAI诊断标签分析超50万天可穿戴数据发现,急性感染(如流感)与生理指标变化存在强关联(OR > 7)。
本研究提出了一种仅通过监督微调(SFT)训练前沿搜索智能体的高效方法。该方法基于三项关键数据合成改进:扩展知识图谱规模、增加工具集以及进行严格的低步数过滤。仅使用1.06万条数据训练的OpenSeeker-v2,在四个基准测试中均取得了领先性能,全面超越了采用复杂CPT+SFT+RL流程训练的同类模型。这是首个由纯学术团队仅通过SFT实现的、在同等模型规模与范式下的顶尖搜索智能体,其模型权重将开源以促进社区研究。
本文提出了Workspace-Bench 1.0基准,用于评估AI智能体在需要处理大规模异构文件依赖的真实工作空间任务中的能力。该基准构建了包含5类工作者档案、74种文件类型、超2万个文件(最大20GB)的模拟工作空间,并设计了388项附带文件依赖图的任务,总计7399个评分项,要求智能体进行跨文件检索、上下文推理与自适应决策。同时提供的精简版Workspace-Bench-Lite(100项任务)可将评估成本降低约70%。对4种主流智能体框架和7个基础模型的测试表明,最佳智能体得分仅为68.7%,远低于人类表现的80.7%,平均表现仅47.4%,揭示出现有AI在此类任务上仍远未达到可靠水平。
为系统评估交互式世界模型的物理交互能力,研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集,并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题,研究设计了一个统一的动作生成框架,构建了六类任务共4900个测试样本,以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估,研究揭示了当前关键局限,为未来方向提供了见解。相关排行榜已公开。
GLM-5V-Turbo作为一款原生多模态基础模型发布,旨在直接驱动多模态智能体。该模型在多项核心评测中表现优异,在MMBench基准测试上达到90.1分,在MathVista测试中取得78.5%的准确率,并在RealWorldQA基准上以87.3%的准确率超越了GPT-4o。其设计强调对视觉与语言信息的统一理解与生成能力,为构建更高效的端到端多模态智能体提供了新的模型基础。
现有身份保持文本到视频生成方法在面部姿态变化或遮挡时常出现身份失真。为此,研究团队提出FaithfulFaces框架,其核心是一个姿态共享身份对齐器,通过姿态共享字典与姿态变化-身份不变性约束,在不同视角间对齐面部姿态,并将单视角输入映射为包含显式欧拉角嵌入的全局面部姿态表示,为生成模型提供忠实的面部先验。团队还构建了一个包含丰富姿态变化的高质量视频数据集用于训练。实验表明,该框架在动态复杂场景中实现了最先进的性能,能有效保持身份一致性与结构清晰度。
随着AI智能体在复杂工作流中的广泛应用,其安全风险日益凸显。研究团队推出DecodingTrust-Agent Platform (DTap),这是首个可控、交互式的AI智能体红队测试平台,覆盖14个真实世界领域和超过50个模拟环境,复现了Google Workspace、Paypal和Slack等系统。平台进一步提出自主红队测试智能体DTap-Red,能系统探索提示、工具、技能、环境等注入向量,并自主发现针对恶意目标的攻击策略。利用DTap-Red构建了大规模红队测试数据集DTap-Bench,包含跨领域高质量实例,每个配有可验证评判器以自动确认攻击结果。通过DTap对基于多种骨干模型的流行AI智能体进行大规模评估,揭示了系统性漏洞模式,为开发安全下一代智能体提供了重要洞见。
本文提出了CoREB,一个旨在避免数据污染、涵盖代码检索与重排序全流程的多任务基准,并发布了微调后的重排序模型CoREB-Reranker。该基准基于五个编程语言的LiveCodeBench问题构建,采用定时发布和分级相关性标注。研究在文本到代码、代码到文本和代码到代码三个任务上评估了11个嵌入模型和5个重排序器。主要发现包括:专用代码嵌入在代码到代码检索上优势显著(约2倍于通用编码器),但无单一模型全胜;接近真实开发者搜索的短关键词查询会使所有模型性能骤降;现有重排序器存在任务不对称性,而CoREB-Reranker首次在所有任务上实现了一致的性能提升。相关数据与模型已开源。
KernelBench-X基准测试系统评估LLM生成的Triton GPU内核,涵盖15个类别共176项任务。研究比较五种代表性方法,发现:任务结构对正确性的影响远超方法设计,类别因素解释的方差是方法的近三倍;迭代优化将编译成功率从52.3%提升至68.8%,但平均加速比从1.58倍降至1.44倍;46.6%的正确内核性能低于PyTorch基线,量化任务全部失败。未来需关注全局协调、数值精度建模与硬件效率整合。
地理空间推理模型通常依赖人工标注的边界框坐标进行监督,这限制了其在海量无标注遥感数据上的自我进化。为此,研究团队提出RemoteZero框架,它利用多模态大语言模型在判别区域语义方面的优势,以内在语义验证取代几何坐标监督,从而实现了无需边界框标注的训练。该框架支持迭代式自我进化,模型能够利用自身产生的验证信号从无标注影像中持续学习。实验表明,RemoteZero在定位任务上取得了与强监督方法相竞争的性能,展现了自验证训练在地理空间推理领域的潜力。
RaguTeam团队在SemEval-2026任务8的B任务(基于参考段落生成)中获胜。其方法采用一个包含七个大型语言模型的异构集成系统,结合两种提示变体,并由GPT-4o-mini作为评判者为每个实例选择最佳响应。该系统在26支队伍中排名第一,以0.7827的条件调和平均值显著优于最强基线模型。消融实验证明,模型家族、规模和提示策略的多样性对集成效果至关重要。团队还发布了领域适应的7B模型Meno-Lite-0.1,在成本与性能间取得了良好平衡,并对任务数据集的标注局限性及改进方向进行了分析。相关代码已开源。
ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器,它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能,可在同一模型内直接重写选定令牌,无需额外优化网络。模型采用两阶段训练:先通过扰动专家轨迹进行监督学习,再利用强化学习微调“决策-起草-反思”全流程,将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中,该模型仅使用摄像头输入即达到91.0 PDMS,在最优6次采样下可达94.8 PDMS,平均延迟为31.8毫秒。
基础模型在自然语言处理中建立了统一表示,但表格数据领域仍待探索。现有方法存在根本限制:基于LLM的方法缺乏检索兼容的向量输出,而文本嵌入模型常无法捕捉表格结构和数值语义。为此,我们首先引入表格嵌入基准TabBench,以评估嵌入模型的表格理解能力;然后提出首个通用嵌入模型TabEmbed,将分类和检索任务统一到共享嵌入空间。TabEmbed通过将多样表格任务重构为语义匹配问题,利用大规模对比学习和正样本感知的困难负样本挖掘技术,捕捉细粒度结构与数值语义。实验表明,TabEmbed在TabBench上显著优于当前最先进的文本嵌入模型,为通用表格表示学习设立了新基准。相关代码和数据集已在GitHub和Hugging Face平台开源。
研究团队提出神经规则归纳器(NRI),一种用于零样本规则归纳的预训练模型。它摒弃了传统归纳逻辑编程需针对每个任务重新训练的局限,转而使用类条件率、熵等与领域无关的统计属性来表征文字,从而实现了跨变量身份和数量的泛化。模型包含统计编码器和平行槽式解码器,后者保持了逻辑析取的排列不变性。通过乘积T-范数松弛实现规则的可微分执行,支持仅基于预测准确性的端到端训练。评估表明,NRI在规则恢复、对噪声和虚假相关性的鲁棒性,以及在真实世界基准上的零样本迁移方面表现良好,为符号推理的基础模型开辟了新可能。
本文针对AI开发者提出关键观点,主张智能体技能应被视为默认不受信任的代码,而非仅凭签名或来源就推断其可信。当前运行时环境默认信任已签名技能的做法存在安全风险。论文强调,技能必须经过独立的门控验证流程才能被信任,否则,每次不可逆调用都需要人工介入,这在大规模应用中会退化为无效的“橡皮图章”式批准。将技能作为一等部署工件并引入验证流程,是借鉴软件供应链安全经验、避免技能库成为下一个攻击面的关键。论文呼吁在技能库普及前,通过严格验证建立安全基准。
为降低大语言模型推理时KV缓存的高昂内存开销,研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由,在Transformer模型的各层之间动态共享KV缓存,而非每层保留完整独立缓存。实验表明,在保持模型质量基本不变的前提下,该方法能将KV缓存的内存占用减少高达50%,为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。
研究提出一种混合方法,旨在缩小游戏引擎合成数据与真实图像之间的外观差异。该方法结合了先进图像生成扩散模型 FLUX.2-4B Klein 与传统图像翻译模型 REGEN 的优势。实验表明,传统模型 REGEN 在性能上优于 FLUX.2-4B Klein,而将两者结合使用的混合方法,能够比单独使用任一模型获得更好的视觉真实感,同时保持语义一致性。相关代码已在 GitHub 开源。
New paper from MATS, Redwood, and Anthropic! If a capable model is strategically sandbagging, can we train it to stop wh...
Google与UCSD合作推出扩散式推测解码技术DFlash,在Google Cloud TPU上实现了3.13倍的无损推理加速。该技术突破了传统自回归解码逐个生成token的串行瓶颈,通过一次推测生成多个token来改变生成范式。这一硬件与算法的联合优化,将重塑云端成本曲线,并使实时Agent、长上下文等应用更趋现实,同时大幅降低本地部署门槛。此举将大模型推理的竞争引向了系统级优化的新赛道。
Breaking LLM inference's autoregressive bottleneck 🛠️ We've teamed up with @haozhangml, @YimingBob, and @aaronzhfeng, a...
关联讨论 1 条X:Berry Xia (@berryxia)大型视觉语言模型因优化目标无法约束视觉轨迹,易产生语言偏见与幻觉。现有方法引入视觉专家的几何先验作为监督,但偏向几何精度且推理效用有限。为此,本研究提出感知流网络,通过解耦感知与推理建立自条件生成过程,并借助变分强化学习整合多维奖励与邻近几何塑造,从而在保持视觉可靠性的同时促进面向推理的感知行为。该方法具备可证明的性能保证,在V* Bench与MME-RealWorld-lite基准上分别取得90.6%与67.0%的分数,创造了新的性能记录。
研究团队提出轨道空间几何概率路径(OGPP),这是一个专为粒子系统生成建模设计的原生粒子流匹配框架。该框架基于两个核心洞见:粒子具有置换对称性,匿名索引会导致难以学习的弯曲流;粒子存在于物理空间,其流终端速度可编码几何属性(如表面法线)。OGPP包含三个关键组件:轨道空间规范化、粒子索引嵌入以及具有弧长感知终端速度的几何概率路径。实验表明,在最小表面基准测试中,OGPP单步推理将误差降低达两个数量级;在ShapeNet上,它以更少的步骤和参数达到或超越了当前最佳性能;在单形状编码任务中,其完全在3D空间运行,生成的法线与重建结果可与6D生成器竞争。
MolmoAct2 是一个为实际部署设计的全开放动作推理模型,在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER,基于 330 万样本语料库训练。团队发布了三个新数据集,包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM(720 小时遥操作轨迹),并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构,嫁接连续动作专家,还引入自适应深度推理变体 MolmoThink,以极低延迟保持几何基础。在广泛实证研究中,MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线,MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。
PhysicianBench是一个用于评估LLM智能体在真实电子健康记录环境中执行临床任务的基准。该基准包含100项源自真实会诊病例的长周期任务,覆盖21个专科,平均每项任务需调用27次工具。任务要求智能体跨就诊记录检索数据、对异构临床信息进行推理、执行临床操作并生成文档。每个任务被分解为总计670个结构化检查点,通过执行验证进行分级评估。在13个专有和开源LLM智能体的测试中,最佳模型成功率仅为46%,开源模型最高仅达19%,显示当前智能体能力与真实临床工作流程需求存在显著差距。该基准为衡量自主临床智能体的进展提供了基于真实执行的评估标准。
多轮强化学习训练常因探索效率低下而不稳定。为此,研究团队提出T^2PO框架,在细粒度层面实施不确定性引导的探索控制。在令牌级别,它监测不确定性动态,当边际变化低于阈值时触发思考干预;在轮次级别,它识别探索进展可忽略的交互并动态重采样,以避免无效计算。在WebShop、ALFWorld和Search QA等多个环境中的评估表明,T^2PO显著提升了训练稳定性与任务性能,并实现了更高效的探索。相关代码已开源。
研究团队推出AcademiClaw双语基准测试集,包含80项源自大学生真实学术流程的复杂长周期任务,涵盖作业、研究、竞赛等。任务经专家从230份提交中筛选,覆盖超过25个专业领域,包括奥数、语言学、GPU密集型强化学习等,其中16项需CUDA GPU执行。每项任务在隔离Docker环境中运行,采用多维评分与独立安全审计进行评估。对六个前沿模型的测试显示,最佳通过率仅为55%,分析揭示了模型在不同领域的能力边界差异、行为策略分化及令牌消耗与输出质量脱节等问题。该基准开源以推动AI智能体更好地满足真实学术需求。
Google DeepMind的研究通过“师生对话”框架训练大型语言模型(LLM),使其能在对话中有效利用用户反馈进行学习。传统LLM将对话视为独立轮次,难以整合修正信息。该研究让“学生”模型尝试回答,由掌握额外信息的“教师”提供指导,并训练学生利用指导得出正确答案。在线强化学习训练效果优于离线过滤,且在简短对话中习得的技能能迁移至更长对话。该方法从数学任务泛化至编程任务,并能处理信息逐步到达的模糊任务。通过“Q-priming”步骤,模型在模糊任务中主动寻求澄清的可能性提高五倍以上,使对话更像与一个能在交流中实时学习的伙伴协作。