研究团队推出长期记忆评估基准LongMemEval-V2,旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题,涵盖五项核心记忆能力,并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R,以及调用编码智能体收集证据的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率取得最佳性能,显著优于基线方法,但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。
研究团队推出长期记忆评估基准LongMemEval-V2,旨在直接检验智能体内化特定环境经验的能力。该基准包含451个手工问题,涵盖五项核心记忆能力,并配有多达500条轨迹的历史数据。研究提出了基于检索增强生成的高效记忆方法AgentRunbook-R,以及调用编码智能体收集证据的AgentRunbook-C。实验表明,AgentRunbook-C以72.5%的平均准确率取得最佳性能,显著优于基线方法,但延迟成本较高。该基准为开发面向环境经验的长期记忆系统提供了具有挑战性的测试平台。
为应对高成本大语言模型实验自动化配置的空白,本文提出智能体框架AutoLLMResearch。其核心是通过一个基于超百万GPU小时实验结果构建的多保真度环境LLMConfig-Gym进行训练,使智能体能够从低成本“低保真”实验中学习通用原则,并外推至昂贵的高保真场景,从而高效识别有潜力的配置方案。评估表明,该框架在多种强基线对比中展现出有效性、泛化性与可解释性,为现实世界中可扩展的LLM实验自动化提供了实用解决方案。
研究团队提出CausalCine,一个将多镜头视频生成转化为在线导演过程的交互式自回归框架。该框架能跨越镜头边界进行因果生成、实时响应动态提示,并复用历史上下文。其核心是内容感知记忆路由(CAMR)机制,该机制依据注意力相关性动态检索历史关键信息,而非依赖时间邻近性,从而在有限内存下保持跨镜头连贯性。团队首先训练因果基础模型学习复杂镜头转换,再将其蒸馏为少步生成器以实现实时交互。实验表明,CausalCine显著优于自回归基线,并接近双向模型能力,同时解锁了流式交互性。
本文提出δ-mem,一种轻量级在线记忆机制,用于增强大语言模型在长期任务中的历史信息利用能力。该方法在冻结的主干网络上,通过一个仅需8×8大小的紧凑关联记忆状态矩阵,以delta规则动态压缩更新过往信息,并在生成时读取该状态以产生低秩校正项来调整注意力计算。实验表明,δ-mem将平均性能提升至冻结主干模型的1.10倍,并达到最强非δ-mem记忆基线的1.15倍,在记忆密集型基准上增益更显著。该方法无需全量微调、替换主干或显式扩展上下文,即实现了有效的记忆功能。
当前基础模型与LoRA适配器在端侧AI部署中面临知识产权泄露和模型恢复攻击风险,现有防御需重训或依赖原始数据。LoREnc提出免训练保护框架,通过频谱截断抑制基础模型权重低秩分量,结合补偿机制与正交重参数化隐藏适配器结构指纹。授权用户可无损恢复性能,非授权用户获得结构崩溃输出。实验显示该方法能有效防止模型恢复,计算开销低于1%。
研究发现,现有顶尖的视频多模态大模型在理解声音时,常依赖视觉线索进行推断或“幻听”,而非真正处理音频,这种“视听聪明汉斯效应”普遍存在于主流模型中。为此,研究者提出了Thud干预探测框架,通过时间偏移、静音与替换三种反事实音频编辑来诊断该问题。他们进一步提出了一种仅需10K样本的两阶段对齐训练配方,能将模型在干预测试上的平均表现提升28个百分点,同时也能略微改善通用视频问答的性能。
本研究审计了多模态物理评测流程,发现了三个未被察觉的构建问题:训练评估数据污染、翻译漂移以及选择题饱和。为解决这些问题,团队发布了四个关键成果:经严格审计的多模态语料库PhysCorp-A、闭式强化学习池PhysR1Corp、包含新题型与双语子集的评测集PhysOlym-A,以及基于Qwen3-VL-8B-Thinking冷启动的参考方案Physics-R1。该方案在审计语料库上将8B基座模型在PhysOlym-A上的得分提升至26.3,在PhysReason上提升至39.6,超越了Qwen3-VL-32B与Gemini 2.5 Pro。
针对多模态大模型在360度全景图像空间理解上的不足,研究提出PanoWorld模型。现有方法通常将全景图分解为透视图,忽略了其连续的球面几何结构。为此,本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据,并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上,PanoWorld显著超越了现有开源与专有基线。结果表明,稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。
本文从函数空间视角研究几何网格上物理场方程的解算子。我们发现Hodge正交性通过分离不可学习的拓扑自由度和可学习的几何动力学,从根本上解决了谱干扰问题,实现了结构保持子空间的加性逼近。基于Hodge理论和算子分裂,我们推导了原则性的算子级分解,构建了称为Hodge Spectral Duality (HSD)的混合欧拉-拉格朗日架构。该框架使用离散微分形式捕获拓扑主导分量,并利用正交辅助环境空间表示复杂局部动力学。我们的方法在几何图上实现了更高的精度和效率,同时增强了对物理不变量的保真度。代码已开源。
本文提出一种将预训练推理模型转化为严格奥赛求解器的统一方法。该方法首先采用反向困惑度课程进行监督微调,以灌输严谨的证明搜索与自我检查行为;随后通过两阶段强化学习流程扩展这些能力,最终结合测试时扩展提升性能。基于此方案训练的30B参数模型SU-01,在仅使用约34万条短轨迹微调和200步强化学习后,能稳定处理超过10万token的长轨迹难题,并在IMO、USAMO、IPhO等数学与物理奥赛中达到金牌级表现,同时展现出向数学物理之外科学领域的强推理泛化能力。
针对角色扮演代理长期一致性记忆的需求,本研究提出基于搜索的记忆框架BOOKMARKS。它通过主动初始化、维护和更新与当前任务相关的“书签”来替代传统的循环摘要方法,避免重要细节丢失。每个书签被构建为故事情节特定时间点上一个问题的答案,支持概念、行为和状态三种搜索类型,并采用高效同步机制更新答案以供未来复用。相比基线方法,该框架兼具主动锚定任务细节和被动更新以减少计算开销的优势。在涵盖16个作品、85个角色的测试中,其性能显著优于现有记忆基线。
研究团队提出嵌入式语言流(ELF),这是一种基于连续时间流匹配、在连续嵌入空间中运行的扩散语言模型。与主流离散扩散模型不同,ELF在绝大部分采样过程中保持在连续空间,仅在最后一步通过共享权重网络映射到离散词元。这一设计使其能直接借鉴图像扩散模型的成熟技术(如无分类器引导)。实验表明,ELF在生成质量上显著优于当前领先的离散和连续扩散语言模型,并能以更少的采样步骤实现更优性能,为构建有效的连续扩散语言模型提供了新路径。
研究团队推出机器人记忆基准 RoboMemArena,包含26个长轨迹任务,平均轨迹长度超1,000步,其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹,并提供记忆相关标注,同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构,通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库,并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型,为复杂记忆系统的设计提供了新见解。
推测解码通过轻量草稿模型生成候选令牌来加速大语言模型推理,但其LM-Head对大规模词汇的投影计算成本高昂。现有方法多采用词汇截断,但增加了复杂性。本文提出SlimSpec,采用低秩参数化压缩草稿模型LM-Head的内部表示而非输出,从而保留完整词汇支持。在EAGLE-3草稿模型和多个目标模型及基准测试中评估,SlimSpec在延迟和吞吐量场景下,相比标准LM-Head实现了4-5倍加速,同时保持有竞争力的接受长度,端到端加速效果超越现有方法8-9%,且对训练和推理流程改动最小。
Shepherd提出了一种函数式编程模型,将元智能体对目标智能体的操作形式化为函数,其核心操作在Lean中实现。该系统将所有智能体-环境交互记录为类似Git的类型化执行追踪,支持对任意历史状态进行分支与重放。其分支智能体进程及文件系统的速度比Docker快5倍,重放时提示缓存复用率超过95%。应用案例表明,其实时监督可将结对编程通过率从28.8%提升至54.7%;反事实元优化在四个基准测试中最高超出基线11个百分点,同时减少高达58%的挂钟时间;在Tree-RL训练中,于选定轮次进行分支展开将性能从34.2%提高至39.4%。该系统已开源。
Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器,结合多模态扩散变换器进行联合建模,并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入,能生成幻灯片、海报等富文本内容,显著提升多语言文本渲染与排版质量。在生成方面,它增强了细节、纹理真实感与光照一致性,并更可靠遵循复杂指令。人工评估表明,其在生成和编辑任务上均大幅超越前代模型。
研究发现语言模型合并遵循一个紧凑的幂律定律,它将模型大小与专家数量相关联:模型容量越大,其性能下限越低;而合并带来的性能提升尾部则随专家数量增加呈现明显的收益递减。该定律在领域内和跨领域均成立,紧密契合不同架构与方法下的实测曲线,并解释了大部分收益在早期获得、且性能波动性随专家增多而缩小这两个稳健规律。基于此的简单理论将性能下限和尾部与基础模型特性及领域多样性联系起来。这一定律使得预测性规划成为可能,例如估算达到目标损失所需的专家数量,或在固定预算下权衡扩展基础模型与增加专家,从而将模型合并从启发式实践转变为一种可计算、可规划的高效方案。
针对现有图像到3D生成中像素级保真度不足的问题,研究团队提出Pixal3D新范式。该方法摒弃在规范空间中生成的常规做法,通过像素回投影条件方案,将多尺度图像特征直接提升为3D特征体积,从而建立明确无歧义的像素到3D对应关系。此举显著提升了生成资产相对于输入图像的保真度,使其接近重建水平。该框架可扩展生成高质量3D资产,并能自然支持多视图生成与高保真、对象分离的3D场景合成。
本文提出AI CFD Scientist,一个开源的计算流体动力学AI科学家框架。它首次在单一可检视工作流中整合了文献驱动的构思、验证执行、基于视觉的物理验证及图文写作。其核心是一个视觉-语言物理验证门,能在接受结果前检查流场渲染图。实验表明,该框架自主发现了能降低壁面摩擦系数误差的湍流模型修正;在同等成本下,其性能优于通用AI科学家基线,因其具备关键的领域专用验证能力;对照实验证实,视觉验证门能有效检测出求解器日志遗漏的多数静默故障。
研究发现,直接使用前沿代码助手(如GPT、Claude)进行智能体评估效果不佳,其执行成功率仅为30%,且生成的评估指标平均超过12项,过于复杂。为此,研究者提出了EvalAgent,它能将评估领域知识编码为可组合的“评估技能”,自动化生成包含指标、可执行代码和报告的完整评估成果。通过新构建的AgentEvalBench基准和衡量首次运行成功率的Eval@1指标进行评估,EvalAgent将Eval@1从基线方法的17.5%大幅提升至65%,并获得了79.5%的人类专家偏好。消融研究证实评估技能至关重要,移除后Eval@1会从65%骤降至30%。
本文在完全非参数设定下,为从通用模型学习任务相关的专家表示建立了可识别性理论基础。首先证明,即使序列缺乏严格时间依赖且任务分配结构任意复杂,时间步与任务间的结构仍可在无监督下被识别。其次证明,在单个时间步内,仅需简单的稀疏性正则化即可将任务相关潜在表示与无关部分解耦,无需额外约束。这两项结果共同构成了层次化的可识别性保证:任务结构在时间步间可识别,任务相关表示在步内可识别。这是首个通用的非参数可识别性理论,为从通用模型向可证明的专家模型转变提供了依据。
研究提出了一种探索感知的强化学习框架,使LLM智能体能够在不确定性高时才进行自适应探索。该方法通过变分推理设计了细粒度奖励函数,评估探索性行动对改善未来决策的潜力,并引入探索感知分组机制,在优化过程中将探索行动与任务完成行动分离。实验表明,该方法在一系列基于文本和GUI的智能体基准测试中取得了持续的性能提升。相关代码与模型已在GitHub和HuggingFace平台开源。
针对大型语言模型的智能体强化学习提出新方法ActGuide-RL,通过引入日常人类交互产生的海量动作数据作为规划式参考指引,帮助策略克服难以抵达奖励状态的探索障碍。该方法采用最小干预原则,仅在必要时自适应启用指引以匹配任务难度,同时通过混合策略训练将探索收益内化回无指引策略。在搜索智能体基准测试中,ActGuide-RL相比零强化学习基线在GAIA和XBench上分别提升10.7和19个百分点,性能与需要大量监督微调数据的流程相当,为智能体强化学习提供了减少对繁重监督微调依赖的新范式。
TrackCraft3R首次将预训练的视频扩散Transformer改造为前馈式密集3D跟踪器。该方法通过双潜在表征(几何潜在与跟踪潜在)和时序RoPE对齐两项核心设计,将视频DiT的逐帧生成范式转换为以参考帧为锚点的跟踪范式,仅需LoRA微调。给定单目视频及其逐帧重建点云图,模型能单次前向传播预测出以首帧为锚点的跟踪点云图及其可见性。该方法在标准3D跟踪基准上实现了最优性能,同时以1.3倍的速度和仅需1/4.6的峰值内存运行,并对大幅运动和长视频保持鲁棒性。
Orthrus 提出一种双架构框架,将自回归大语言模型的精确生成与扩散模型的高速并行生成相统一。该框架通过向冻结的预训练LLM添加轻量级可训练模块,构建一个与原有自回归视图并行的扩散视图。两视图共享完全相同的高保真键值缓存:自回归头负责上下文预填充以构建准确表示,扩散头则执行并行令牌生成。通过严格的共识机制,Orthrus 在保证无损推理的前提下,仅增加 O(1) 内存开销与极少参数量,即实现了最高 7.8 倍的生成加速。
当前大模型推理评估过于侧重准确性、延迟等软件指标,忽视了部署规模下的核心约束:在有效算力、供电、冷却等物理限制下生产满足质量要求的Token。研究主张将推理视为“能量到Token”的生产过程,并建立了统一的Token生产函数模型,其产出速率同时受限于“每Token计算量”和“每Token能耗”上限。在此框架下,KV缓存压缩、量化、路由等系统优化本质上是提升能量转化效率的关键杠杆。因此,呼吁未来研究与基准测试在报告传统指标时,应同步纳入每Token能耗、实际绑定约束、经PUE调整的供电功率及利用率调整后的Token输出等关键物理指标。
研究团队提出世界-动作交互模型(WAIMs)概念,并针对自动驾驶实例化出DAWN模型。DAWN在紧凑的语义潜在空间中,通过世界预测器与条件动作去噪器的耦合进行交互式推理:预测的世界为动作去噪提供条件,而去噪后的动作又反馈以更新世界预测,两者在推理中递归优化。该方法无需在像素空间展开完整未来预测,仅通过短时潜在推演即可支持复杂交互场景中的长时程轨迹生成。实验表明,DAWN在多个自动驾驶基准测试中取得了优异的规划性能与安全相关结果,证明交互式世界-动作生成是构建真正可操作世界模型的有效路径。
PresentAgent-2 是一个从用户查询生成端到端演示视频的智能体框架。它首先将开放式查询总结为聚焦主题,并从演示友好型来源进行深度研究,收集文本、图像、GIF和视频等多模态资源。随后构建演示幻灯片,生成特定模式的脚本,并将幻灯片、音频和动态媒体合成为完整视频。该框架统一支持三种独立演示模式:单人演示(单解说员)、讨论式演示(多演讲者结构化角色)和交互式演示(基于生成内容回答观众问题)。研究团队构建了涵盖三种场景的多模态演示基准,并制定了内容质量、媒体相关性、动态媒体使用等评估标准,从而将演示生成从文档依赖的幻灯片创建扩展到查询驱动、研究基础的多模态视频生成。
针对现有美学评估常简化为单图像打分的问题,研究提出了视觉美学基准(VAB),将其定义为在主题匹配的候选图像集中进行对比选择。该基准包含400项任务和1,195张图像,每项任务由10位专家达成共识标注。评估20个前沿多模态大模型和6个专用视觉质量奖励模型后发现,最强模型仅在26.5%的任务中准确识别最佳和最差图像,远低于人类专家68.9%的准确率。在少量专家示例上微调较小模型,其性能可接近大得多的开源模型,表明VAB中的对比信号具有可迁移性。这些结果揭示了当前模型与专家美学判断之间存在显著且可量化的差距。
本研究评估多模态大语言模型(LLM)作为临床评分自动评估器的表现,以画钟测试(CDT)图像评分任务为例。在两个公开数据集上,使用Shulman评分标准,比较三大前沿LLM家族(如GPT-5)与监督深度学习模型。零样本LLM在容差一致性上具有竞争力,但全微调视觉变换器在绝对校准上更优。所有LLM均表现出显著“趋中倾向偏差”:预测分数系统性向量表中间压缩,高估低分、低估高分,严重影响认知障碍筛查的关键极端分数。消融实验证明,提供全量表示例或去除临床术语均无法消除该偏差。研究将LLM评估者偏见研究扩展至临床领域,强调在高风险筛查工作流中部署前需进行校准意识评估和事后校准。
本文提出Raster2Seq方法,将复杂平面图的重建任务转化为序列到序列学习问题。该方法将房间、门窗等平面图元素表示为同时编码几何与语义信息的多边形序列,并通过自回归解码器,利用可学习锚点引导注意力机制,依据图像特征与已生成角点预测下一个角点。这种设计使模型能够灵活、高效地处理包含大量房间和复杂多边形结构的平面图。实验表明,Raster2Seq在多个标准基准上取得了领先性能,并在更具挑战性的数据集上展现出强大的泛化能力。
WildClawBench是一个原生运行环境基准,包含60项人工编写的双语多模态任务,涵盖六大主题。任务平均耗时约8分钟,涉及超20次工具调用,并在可复现的Docker容器中运行真实的CLI智能体框架与工具。评估采用混合评分,结合规则检查、环境状态审计和LLM/VLM语义评判。在19个前沿模型中,表现最佳的Claude Opus 4.7在OpenClaw框架下总体得分仅62.2%,其余均低于60%,且仅更换框架就可使同一模型得分波动高达18分。结果表明,当前模型在长周期、原生环境的智能体任务上仍面临巨大挑战。研究已公开任务、代码及容器化工具以支持复现。
研究揭示了表格数据生成增强中存在的“保真度-效用差距”,即仅追求分布真实性未必能提升下游模型性能。为此提出的TAP方法将扩散修复技术与轻量级策略相结合,该策略根据学习器状态动态引导生成高效用样本,并通过显式门控和保守窗口承诺控制安全注入。在七个真实数据集上的实验表明,在数据极度稀缺时,TAP显著优于现有生成基线,最高提升分类准确率15.6个百分点,降低回归任务RMSE达32%。
针对现有表格基础模型依赖冻结预训练嵌入处理文本、图像等非结构化模态导致信息丢失的问题,研究团队推出了包含40个数据集的MulTaBench基准。该基准专注于模态间提供互补预测信息的任务,避免以往基准中模态简单共现带来的高方差问题。实验表明,针对具体任务调整嵌入能显著提升模型性能,且这一收益在文本与图像模态、多种表格学习器及不同模型规模上均具普适性。作为迄今规模最大的图像-表格基准,MulTaBench覆盖医疗、电商等高影响领域,旨在推动融合联合建模与目标感知表征的新架构研究,为开发新一代多模态表格基础模型奠定基础。
研究团队发布IndustryBench,这是一个基于中国国家标准(GB/T)和工业产品记录构建的2049项中文工业采购问答基准,并提供了多语言对齐版本。构建中,基于外部搜索的验证环节拒绝了70.3%的大语言模型生成问题,凸显了仅靠模型过滤的不可靠性。对多语言模型的评估发现:最佳系统得分(0-3分制)仅为2.083分,提升空间巨大;“标准与术语”是普遍能力短板;扩展推理会因引入无依据的安全关键细节而降低多数模型的安全调整分数;安全违规检查会显著改变模型排名。研究表明,工业领域的大语言模型评估需基于源文本、具备安全意识,而非依赖简单的聚合准确率。
针对大语言模型在长上下文微调中因位置偏见和注意力汇聚导致的注意力稀释问题,本研究提出了FocuSFT双层优化框架。该方法通过内循环快速权重参数形成参数化记忆,集中注意力于相关内容,外循环则基于此锐化表征进行监督微调。实验表明,在BABILong基准上准确率最高提升14个百分点;在RULER的16K长度下,CWE分数从72.9%提升至81.1%;在GPQA工具使用任务中pass@1相对提升24%。注意力分析显示,该方法将训练时的注意力汇聚效应降低529倍,并显著提升了上下文参与度。
研究发现,大型语言模型的后训练方法——策略蒸馏(OPD)与策略自蒸馏(OPSD)效果不稳定。OPD在数学推理任务中对教师模型和损失函数极为敏感;OPSD则在测试时缺乏实例特定特权信息时容易失效,但在系统提示等共享规则场景下有效。失效机制主要包括:师生分布不匹配、TopK反向KL梯度导致的优化不稳定,以及OPSD聚合教师策略时丢失实例信息。采用停止梯度的TopK目标、经RLVR适配的教师模型和SFT稳定的学生模型可有效缓解这些问题。
针对文本到图像整流流模型,现有偏好数据集仅存储最终图像,无法描述其以特定先验噪声为索引的近似直线轨迹。本研究提出先验噪声感知偏好优化方法,通过保留生成胜出/落败图像时使用的配对先验噪声,将标准三元组扩展为六元组。利用整流流的直线特性,通过噪声-图像插值估计中间状态,从而约束轨迹估计空间并获得更紧致的代理优化目标。此外,引入动态正则化策略,根据奖励差距和训练进度自适应调整正则化强度,提升训练稳定性与样本效率。实验表明,该方法能持续改善偏好指标,同时显著降低训练计算量。
研究团队推出CAFE基准,专门评估提示型分割模型的概念忠实性。该基准通过属性级反事实操作,构建了包含2,146个测试样本的数据集,涵盖表面模仿、上下文冲突和本体冲突三类误导性语义线索。对多种模型的评估揭示了一个系统性差距:模型即使面对误导性提示也常能生成精确掩码,这表明强大的掩码预测能力并不等同于忠实的概念语义基础。CAFE为诊断模型是否基于概念而非视觉捷径进行分割提供了受控的评估标准。
针对AI生成图像检测,本研究提出MDMF框架,通过聚焦局部区域的微观统计异常来识别伪造。该方法引入可学习的“补丁取证签名”,将图像语义块映射到紧凑的取证潜在空间,并利用最大均值差异量化生成图像与真实图像间的分布差异。理论分析表明,当生成图像存在局部取证信号时,基于补丁的建模能产生可证明的更大分布差异,从而实现更可靠的区分。在多个基准测试上的实验表明,MDMF consistently outperforms baseline detectors,验证了其通用有效性。项目页面已公开。