KVarN是一种免校准的KV-cache量化方法,通过Hadamard旋转结合双标度方差归一化,同时对K和V矩阵的两个轴进行归一化,以修复异常token尺度误差,大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下,KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。
KVarN是一种免校准的KV-cache量化方法,通过Hadamard旋转结合双标度方差归一化,同时对K和V矩阵的两个轴进行归一化,以修复异常token尺度误差,大幅减少自回归解码中量化误差随时间步的累积。在2-bit精度下,KVarN在MATH500、AIME24和HumanEval等生成基准上达到新的SOTA。该方法的vLLM实现已在GitHub开源。
提出 Bootstrap Your Generator (ByG) 框架,用于非配对训练流匹配图像/视频编辑模型。方法从冻结的基础模型中提取指令遵循线索,结合循环一致性保持结构;通过梯度路由将下游损失反向传播到噪声训练状态,弥合训练-推理差距。在数据稀缺的图像和视频编辑任务上达到 SOTA,泛化到未见领域,性能优于用百万级配对样本训练的监督基线。实验表明,从基础模型提取的语义线索提供了稳健的训练信号,无需外部奖励模型。
PaddleOCR-VL-1.6是一个升级的紧凑型文档解析模型,基于0.9B参数规模的PaddleOCR-VL-1.5构建。针对前一版本中模型行为不稳定、数据稀疏或监督不可靠的欠优化区域,该模型引入了区域感知数据优化框架进行定向增强,并采用基于精选数据选择和强化学习的渐进式后训练方案。PaddleOCR-VL-1.6在OmniDocBench v1.6上取得了96.33%的新SOTA成绩,展现出与顶尖VLMs的竞争力。
Ψ-Bench 是一个新提出的基准测试,旨在评估大语言模型在说服性对话中主动影响用户的能力。它设计了三个真实的交互场景,并通过对话历史为模拟客户赋予具体的人格特征。该基准对 10 个前沿大语言模型进行了评估,发现即使是最先进的模型在说服力方面仍有较大提升空间。研究同时发现,在提供客户档案后,模型性能平均提升 18.24%,凸显了用户特定信息对于实现有效说服的重要性。该工作指出,人格敏感影响力是评估与发展更主动的个性化 AI 智能体的一个有挑战性且实用的方向。
PRECISE扩展预测驱动推理(PPI),结合少量人工标注与大量LLM评判,得到偏差校正的排序评估指标。PPI在任意LLM评判误差分布下均无偏。针对Precision@K等分层指标,将输出空间计算复杂度从O(2^|C|)降至O(2^K)。在ESCI基准上,30条人工标注加上Claude 3 Sonnet评判使Precision@4估计的标准误差从4.45降至3.50(降低21%)。生产系统中,该框架从100条标签和2小时领域专家标注中正确识别出三个系统变体的最优者,A/B测试确认该排名,日销售额提升407 bps。
AI系统在多项基准上表现强劲,但未转化为经济上有意义的行业部署。新基准Agents' Last Exam(ALE)由250+行业专家联合开发,基于O*NET/SOC 2018联邦职业分类,覆盖13个行业集群、55个子领域、1000+任务,用于评估AI智能体在长周期、高经济价值真实工作流上的表现。当前最难层级平均完全通过率仅2.6%。ALE设计为动态基准,任务池持续扩展,旨在弥合基准成功与GDP影响之间的差距。
现有跨视角地理定位方法将城市级检索和精确位姿估计分离,导致级联误差与特征不一致。CIPER提出单一架构同时完成两项任务:采用共享Transformer编码器配合任务专用token,分离全局检索特征与空间定位线索;引入双向Transformer位姿解码器,以地面特征作为空间查询进行双向交叉注意力,弥合地面与航拍视角的域差距。基于集合预测策略实现稳定3-DoF回归。在VIGOR、KITTI和Ford Multi-AV数据集上,CIPER在有限视场角和任意朝向条件下表现优越。代码已开源。
研究发现,基座大语言模型未经针对性训练,仅凭少量样本提示即可预测外部评判者的多属性质量分数,效果显著高于随机。Self-Evaluation Elicitation(SEE)方法分两阶段激发该能力:先通过校准耦合的强化学习改进答案并预测评判者,再以掩码蒸馏精炼预测而不改动答案。仅用160个示例(比强化学习基线少约31倍),SEE就在三个基准上提升留出校准并保持答案质量。该自我评估集中在模型自身的token分布,对未训练过的评判者表现稳定,表明其捕捉的是可迁移的质量概念而非单一评判者偏好。
现有RLVR仅用单比特反馈判断答案正误,忽略执行轨迹、工具输出等丰富信息。DistIL通过分布化DAgger算法,使学习器局部访问当前策略下状态的专家分布,优化前向交叉熵目标实现序列级信用分配。理论证明前向交叉熵保证单调策略改进和遗憾界,而反向KL或JS散度的自我蒸馏无法做到。DistIL在科学推理、编程和硬数学问题等领域优于RLVR和自我蒸馏基线,并提升Pass@N。
BRepCLIP是首个通过对比预训练将CAD边界表示(BRep)几何与语言和图像嵌入对齐的框架。每个CAD对象被建模为面与边token序列,使用表面(如圆柱面、环面、NURBS)和曲线(如直线、圆弧、B样条)的离散词汇表,并补充空间与语义描述符。Transformer编码器将这些token汇聚为全局BRep嵌入,通过联合对比目标与CLIP的文本、图像编码器对齐。相比基于点云的OpenShape,BRepCLIP在ABC、CADParser、Automate数据集上Top-1检索分别提升40.4%、22.0%和23.9%,在FabWave上零样本分类Top-1提升15%。该框架还可作为CAD感知相似度度量用于评估文本和图像条件CAD生成。
TIDE是一种模板引导的迭代框架,用于从用户上下文中主动发现多个隐藏问题。传统智能体仅响应显式请求,而大量共存的潜藏问题存在于文档、工具和代码中。TIDE通过迭代发现机制每轮批量筛选候选问题,并基于已发现结果调节后续搜索以扩大覆盖;同时通过思维模板从历史案例中提炼复用模式,指示模型关注哪些上下文信号及如何关联,将每个预测锚定到可识别的问题类别。在个人工作空间和软件仓库两个真实场景中,基于四个模型骨干的验证显示,TIDE在任务覆盖、问题识别与解决方面均显著优于单次预测和并行多智能体基线。
SePO提出自指设计,单个提示智能体同时优化任务智能体及自身的系统提示,通过开放式演化搜索维护候选提示档案。训练分两阶段:预训练(多任务池演化)与微调(目标任务)。在数学(AIME'25)、抽象推理(ARC-AGI-1)、研究生科学(GPQA)、代码生成(MBPP)和数独五个基准上,SePO一致超越Manual-CoT、TextGrad和MetaSPO,平均准确率较Manual-CoT提升4.49个百分点。预训练习得的提示优化技能可泛化至未见任务。
经验内化将LLM智能体过往交互经验转化为可复用参数化能力。现有研究集中于单次迁移,但多轮学习下已有方法出现渐进式能力崩溃。通过分析三个维度发现:原则级经验比实例级更持久;逐步注入模式优于全局注入;离策略上下文蒸馏比在策略更稳定。这些发现为构建稳定可持续的经验内化方法提供指导。
SpeechEditBench 是一个双语多属性基准测试,系统评估指令引导的语音编辑能力。基准涵盖七种原子编辑任务及组合编辑任务,并提出基于锚点的评估协议,分别衡量目标属性编辑成功、非目标属性保持成功及联合成功。评测主流语音大语言模型和专用语音编辑系统发现:(1)无单一模型在所有维度表现优异;(2)闭源语音LLM整体优于开源模型;(3)组合编辑极具挑战。该基准为定位语音LLM瓶颈提供诊断框架,数据代码已公开。
DOT-MoE提出了一种将预训练密集模型转换为Mixture of Experts架构的新框架。该方法将密集层的分解建模为一个可微最优传输问题,利用Sinkhorn-Knopp迭代来实施严格的专家容量约束。同时,通过Straight-Through Estimators端到端联合学习离散的神经元-专家分配与token-专家路由策略。实验表明,DOT-MoE在多个基准测试中显著优于结构化剪枝等基线方法,能够在减少50%活跃参数的同时,保留原始密集模型90%的性能。
本研究对NLP领域2018至2025年间的人类标注报告实践进行了首次大规模审计。研究构建并验证了一个LLM辅助提取管线,其在Annotated-gold数据集(41篇论文,72个标注任务)上与人工裁决的一致性(Krippendorff's alpha)达到0.606。基于此,研究构建了Annotated-llm数据集,涵盖ACL会议论文,从1603篇论文中提取了2667个标注任务。分析发现,论文常报告招募策略、标注者专长等操作细节,但经常遗漏评估标注效度所需的关键信息,如培训、语言能力、薪酬、裁决过程及一致性数值。研究指出标注报告虽有改善但仍不均衡,并提出了一个可扩展的框架和最低报告标准。
JAMEL 是一个用于训练智能体在开放环境中进行探索的框架。它通过新颖性驱动的交互,将智能体的记忆模块与探索策略进行联合训练。该框架利用如代码覆盖率等确定性、持久的新颖性信号,为记忆模块提供无需人工标注的监督信号。实验评估表明,JAMEL 成功泛化至未见过的环境,其探索能力超越开源基线,达到与闭源模型相当的深度,同时减少了 token 消耗。相关代码与模型已开源于 GitHub。
K-BrowseComp 是一个针对韩语语境的网页浏览智能体基准,包含400个问题,其中300个为人工构建验证的子集。在此子集上,GPT-5.5、DeepSeek-V4-Pro 和 GLM-5.1 等前沿大语言模型仅达到30.00%–45.67%的准确率,而韩国本土大模型得分仅为0.00%–10.33%。此外构建的100题合成对抗测试集中,最强模型得分仅为26.00%。数据集与代码已公开。
专注于多流视频流理解的基准测试X-Stream被提出,包含4220个QA对、932个视频和11个子任务,覆盖多窗口、多视图和多设备场景。研究首次将多模态大语言模型(MLLM)的概念化为信号复用器,并基于信号复用理论进行评估。在线推理实验显示,当前最先进的MLLM在处理并发视频流时表现挣扎,得分仅约50%且主动能力较差。该基准揭示了现有复用方案的权衡,为多流智能体提供了评估协议和实证指导。
计算机使用智能体在动态交互环境中面临提示注入等对抗性交互和弹窗等环境动态带来的安全风险。现有技能学习方法假设静态安全环境,可能导致危险技能学习。SkillHarness将技能学习与利用建模为安全约束交互过程,引入技能边界机制,利用多源监督信号从交互轨迹中识别安全技能,并构建自改进的安全约束;同时通过选择性技能复用,根据上下文引导任务分解并选择性激活技能子集。实验表明,SkillHarness将学习技能的不安全率降低57.1%,并在动态环境变化下持续提升执行稳定性。
Steady-Forcing 提出记忆与训练框架,结合持久视觉锚点(V-Sink)、指数移动平均运动记忆(EMA-Sink)、块相对时序编码、周期性缓存净化以及经运动奖励先验的 Wan2.1-14B 教师模型知识蒸馏,在多分钟自回归生成中保持背景身份并维持视觉合理的流体动力学。七个基线评估显示该方法提升了长时序背景一致性和成像质量,盲测表明用户感知的稳定性和运动连续性更强。研究还发现 VBench 综合评分未有效惩罚固定相机伪影,而是将漂移引起的光流奖励为动态程度,却未直接惩罚纹理硬化或流动停滞。
Curation-Bench 是一个面向智能体的基准,固定模型、训练配方和评估套件,赋予智能体命令行权限以检查数据、实施策略并提交训练/评估管道进行迭代。在视觉语言指令微调场景中,开箱即用的智能体在十次迭代内即可达到强数据选择基线。但轨迹分析显示存在执行-研究差距:智能体主要调整局部策略变体,而非探索新策略族。脚手架要求每次迭代引用、实例化并改编先前方法,引导智能体进行方法导向探索。最终脚手架化的智能体自主组合出数据选择策略,以十分之一的数据预算超越了强基线。代码和基准已开源。
新研究挑战了文生图模型依赖文本编码器丰富上下文信息的普遍认知。研究者发现,基于扩散Transformer的模型主要只利用文本表示中两个简单方面:跨多个token的词汇合并,以及由位置编码印刻的词序。通过构造仅编码单个词义与顺序、但缺少完整提示上下文信息的“词义与顺序标记袋”文本嵌入,生成的图像在视觉质量与文本保真度上与使用完整文本嵌入相当。这表明,文生图模型往往不会使用文本嵌入中除词义和词序之外的丰富信息,而是由图像模型自身完成复杂语言结构的解码。
针对大语言模型后训练中奖励模型依赖规则验证器、真实参考答案、程序检查表等异构评估标准、缺乏统一机制的问题,提出Skill-RM框架。该框架将奖励建模重构为可复用的“奖励评估技能”执行,把奖励计算当作结构化的智能体任务,通过统一接口动态选择和聚合证据。在奖励基准及best-of-N选择、强化学习等下游任务中,Skill-RM持续优于传统judge基线,为奖励建模提供了统一且透明的方案。代码已开源。
RobotValues 是一个包含1万个价值观冲突场景的基准,用于评估家庭机器人规划器在任务成功与自主性、效率、社会恰当性等人类价值观冲突时的行为选择。该基准通过LLM辅助场景生成、利益相关者导向的价值提取、图像生成和自动质量控制构建。使用RobotValues评估视觉语言模型(VLM)发现,模型默认偏向安全和包容,较少优先隐私保护。当指令要求优先与自身偏好冲突的特定价值观时,模型在80%的情况下无法覆盖默认动作,选择了错误行为。这表明家庭机器人评估应衡量价值观冲突中选择合理动作的能力。
ACTS将推理引导建模为马尔可夫决策过程,控制器智能体在推理中自适应引导冻结的推理器。控制器每步观察推理轨迹与剩余预算,发出含推理策略和引导短语的动作,实现预算感知的推理控制。控制器通过合成轨迹初始化,并经强化学习优化。在多个基准上,ACTS以显著token节省匹配全思考性能,实现可控的精度-效率权衡。代码已开源。
μP 已实现标准 Transformer 零样本超参数迁移,但扩展到线性模型(尤其带结构化状态转移的门控 Delta 网络)尚未探索。通过在前向传播、门控机制和循环动态中传播坐标规模估计,推导出门控 Delta 网络的缩放规则。语言模型预训练实验证实,该配置在 AdamW 和 SGD 下均实现跨模型宽度稳定学习率迁移,而标准参数化无法迁移。
AAD-1提出一种不对称对抗蒸馏框架,用于单步自回归图像到视频生成。现有对抗蒸馏方法存在运动崩溃和训练不稳定问题,导致生成静态视频。AAD-1在架构上打破生成器与判别器的对称性:生成器保持因果性以保留自回归采样能力,判别器则双向关注完整时空上下文,为整个视频序列输出一个整体真实性分数,从而有效检测全局时间失败和长程漂移。训练采用分阶段策略,先用分布匹配预热使单步生成器接近教师分布,再开始对抗蒸馏。在VBench上,AAD-1取得单步自回归视频生成的最先进性能。
针对多模态大语言模型在物理环境中的空间推理缺乏系统评估与训练的问题,提出ReasonMatch-Bench基准,按视点位移和匹配粒度分层覆盖室内、室外和物体中心场景。在90样本困难子集上,人类F1达84.0,最佳基线仅37.2。构建自动数据管线从RGB-D视频和SfM重建中提取广基线视图对,产出可验证监督信号。进一步提出动态对应强化学习(DCRL),结合图像级视点递进和点级对应课程,通过可验证奖励提升广基线匹配训练。实验表明DCRL显著提升ReasonMatch-Bench得分并泛化至相关基准,维持通用视觉性能。
MemTrain 是一个专为增强大语言模型智能体上下文记忆能力而设计的自监督训练框架。它基于未标注的 Wikipedia 语料,引入两个耦合代理任务:端到端掩码重建(要求模型在多轮记忆更新后恢复被掩码实体)与中间记忆召回(利用中间记忆状态重建被掩码历史信息),并通过 GRPO 联合优化。在长文本 QA 和搜索型 QA 基准上,MemTrain 一致提升不同模型的记忆密集型推理性能,最高达 17.67 个百分点的增益。
SynCred-Bench是一个包含600张AI生成错误信息图像的基准测试,覆盖6种可信形式类别和7种细粒度传播风格,并配有FP450真实图像负集。评估显示,在5%假阳性率约束下,现有系统表现不可靠:15个多模态大语言模型仅达10.5%真阳性率,开源AIGC检测器不足5%,商业API达57.6%,人类标注者也仅识别出63%样本。这揭示了合成可信度作为严峻且尚未充分研究的视觉错误信息挑战。
TRON 是一个面向视觉推理强化学习(RL)的在线环境框架。它通过可控的生成器-验证器程序,按需生成全新的视觉状态、图像和问答实例。当前 TRON 套件包含 520 个环境,按能力分为五个类别。该框架支持单一全模型训练和按桶训练专家模型,无需额外数据采集,并提供了生成可靠性、多样性等分析。基于 TRON 进行 RL 后训练,能持续提升 Qwen3-VL-4B、Qwen2.5-VL-7B 与 MiMo-VL-7B-SFT 在多个外部多模态推理基准上的性能。
KITScenes Multimodal是一个欧洲自动驾驶多模态数据集,传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素(含红绿灯)以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市,补充地理多样性。同时推出四个基准:在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。
Agentic LLM结合网络搜索使弱上下文线索可成为跨源重识别证据,现有防御仅移除显式标识符或扰动文本,未充分探索抵抗智能体重识别与保留效用的操作区间。AURA是一种LLM掩码-重构框架,将隐私定位与效用保留重构解耦,并通过对抗性隐私与效用保留检查选择候选。在真实访谈转录上使用网络搜索智能体重识别攻击评估,结合受访者画像、编码本及联合上下文效用网格进行效用评估。结果显示,AURA通过自适应隐私范围提升对智能体重识别的抵抗力,并在固定隐私范围下更好地保留上下文效用。
训练医学图像分割模型需要大量密集标注数据,成本高昂。现有半监督学习依赖伪标签,但模型置信度或不确定性评估存在自我参照问题。本文提出质量引导的半监督学习框架,训练专用网络从图像-掩膜对估计分割质量。该质量预测器通过合成损坏及部分训练模型生成的不完美掩膜进行训练,捕捉真实错误模式。通过质量感知正则化损失和基于质量的伪标签重加权两种机制融入半监督学习,可作为即插即用模块集成到现有框架。在五个数据集和多种架构上的实验表明,该方法持续优于竞品,达到最新水平。
AutoMedBench 是一个工作流感知的基准测试,用于评估自主医疗AI研究智能体在完整研究流程中的表现。该基准涵盖医学影像与多模态推理任务,组织智能体执行统一的五阶段工作流:规划、设置、验证、推理与提交。任务涉及分割、图像增强、视觉问答、报告生成和病灶检测五大赛道,每个任务设有Lite与Standard两个难度级别,单次运行平均包含33个智能体回合。结果表明,验证阶段是当前智能体最薄弱的环节,而设置阶段表现最强。错误分析显示,验证与提交失败分别占37.7%和38.1%,任务理解错误仅占0.9%;出现错误代码的运行总分平均比无错误运行低48%。
弱到强泛化研究如何利用较弱教师的监督信号来提升强学生模型,核心挑战在于筛选出足够可靠的弱标签。信任函数为每个弱标签分配一个标量信任分数,并据此过滤弱监督信号。在世界知识、定量推理和策略游戏等多个领域,信任过滤训练出的学生模型能够匹配甚至超越基于真实标签监督的模型,实现近乎无损的弱到强泛化。此外,信任函数支持迭代式弱到强链——将训练好的学生作为下一轮教师,叠加增益效果。其优势可归因于多种机制。
研究发现,基于Reflexion的智能体依赖自我生成的反思作为记忆,但在ALFWorld和HumanEval任务中会系统性失败:智能体存储了自信但错误的任务解释,并在环境每次重置为正确任务的情况下仍持续按错误解释行动。该现象被命名为“记忆虚构”。作者提出Reflection Repetition Rate(RRR),一种基于日志的指标,用于检测对错误反思内容的重复依赖,并据此识别出ALFWorld中16个冻结环境(121条反思中0条提及正确目标对象)以及HumanEval中4个类似案例。缓解方案用程序化提取轨迹级失败信号替代开放式自我诊断,使正确提及目标对象从0%提升至86%,RRR从0.64降至0.10,并解决了16个冻结环境中的3个。
在可控C_n对称任务上,等变先验对样本复杂度的理论增益因子|G|首次作为标度律测量。错误群控制比无约束更差(成对联合CI [+0.79, +3.26]排除零);带测试时轨道平均的数据增强基线在每epoch验证曲线上与等变模型完全一致。相对交换率beta_diff=1.28与理论值1.0在符号和数量级一致(单层CI [+0.92, +2.05]),但保守双层bootstrap区间包含零。最可靠结论:错误群约束有害。
前沿大语言模型在LiveCodeBench上已饱和,易分题Pass@1超99%,平均超90%。新提出的BenchEvolver框架以解决方案为中心,通过结构化变换自动进化已有编码问题的参考解,再从进化后解推导题目与测试用例,从而可扩展构造更高质量、多样、困难且结果可验证的任务。应用于LiveCodeBench和SciCode后,进化任务难度显著提升。整理出的LiveCodeBench-Plus含91道题,前沿模型Pass@1仅27.5%–62.6%,恢复了强编码模型间的清晰区分。进化任务对生成模型自身也有挑战性,可用于自我提升。基于进化任务的强化学习在gpt-oss-20b上使LCB v6 Hard和LCB-Pro Easy的Pass@1分别提升+8.7和+8.3,超出仅用原始任务训练的增益70.7%和34.8%。