传统MoE模型每层设置独立专家,导致参数量随深度线性增长。研究发现深层路由功能冗余,因此提出UniPool架构,采用一个全局共享的专家池供所有层访问,取代分层独立设计。通过池级辅助损失平衡专家使用,并采用NormRouter实现稳定稀疏路由。在多个规模的LLaMA模型上实验表明,UniPool持续提升了验证损失。关键的是,共享池设计将池大小确立为深度缩放超参数:仅使用基线41.6%-66.7%专家参数的缩减池变体,性能达到或超越了传统分层MoE,证明专家参数可实现次线性增长并保持更高效率。
为提升视频奖励模型的泛化能力与训练效率,研究团队提出DeScore模型。它采用“先思考后评分”的解耦范式:首先由多模态大语言模型生成显式思维链推理,再由专用判别式评分模块预测最终奖励。模型通过两阶段框架优化:第一阶段结合随机掩码进行判别式冷启动,确保评分稳健性;第二阶段通过双目标强化学习,独立优化推理质量并校准奖励,使更优的推理直接转化为更好的性能。该方法旨在克服现有判别式模型易陷于捷径学习、生成式模型因推理与评分耦合而存在优化瓶颈的问题。
针对现有大语言模型安全基准的英语中心主义局限,研究团队发布了XL-SafetyBench。该基准包含10个国家-语言对的5500个测试用例,设有基于国家的对抗性“越狱基准”和嵌入本地敏感性的“文化基准”。通过引入中立安全率与文化敏感率等补充指标,能更好区分原则性拒绝与理解失败。对37个模型的评估发现,前沿模型的越狱鲁棒性与文化意识不耦合,而本地模型的安全表现更多源于生成失败而非真正对齐。该工作为多语言时代的模型安全提供了细致的跨文化评估工具。
针对野外环境中多动物三维重建面临的物种多样、遮挡频繁等挑战,研究团队提出了SAM 3D Animal,这是首个支持从单张图像进行多动物可提示三维重建的框架。该方法基于SMAL+参数化动物模型,能够联合重建多个实例,并支持通过关键点和掩码进行灵活提示,以有效解决复杂场景中的歧义与遮挡问题。为训练此模型,研究引入了包含超过5000张图像的Herd3D多动物三维数据集,显著提升了物种、互动与遮挡模式的多样性。在多个基准数据集上的实验表明,该框架在基于模型和免模型的方法中均达到了最先进的性能,为野外动物三维重建提供了可扩展的有效解决方案。
本文研究在中训练阶段引入自生成多样化数据对强化学习(RL)的增益。该方法基于波利亚解题策略,为每个问题生成多种正确答案变体并微调。理论分析表明,这种训练方式能通过策略梯度更新激励模型融合不同推理路径。实验验证,经此中训练初始化后再进行RL的模型,在数学推理、代码生成及叙事推理等任务上均取得稳定性能提升。
现有信息检索评估主要关注语义相关性,忽视了检索结果语言对用户实用性的影响。为解决此问题,研究提出MLAIRE评估协议。该协议通过构建跨语言平行段落对照集合,能够同时测量跨语言语义检索准确率与查询语言偏好度,并引入语言偏好率、Lang-nDCG等指标进行四类分解。对31种检索器的评估显示,标准指标会掩盖不同检索器的行为差异:语义能力强的检索器可能返回非查询语言内容,而语言偏好强的检索器可能牺牲语义相关性。该协议为评估多语言检索系统的真实效用提供了新维度。
针对在线蒸馏训练中单样本蒙特卡洛估计器方差高导致不稳定的问题,本研究提出vOPD方法。该方法将在线蒸馏构建为策略梯度强化学习问题,并引入一个控制变量基线(即价值函数)来稳定训练。该价值函数具有闭式解,即学生与教师模型间的逐令牌反向KL散度,无需额外计算。通过减去该基线,vOPD在保持梯度无偏的同时显著降低了方差。实验表明,在数学与科学推理任务上,vOPD性能持续优于原始在线蒸馏,并能匹配计算成本更高的全词表基线方法,实现了高效且稳定的训练。
MC-RFM提出一个轻量级混合曲率黎曼流匹配框架,用于冻结视觉骨干的少样本适应。它将适应特征表示为双曲与欧几里得空间的乘积流形,分别捕获层次化语义与局部判别性特征,并将适应过程建模为从冻结特征到支持集原型的任务条件连续传输。该方法完全基于缓存特征操作,在七个视觉基准、五种骨干和不同样本量设置下表现优异,尤其在Transformer骨干和细粒度数据集上提升显著。消融实验验证了混合曲率设计、任务条件等关键组件的有效性,表明少样本适应需在匹配下游任务结构的几何空间中建模特征移动。
研究团队提出INTRA框架,使基于注意力的编码器-解码器模型能够直接从自身内部表征中检索信息,无需依赖外部检索器。该方法利用解码器的注意力查询对预编码的证据块进行评分,并将其直接复用为生成上下文,从而统一了检索与生成过程,避免了传统RAG流程中模块不匹配的问题。在问答基准测试中,INTRA在证据召回率和答案质量上均优于强工程化检索流程。结果表明,基于注意力的模型本身已具备可被激发的内在检索机制。
FAAST提出了一种仅需前向传播的关联适应方法,通过解析方式将标注样本单次编译为快速权重,无需依赖记忆或上下文。该方法实现了恒定时间推理,并将任务适应与预训练表征解耦。在图像分类和语言建模基准测试中,FAAST性能匹配或超过基于反向传播的适应方法,同时将适应时间减少90%以上;与基于记忆/上下文的适应方法相比性能相当,但内存使用量最高可节省95%。这为监督任务适应提供了一个高效、可扩展的解决方案,尤其适用于资源受限的模型。
本研究对CODS 2025多智能体编排挑战赛进行了回顾分析。公开规划排行榜在72.73%准确率处饱和,隐藏评估则显著改变了结论:规划任务中公开与私有分数呈中度相关(0.69),而执行任务中呈负相关(-0.13),部分系统分数从45.45%提升至63.64%。官方评分中特定术语影响微弱,调整权重将改变前两名排序。竞赛注册队伍虽多,但仅24支获得有效公开分数,其中超半数为团队协作。成功的执行方法主要集中于改进响应选择、污染清理等护栏机制,而非创新智能体架构。
研究揭示了大语言模型中大规模激活现象的起源,识别出一个普遍存在于不同模型家族中的“大规模涌现层”。该层中,RMSNorm与前馈网络参数共同触发了大规模激活,随后通过残差连接传播至更深层。这导致相关令牌表征在后续层中趋于僵化,降低了传递给注意力模块的隐藏表征多样性。为此,研究者提出一种简单有效的方法来降低此类表征的刚性。该方法在无需训练和微调两种设置下,均能持续提升模型在指令遵循与数学推理等任务上的性能,并通过选择性削弱注意力汇聚点的影响,从隐藏状态层面阐明了问题根源,为基于原理的缓解策略提供了新思路。
本研究在零样本、单跳、闭卷问答的严格设置下,探究强化学习能否提升大语言模型对参数化知识的直接回忆能力。实验表明,仅使用二元正确性奖励进行训练,即可在多个模型和事实问答基准上带来约27%的平均相对性能提升,超越多种基线方法。机制分析发现,强化学习主要重新分配模型已有知识的概率质量,将正确答案从低概率区域移至可靠生成范围,而非学习新事实。数据归因研究进一步揭示,约18%的最困难训练样本(其答案在强化学习前的多次采样中从未出现)贡献了约83%的性能增益。这些发现将强化学习的作用从推理扩展到了解锁潜在的参数化知识。
本研究提出“前缀一致性”作为一种可靠性信号,用于改进大语言模型在推理任务中的自一致性方法。该方法通过截断思维链的中间部分并重新生成后续内容,发现正确答案的思维链更倾向于重现原答案。利用这一差异,前缀一致性对候选答案进行加权聚合,无需依赖词元概率或自评分提示。在五个推理模型和四个数学科学基准测试中,该方法在多数情况下成为最佳正确性预测指标,并以中位数4.6倍、最高21倍更少的词元消耗,达到了标准多数投票法的稳定准确率。相关代码已开源。
研究团队提出POISE方法,以极低成本为大型推理模型的强化学习提供基线估计。该方法通过一个轻量级探针,利用策略模型前向传播时已计算出的提示、生成轨迹的隐藏状态及词元熵统计,在线预测可验证奖励的期望值。其关键设计是跨轨迹构造,在保持梯度无偏的同时,仅需单次轨迹采样即可估计提示价值。这提升了固定计算预算下的提示多样性,降低了梯度方差,使学习更稳定,并省去了检测零优势提示的额外采样开销。在数学推理基准测试中,POISE以更少计算量达到了与DAPO相当的性能,其价值估计器性能接近独立的LLM规模价值模型,并能泛化至多种可验证任务。
本研究系统评估了风格化重述、自然语言增强伪代码和完整自然语言转录三种代码检索改写策略。研究发现,对查询和语料库进行联合的完整自然语言改写能带来最大收益,而仅改写语料库则在多数情况下会损害检索性能。研究引入了词元熵变化(Delta H)这一诊断指标,它能有效预测改写收益,可作为决定是否进行改写的低成本代理指标。分析指出,大语言模型改写最适合作为轻量级编码器处理代码主导查询时的补救层,对于强大编码器或自然语言为主的查询则收益递减。
针对人体图像动画中高自由度、复杂的手部动作生成难题,研究者提出了隐式偏好对齐框架。该方法无需构建严格配对的偏好数据,通过最大化自生成高质量样本的似然并惩罚与预训练先验的偏差来实现模型对齐。框架还引入了手部感知局部优化机制,以显式引导手部区域的生成质量。实验表明,该方法能有效优化手部生成质量,同时大幅降低了构建偏好数据的门槛。相关代码已开源。
本研究提出冻结编码器模型组合的新方法,基于VLM架构构建多模态嵌入模型。我们发布了jina-embeddings-v5-omni套件,包含两个模型,能将文本、图像、音频和视频输入编码到统一语义嵌入空间。该方法通过扩展Jina Embeddings v5文本模型,添加图像和音频编码器,但保持骨干文本模型和非文本编码器冻结,仅训练占总权重0.35%的连接组件,训练效率远高于全参数重训练。这确保了文本输入的嵌入结果与原始文本模型完全一致。评估显示,其性能与当前领先的大型多模态嵌入模型竞争,实现了高效且有效的多模态嵌入。
研究发现,语言模型的安全对齐依赖于两个机制不同的系统:阻止有害知识表达的“拒绝神经元”和编码有害知识本身的“概念神经元”。通过分别抑制一个拒绝神经元或放大一个概念神经元,即可在未经训练或提示工程的情况下,使涵盖1.7B至70B参数的七个模型出现安全失效。前者能让模型响应明确的有害请求,后者则能从无害提示中诱导出有害内容。这表明安全对齐并非广泛分布于模型权重中,而是由少数关键神经元介导,单个神经元的干预就足以在多类请求上绕过安全防护。
研究团队推出PhoneSafety基准测试,包含从130多个应用的真实交互中提取的700个安全关键时刻,以评估智能体在风险决策中的表现。测试区分三种行为:采取安全行动、不安全行动或无法执行任何有效操作。对八个代表性智能体的评估发现,更强的通用手机操作能力并不总意味着在风险时刻能做出更安全的选择;而“无法行动”更多反映的是能力限制(尤其在视觉和操作复杂度高的界面中),而非安全意图。结果表明,无害的结果不足以证明安全性,必须将不安全判断与行动无能区分开来。
本文提出一种数据自适应的参数高效微调方法,以改进静态低秩适应(LoRA)的局限性。该方法用一组可查询的共享低秩更新原子取代每层独立的适配器,允许模型根据当前层状态和前面层的运行摘要,通过注意力机制动态检索并组合这些更新组件,从而在保持低秩瓶颈效率的同时,实现跨输入和跨层的动态、上下文感知的参数更新。此外,方法引入指令正则化,通过语言引导的先验偏置路由逻辑,使低秩变换更倾向于语义相关方向。实验表明,该方法在使用相近可训练参数量的情况下,相比标准LoRA能提升最终测试性能和训练稳定性。
循环LLM架构(如Ouro)通过迭代更新内部表征进行推理,但其标准KV缓存导致内存消耗随推理深度线性增长,限制了可扩展性。本研究提出高效内存循环Transformer(MELT),通过每层共享一个跨循环的KV缓存,并利用可学习的门控机制更新缓存,从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法:插值过渡与注意力对齐蒸馏。实验表明,基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM,同时内存占用与标准模型相当,远低于Ouro,实现了不牺牲性能的恒定内存迭代推理。
针对现有基于3D高斯泼溅的方法为每个像素或体素分配固定数量图元,导致资源分配不均的问题,本文提出SplatWeaver框架。该框架引入一组基数高斯专家和一个像素级路由方案,能以前馈方式自适应地为不同空间位置分配0到M个高斯图元。通过结合高频先验与路由正则化,引导路由机制向精细结构、复杂几何和纹理区域分配更多图元,同时抑制平滑区域的冗余。多场景实验表明,SplatWeaver能以更少的图元数量,持续生成比现有先进方法更逼真的新视角渲染结果。
FlashEvolve 是一个高效框架,旨在解决基于大语言模型的智能体进化过程中因阶段同步和执行负载不均导致的时间瓶颈。它采用异步工作队列取代同步执行,允许不同进化阶段与步骤重叠运行。为处理异步引入的数据陈旧问题,框架追踪版本并对陈旧工件采取更新、丢弃或修补策略,并利用推测性阶段完成与自适应工作流控制进一步提升吞吐量与令牌效率。在 GEPA 基准测试中,其在本地 vLLM 上实现了 3.5 倍的提案吞吐量提升,在 API 服务上相比同步方法提升达 4.9 倍。该设计同样适用于 ACE 等任务。
指令跟随是大语言模型的基本能力,但持续提升面临挑战。现有方法依赖昂贵的外部监督或静态指令自训练。为此,研究团队提出SEIF框架,通过自进化循环提升指令跟随能力。SEIF包含四个角色:生成难度递增指令的Instructor、过滤低质量指令的Filter、学习跟随指令的Follower,以及提供强化学习奖励信号的Judger。Instructor与Follower交替训练、协同进化,使指令难度与模型能力相互促进。实验显示,SEIF在不同规模和架构的模型上均能稳定提升性能。分析发现,有效训练策略是在早期充分训练以打下基础,后期适度训练以避免过拟合。相关代码与数据已开源。
研究提出Auto-Rubric as Reward框架,将多模态模型对齐问题从隐式权重优化转为基于显式准则的分解。该方法先将视觉语言模型内化的偏好知识外化为针对特定提示的结构化评估准则,将整体意图分解为可独立验证的质量维度,有效抑制位置偏差等评估偏见。为实现生成训练,进一步提出Rubric Policy Optimization方法,将多维评估提炼为稳健的二元奖励,用基于准则的偏好决策替代不透明的标量回归以稳定策略梯度。在文生图和图像编辑任务上的实验表明,该框架优于主流奖励模型,证明将隐式偏好显式化为结构化准则能实现更可靠、高效的多模态对齐。
针对自回归模型生成多代表词元效率低下的问题,DiffRetriever提出了一种基于扩散语言模型的检索方法。它通过在提示后添加K个掩码位置,并利用扩散模型的双向前向传播一次性生成所有代表词元,从而避免了顺序生成的延迟瓶颈。实验表明,在多类扩散骨干模型上,其多词元版本在领域内及跨领域评估中均显著优于单词元版本,而自回归的多词元方法则效果不佳且延迟随K线性增加。经监督微调后,基于Dream骨干的DiffRetriever在BEIR-7基准上超越了PromptReps、同骨干的编码式基线以及对比微调的RepLLaMA。研究还发现,在冻结基础模型上采用自适应预算选择策略能取得更优效果。
针对现有基于强化学习的图像描述方法在追求细节时易在核心维度产生权衡的问题,研究团队提出了BalCapRL平衡框架。该框架联合优化实用性正确性、参考覆盖度和语言质量,通过采用GDPO风格的奖励解耦归一化处理连续值奖励,并引入长度条件奖励掩码以施加更合适的长度惩罚。在多个基础模型上的实验表明,该方法能一致提升描述质量,不同模型的峰值提升分别达到DCScore +13.6、CaptionQA +9.0和CapArena +29.0。
针对在线策略蒸馏依赖教师模型逻辑概率、局限于白盒场景的问题,本研究提出了ROPD框架。该方法利用结构化语义量规替代教师逻辑概率,仅需教师生成的响应即可工作,实现了黑盒兼容。ROPD通过对比师生响应差异,自动生成针对特定提示的量规,并据此对学生模型输出进行评分与在线策略优化。实验证明,该方法在多数场景下超越了先进的基于逻辑概率的在线策略蒸馏方法,样本效率最高可提升10倍,为在专有与开源大模型间进行可扩展的蒸馏提供了一个灵活且强大的基线方案。
开源生态拥有数十万个预训练模型,但为新数据集选择最佳模型极为困难。现有方法或局限于小型预选池,或需昂贵的逐模型计算。ModelLens框架创新性地利用公开排行榜上分散的交互记录,通过学习模型-数据集-指标三元组的性能感知潜在空间,可直接为未见过的数据集推荐未见过的模型,无需在目标数据集上运行候选模型。在一个包含162万条记录、覆盖4.7万个模型和9600个数据集的新基准测试中,其性能超越了依赖元数据或需运行每个候选模型的基线方法,并能将多种路由方法的性能提升高达81%,在文本和视觉-语言任务上展现了泛化能力。
针对离散流匹配生成文本需数百步迭代的问题,本研究提出轨迹塑形离散流匹配方法。传统蒸馏中,由随机跳跃构建的轨迹质量是性能瓶颈。新方法引入轻量级“能量罗盘”,在训练时评估并选择最连贯的候选序列来引导轨迹生成,此过程仅增加训练成本。在1.7亿参数语言建模任务中,经塑形的8步学生模型比1024步教师模型困惑度降低32%、速度提升128倍,且在不同数据与模型规模上表现一致。该方法取得了优于所有对比基线的最佳困惑度,包括使用更多数据或更大模型的方案。
本研究提出了一种新型的残差潜在动作表示,它能从DINO残差中学习,并具备预测性、泛化性与时序编码能力。基于此构建的RLA世界模型通过流匹配预测未来状态,在仿真与真实数据集上超越了当前最先进的基于特征的方法和视频扩散世界模型,且速度快数个数量级。此外,团队开发了两种利用该世界模型改进机器人策略学习的技术:一是从无动作演示视频中学习的极简世界动作模型;二是首个完全在仅从离线视频学习的世界模型内训练、使用视频对齐奖励且无需在线交互或手工奖励的视觉强化学习框架。
本文提出Delta-Adapter,一种仅需单对源-目标图像监督的范例图像编辑新方法。该方法利用预训练视觉编码器从范例对中提取编码视觉变换的“语义增量”,并通过基于Perceiver的适配器将其注入预训练编辑模型。由于模型从未直接看到目标图像,后者可作为预测目标,从而实现了单对监督训练,并能利用现有大规模编辑数据集。此外,引入的语义增量一致性损失确保了生成变化与真实语义增量对齐。实验表明,该方法在多种编辑任务上显著提升了编辑准确性与内容一致性,并能有效泛化至未见过的编辑类型。
本文认为,AI向聊天机器人界面的快速收敛并非中性选择,而是一种重塑社会、经济、法律和环境系统的主导性配置。研究揭示了该范式的结构性缺陷:在复杂或高风险场景中常无法满足需求却表现过度自信;其普及会改变工作、学习和决策模式,导致技能退化和知识同质化。更广泛的社会影响包括劳动力替代、经济权力集中,以及大规模基础设施带来的环境成本激增。当前发展路径过度强调对话通用性,忽视了专业性、问责制和社会可持续性。因此,应推动超越通用聊天机器人的多元化系统设计,发展任务专用工具并建立制度保障以减轻社会损害。
针对低秩适应(LoRA)微调方法中静态秩选择效率低、现有动态方法在高秩时性能欠佳的问题,研究团队提出MatryoshkaLoRA。该框架通过在现有LoRA适配器间插入一个固定的对角矩阵P,来相应地缩放其子秩,从而学习精确的层次化低秩表示。这一简单修改确保了所有子秩都能高效利用梯度信息,支持动态秩选择且精度损失最小。团队同时提出了“秩精度曲线下面积”(AURAC)评估指标。实验表明,该方法相比现有秩自适应方法能学习到更精确的表示,并在多个数据集上实现了更优的精度与性能权衡。代码已开源。
针对视觉-语言模型(VLM)易受对抗攻击的安全问题,本研究提出了一种轻量级检测框架SAEgis。该方法将稀疏自编码器(SAE)作为即插即用模块插入预训练VLM,通过标准重建目标训练,使稀疏潜在特征自然捕获攻击信号,从而可靠识别图像是否遭受对抗扰动。实验表明,SAEgis在域内、跨域及跨攻击场景中均表现强劲,其跨域泛化能力显著优于现有基线。该方法无需对抗训练,开销极小,为实际VLM系统提供了一种实用的安全增强方案。
循环模型状态追踪理论长期聚焦于表达能力,但误差控制同样关键,它主导着隐藏状态在区分符号状态方向上的漂移。研究证明,包含状态空间模型和线性注意力在内的仿射循环网络,一旦保存状态表示,就无法纠正沿状态分离子空间的误差。因此,实际模型学到的并非鲁棒的状态追踪,而是受累积误差控制的有限时域解。分析表明,仅当累积的类内扩散相对于初始类间分离较小时,追踪结果才可读。在群体状态追踪任务上的实验证实,当可区分比率超过解码器可读阈值时,追踪会崩溃,且该临界点能准确预测下游任务失效的时域。这表明,鲁棒的状态追踪不仅取决于架构的理论表达能力,更关键地取决于其误差控制能力。
SpecBlock是一种新型块迭代推测解码草案器,旨在融合路径依赖性与低成本生成。其核心在于每次前向传播生成一个包含K个连续依赖位置的“块”,通过重复块扩展构建草案树。关键技术包括:块内层间移位传递隐藏状态;跨块机制允许新块从旧块任意位置继承路径状态;协同训练的排序头动态分配分支,取代固定Top-K树;有效前缀掩码优化训练目标。部署时采用成本感知赌博算法,仅当预期吞吐增益超过更新成本时才利用验证器反馈选择性更新草案器。实验表明,在仅消耗EAGLE-3草案成本44-52%的情况下,SpecBlock将平均加速比提升了8-13%,成本感知自适应进一步将优势扩大至11-19%。
针对复杂图像生成中语义承诺难以持续追踪的“概念断层”问题,本文提出了SCOPE框架。该框架通过维护一个动态演化的结构化规范来管理语义承诺,并围绕未解决或被违反的承诺,有条件地调用检索、推理和修复等技能。为评估承诺级别的意图实现效果,研究构建了人工标注基准Gen-Arena并提出了严格的“实体门控意图通过率”指标。实验表明,SCOPE在Gen-Arena上以0.60的EGIP显著超越所有基线模型,在WISE-V和MindBench基准上也表现出色,验证了持续承诺跟踪的有效性。
针对多轮任务中稀疏奖励导致的信用分配难题,本研究提出无监督方法AEM。它将熵动态分析从令牌级提升至响应级,以对齐LLM智能体的动作粒度并降低令牌采样噪声的敏感性。该方法推导出响应级不确定性代理,并利用其重新缩放优势函数,通过正负样本的动态平衡实现从探索到利用的自然过渡。在ALFWorld等多个基准上的实验表明,AEM能持续提升多种强RL基线性能,集成至先进软件工程训练框架时可实现+1.4%的性能增益。