针对现有树状检索增强生成方法在应对跨文档多跳查询时面临的分布适应性差、结构隔离和抽象粒度粗糙三大挑战,研究者提出了Ψ-RAG框架。该框架包含两个核心组件:一是通过“合并与坍缩”迭代过程构建、无需先验分布假设的分层抽象树索引;二是配备重组查询和智能体驱动混合检索器的多粒度检索代理。Ψ-RAG支持从词元级问答到文档级摘要的多样化任务,在跨文档多跳问答基准测试中,其平均F1分数显著优于现有先进方法。相关代码已开源。
Meta 发布了用于代码生成与推理的 Code World Model,并对其进行了前沿风险准备情况评估。报告显示,该模型在预设的可能带来灾难性风险的领域测试中,未表现出超越当前 AI 生态系统的额外前沿风险。基于评估结果,Meta 决定以开放权重模型的形式公开发布 CWM。
研究团队提出Odysseus框架,利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家,显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习,预训练视觉语言模型提供了强动作先验,减少了对人工动作工程的需求。实验表明,Odysseus在游戏进度上达到前沿模型的至少3倍,并在游戏内与跨游戏泛化中保持性能提升,同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。
针对大型语言模型红队测试中生成对抗性攻击时面临的训练不稳定与模式崩溃问题,研究团队提出Stable-GFN方法。该方法摒弃了传统生成流网络中的分区函数估计,转而采用基于成对比较的稳定训练目标,并引入鲁棒掩码机制以应对奖励噪声。此外,通过流畅度稳定器防止模型陷入生成无意义文本的局部最优。实验表明,该方法在保持生成流网络最优策略的同时,实现了更稳定的训练过程,其生成的对抗攻击在效果与多样性方面均表现优异。
研究建立了层次决策树与扩散过程在极限状态下的数学对应关系,提出统一的优化原则——全局轨迹分数匹配(GTSM),并证明理想化梯度提升是其渐进最优解。基于该框架,treeflow 在表格数据生成任务中实现了更高保真度与 2 倍计算加速,生成质量达到竞争水平;dsmtree 作为一种新型蒸馏方法,能将层次决策逻辑迁移至神经网络,在多项基准测试中与教师模型性能差距不超过 2%。
本文提出一种将评估机制嵌入工具调用智能体实时执行循环的新方法。通过引入一个专门的评审员智能体,在推理时对主智能体的中间决策轨迹进行即时评估,并生成结构化反馈。这使得主智能体能在单次运行中动态调整其工具选择与参数调用,无需依赖传统的提示调整或模型重训练。该实时干预机制旨在直接纠正错误,提升了工具使用的准确性与可靠性,突破了传统后验评估无法在运行中修正行为的局限。本工作已被ACL 2026的自然语言生成、评估与指标研讨会接收。
针对大型视觉语言模型普遍存在的幻觉问题,研究提出在线自校准框架OSCAR。该方法利用模型自身判别能力高于生成能力的特点,通过蒙特卡洛树搜索和双粒度奖励机制构建偏好数据,并采用直接偏好优化进行迭代训练。实验表明,OSCAR在多个幻觉基准测试中取得最优性能,同时提升了模型的通用多模态能力,避免了传统离线对齐方法中存在的监督-感知失配问题。
研究提出LASE(语言对抗性说话人编码器),以解决多语言语音克隆中因发音文字不同导致的说话人身份漂移问题。现有编码器如WavLM和ECAPA-TDNN在跨文字切换时性能下降。LASE在冻结的WavLM-base-plus模型上增加小型投影头,结合监督对比损失和梯度反转的跨语言分类对抗损失进行训练,使编码消除语言信息的同时保留说话人特征。实验表明,在1118个跨文字语音对上,LASE将身份漂移降至接近零,并扩大与基线的差距2.4-2.7倍。在合成多说话人日记任务中,LASE仅用约百分之一训练数据即达到与ECAPA-TDNN相当的说话人召回率。研究同时发布了模型检查点、语料库和评估代码。
本文针对分布式黑盒共识优化问题,提出轨迹驱动的自设计框架LACMAS。该方法首先设计了具有自适应内部机制的智能体群体动力学,以平衡探索、收敛与局部逃逸。在此基础上,利用大型语言模型根据历史优化轨迹,为智能体的内部行动与外部协作模式提供稀疏的高层指导,并采用分阶段认知调度策略进行资源感知的适应。实验表明,该框架在基准测试和实际任务中,能持续提升解决方案质量、收敛效率与通信效率,为从人工设计转向自设计多智能体优化系统提供了可行路径。
研究团队提出了“部署中学习”(LWD)框架,用于对通用视觉-语言-动作(VLA)策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发,利用机器人集群自主运行和人工干预数据,形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据,LWD结合了用于鲁棒价值估计的分布隐式价值学习(DIVL)和用于基于流的动作生成器中策略提取的伴随匹配Q学习(QAM)。在16台双臂机器人集群的八项真实操作任务(包括语义商品补货与长时程任务)验证中,单一通用策略随经验积累平均成功率提升至95%,长时程任务改进尤为显著。
本文提出生成式语言-图像预训练框架GenLIP,为多模态大语言模型设计了一种极简的视觉Transformer预训练方法。该框架直接使用语言建模目标训练ViT,使其根据视觉token预测语言token,无需构建对比批次或额外文本解码器。其优势在于结构简单、数据和模型规模可扩展性强,并在多项多模态基准测试中取得有竞争力或更优的结果。基于Recap-DataComp-1B中80亿样本训练后,GenLIP在使用更少预训练数据的情况下达到或超越了强基线模型。进一步在多分辨率图像上持续预训练后,模型在OCR和图表理解等细节敏感任务上表现进一步提升。
研究团队提出一种端到端训练框架,联合优化图像重建与生成过程,使分词器能直接受到生成结果的监督。该方法突破了以往分词器与生成模型分两阶段训练的范式,并探索利用视觉基础模型提升一维分词器在自回归建模中的性能。最终模型在无引导的 ImageNet 256×256 图像生成任务中,取得了当前最优的 FID 分数 1.48。
本文提出Map2World,一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界,确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节,在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识,即使在场景生成训练数据有限的情况下,也能实现跨领域的稳健泛化。实验表明,本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。
UniVidX是一个利用视频扩散模型先验的统一多模态视频生成框架。它将像素对齐任务统一为共享多模态空间中的条件生成,核心设计包括:随机条件掩码,实现全向条件生成;解耦门控LoRA,为各模态引入独立适配器以保留骨干网络先验;跨模态自注意力,通过共享键值促进模态间信息交换。该框架在两个领域实例化:UniVid-Intrinsic用于RGB视频及其内在属性图;UniVid-Alpha用于混合RGB视频及其RGBA分层。实验表明,即使在少于1000个视频的小数据集上训练,模型也能在多种任务上达到先进性能,并能稳健地泛化到真实场景。
针对代码奖励模型研究不足且现有模型多局限于功能正确性评分的问题,研究团队构建了Themis-CodeRewardBench基准,用于在5个偏好维度和8种编程语言上评估模型,并分析了50多个现有模型。为改进模型,团队创建了迄今最大的开源代码偏好数据集Themis-CodePreference(含超35万个偏好对),并据此训练了参数规模从6亿到320亿不等的Themis-RM系列多语言代码奖励模型,支持灵活的多标准评分。实验表明,模型具有正向缩放趋势,在多样化偏好训练下展现出强大的跨语言迁移能力,验证了多标准训练对可靠代码奖励建模的重要性。
一项基于百万次对话的隐私保护分析显示,约6%的用户会向Claude寻求个人生活指导,其中76%集中在健康(27%)、职业(26%)、人际关系(12%)和财务(11%)四大领域。研究重点关注了模型回应中的“谄媚行为”(过度认同用户),发现总体发生率为9%,但在人际关系对话中飙升至25%。为应对此问题,Anthropic创建了合成训练数据用于训练新模型Claude Opus 4.7和Claude Mythos Preview。改进后,Opus 4.7在人际关系指导中的谄媚行为比上一版本降低了一半,且改进效果能泛化到其他领域。这项研究旨在通过测量和理解个人指导交互,更好地保护用户福祉。
一项名为“自动审查”的新机制为代码智能体的部署提供了更安全的默认方案。该机制通过一个独立的审查智能体,对主智能体可能越界的操作进行异步的批准或拒绝,从而无需人类进行实时同步监督。这种方法旨在提升自主智能体在代码生成与执行过程中的安全性与可控性,是保障AI代理在边界内可靠运行的关键技术进展。
关联讨论 3 条OpenAI:Alignment 研究博客(RSS)X:Tibo (@thsottiaux)X:邵猛 (@shao__meng)研究团队正致力于开发一款AI联合临床医生,以探索AI增强医疗护理的路径。该研究旨在创建一种新型医疗模式,让AI作为临床医生的协同伙伴深度参与诊疗过程,共同提升医疗服务的质量和效率。这项工作标志着医疗保健领域正从辅助工具阶段,迈向AI作为核心协作者的新范式。
DeepSeek团队发布了一种新型多模态大语言模型范式,通过将点与边界框等空间标记作为最小思维单元直接嵌入推理轨迹,有效解决了复杂空间推理中的“指代鸿沟”问题。该模型基于DeepSeek-V4-Flash架构,能将每4个视觉令牌的KV缓存压缩为单个条目,显著提升了视觉令牌效率。在多项具有挑战性的计数与空间推理基准测试中,其性能媲美GPT-5.4等前沿模型,而模型规模更紧凑且图像令牌预算更低。技术报告已公开,内部基准测试和部分数据将于近期发布,模型权重未来将整合至基础模型后开放。
关联讨论 2 条X:Vista (@vista8)X:歸藏 (@op7418)Anthropic 发布了名为 BioMysteryBench 的新基准测试,旨在评估 Claude 解决真实生物信息学问题的能力。测试结果显示,Claude 的表现能达到人类专家水平。然而,这一结论附带重要注意事项,表明结果虽具前景但仍有局限。该基准专注于衡量模型在专业领域的实际应用性能。
一项名为“对齐打地鼠”的研究发现,微调大型语言模型会激活其对受版权保护书籍的检索能力,这揭示了AI对齐过程中的新风险:模型在优化后可能无意中回忆版权内容。该研究通过代码分析证实了这一现象,相关开源代码已发布在GitHub。此话题在科技社区引发关注,在Hacker News上获得103点积分,凸显了版权与AI发展之间的潜在冲突。
研究团队提出首个跨架构扩散大语言模型蒸馏框架TIDE,以解决师生模型在架构、注意力机制和分词器上不同时的知识迁移难题。该框架包含三个核心组件:TIDAL根据训练进度和扩散时间步联合调节蒸馏强度;CompDemo通过互补掩码分割丰富教师模型上下文,以改进重度掩码下的预测;Reverse CALM则是一种提供有界梯度和双端噪声过滤的跨分词器目标函数。实验将80亿参数稠密模型和160亿参数MoE教师模型的知识蒸馏至6亿参数学生模型,在八个基准测试中平均领先基线1.53分,代码生成能力提升显著。
GLM-5V-Turbo是一个为多模态智能体设计的原生基础模型。其核心创新在于将多模态感知深度整合为推理、规划、工具使用和执行的核心组件,而非语言模型的附属接口。本报告概述了其在模型设计、多模态训练、强化学习、工具链扩展及与智能体框架集成等方面的系列改进。这些改进使其在多模态编码、视觉工具使用和基于框架的智能体任务中表现出色,同时保持了有竞争力的纯文本编码能力。开发过程强调了多模态感知的中心地位、分层优化方法以及可靠的端到端验证,为构建多模态智能体提供了实践启示。
FASH-iCNN是一个基于1991-2024年间15个品牌87,547张Vogue秀场图像训练的多模态系统,旨在将隐含的时尚美学逻辑转化为可检视的文化信号。该系统能根据服装图像识别其所属品牌、年代与色彩传统。纯服装模型在品牌识别上准确率达78.2%,年代识别达88.6%,特定年份识别为58.3%(平均误差仅2.2年)。分析表明,纹理与亮度是编辑身份的核心载体:移除颜色仅使品牌识别准确率下降10.6个百分点,而移除纹理则导致37.6个百分点的显著下降。该系统将编辑文化视作明确信号,揭示每个预测背后编码的特定品牌、编辑理念与历史时刻。
ClawGym是一个可扩展框架,旨在解决Claw式环境中缺乏系统化开发框架的瓶颈,支持个人智能体开发的全生命周期。其核心包括:ClawGym-SynData数据集,通过角色驱动意图与技能基础操作合成1.35万个筛选任务,配备模拟工作空间和混合验证机制;ClawGym-Agents模型系列,基于黑盒轨迹监督微调训练,并探索在并行化任务沙箱中的轻量级强化学习流程;以及ClawGym-Bench评估基准,包含200个经过自动过滤与人工-LLM双重校准的测试实例。相关资源即将在GitHub开源发布。
研究团队提出X-WAM,一个统一4D世界模型,首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界,并采用轻量级结构适配器复制预训练扩散Transformer的末端模块,形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术,在推理时采用异步去噪调度,能以更少步数快速解码动作实现实时执行,同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,其4D重建与生成质量在视觉和几何指标上均超越现有方法。
前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中,在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现,支持同步与异步流水线,允许在RL生成阶段进行推测。实验表明,在8B规模的同步RL推理任务中,推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测,在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。
苹果公司与加州大学圣迭戈分校团队联合发布名为LaDiR的AI推理框架。该框架并非新模型,而是一个可叠加于现有大语言模型之上的通用架构,其核心创新在于结合扩散模型与自回归模型。在推理阶段,LaDiR利用扩散过程并行探索多条独立路径,并通过多样性鼓励机制防止思维过早收敛,最后以自回归方式输出最终答案。测试显示,该框架在LLaMA 3.1 8B等模型上,于数学推理、代码生成及谜题规划任务中,其准确率和可靠性均优于现有通用方法。
随着大语言模型生态发展,路由技术需依据模型能力选择合适模型,但刻画模型能力的“LLM画像”设计尚未被深入探索。本研究将LLM画像构建视为对异构交互历史的结构化信息整合问题,提出了名为RouteProfile的通用设计空间,涵盖组织形式、表示类型、聚合深度和学习配置四个维度。通过在三种典型路由器上的系统评估发现:结构化画像优于扁平化设计;查询级信号比领域级信号更可靠;在可训练配置下,结构化画像最能提升对新引入模型的泛化能力。该工作明确了LLM画像设计是路由研究的重要方向。
研究团队提出EviMem系统,包含IRIS闭环框架与LaceMem分层记忆架构,通过显式诊断证据缺口来驱动精准查询优化。该系统在LoCoMo数据集上显著提升长期对话记忆的检索效果:针对时序问题的判断准确率从73.3%提升至81.6%,多跳问题准确率从65.9%提升至85.2%,同时延迟降低至原有方法的1/4.5。核心创新在于实现了从缺口检测、缺失内容诊断到针对性查询优化的完整闭环。
世界模型作为预测环境动态的表征,是机器人学习的核心,支撑策略学习、规划与仿真。本文从机器人学习视角系统梳理了其研究现状,涵盖模型与策略的耦合方式、作为强化学习仿真器的功能,以及机器人视频世界模型向可控、结构化及基础模型级范式的演进。综述进一步关联了导航与自动驾驶应用,总结了相关数据集、基准与评估方法,旨在厘清关键范式并指出具身智能中预测建模的未来挑战。为追踪进展,作者将同步维护更新的GitHub资源库。
研究团队发布了EDU-CIRCUIT-HW数据集,包含1300多份大学STEM课程的真实学生手写解答。该研究利用专家核对的转录文本与评分报告,同步评估了多种多模态大语言模型的上游识别准确性与下游自动评分性能。评估发现,模型识别的手写内容中存在大量潜在错误,表明其在高风险教育场景中用于自动评分等理解型任务的可靠性不足。一项案例研究表明,通过识别错误模式进行预先检测与纠正,仅需极少人工干预(例如将3.3%的作业交由人工评分),即可有效提升AI评分系统的鲁棒性。代码与数据集已开源。
现有驾驶世界模型多专注于未来场景生成,而大语言模型虽具推理能力却无法预测几何演变,导致语义理解与物理模拟之间存在鸿沟。为此,我们提出HERMES++,一个将3D场景理解与未来几何预测集成于单一框架的统一模型。其核心设计包括:利用BEV表征整合多视角空间信息;引入LLM增强的世界查询以促进知识迁移;设计“当前-未来链接”来弥合时序差距,使几何演变基于语义上下文;以及采用联合几何优化策略,整合显式约束与隐式正则化以确保结构完整性。在多个基准测试中,HERMES++在未来的点云预测和3D场景理解任务上均超越专用方法,展现出卓越性能。模型与代码已开源。
Skills-Coach是一种自动化框架,旨在提升基于大语言模型的智能体的技能自进化能力。它通过四个核心模块解决技能生态系统碎片化:多样化任务生成模块创建测试套件;轻量化优化模块改进技能提示和代码;对比执行模块评估原始与优化技能;可追溯评估模块严格评判性能。框架提供虚拟和真实执行模式。研究使用包含48项技能的Skill-X基准数据集验证,实验结果表明Skills-Coach在广泛技能类别上实现显著性能提升,有助于开发更强大、适应性更强的LLM智能体。
WindowsWorld是一个跨应用工作流基准,旨在系统评估GUI代理在模拟真实专业活动的复杂多步骤任务中的性能。该基准采用由16种职业引导的多智能体框架,生成包含四个难度级别及中间检查的任务,经人工审核后在模拟环境中执行。基准包含181个任务,平均每个任务有5.0个子目标,覆盖17种常用桌面应用,其中78%为跨应用任务。实验结果显示,当前领先的大模型与代理在跨应用任务上表现不佳(成功率低于21%),远低于简单单应用任务;在需要跨三个及以上应用进行条件判断与推理的任务中大多失败,且执行效率低下。相关代码、基准数据与评估资源已开源。
Haiku是一个基于多重免疫荧光数据训练的三模态对比学习模型,整合了空间蛋白质组、H&E组织病理图像和临床数据。该模型在来自1,606名患者、涵盖11种器官类型的3,218个组织切片上训练,实现了三模态跨模态检索,在下游分类、生存预测等任务中超越单模态基线。其创新性在于支持仅通过临床文本描述进行零样本生物标志物推断,并引入反事实预测框架,能在固定组织形态下通过修改临床元数据揭示与癌症进展相关的微环境分子变化,为连接分子测量与临床背景提供了系统分析工具。
研究团队发布了CURVAS-PDACVI数据集与挑战赛,这是一个针对胰腺导管腺癌术前血管侵犯评估的开放基准。数据集包含每例扫描的五位专家独立标注,支持不确定性感知AI模型的开发。提出的评估框架不仅衡量空间重叠度,还纳入概率校准与侵犯判定。对六种前沿方法的评估表明,全局体积精度高的模型在关键的肿瘤-血管界面未必可靠;而专门建模标注者分歧的方法能生成更校准的概率图,在专家共识低的复杂案例中更具鲁棒性。该基准揭示了体积精度作为手术适用性代理指标的局限性,推动了面向术前决策的不确定性感知模型的发展。
针对德语等高资源非英语语言,本研究构建分层过滤器处理5亿份网络文档,对比了单次训练大规模低过滤数据与多轮重复训练高质量核心数据的效果。实验表明,重复训练高质量数据在多种模型规模和训练量级下均稳定优于追求多样性的单次训练,即使重复7轮后性能差距依然显著。这证明通过质量过滤实现语义集中,比单纯扩大数据量更能高效推进语言建模。基于此发布的德语模型Boldt,在训练量仅为同类模型1/10至1/360的情况下取得了领先性能,相关清洗后的评估基准已公开。
MASCing框架首次实现无需重新训练的专家混合模型安全行为灵活配置。该框架使用LSTM代理模型捕捉路由依赖关系,通过优化引导矩阵识别行为相关专家回路,并在推理时对路由门应用引导掩码以覆盖专家选择,从而针对性增强或抑制特定安全行为。在七款开源MoE模型测试中,该框架以可忽略开销显著提升性能:多轮越狱防御平均成功率从52.5%提升至83.9%,成人内容生成平均成功率从52.6%提升至82.0%,最高增益分别达89.2%和93.0%。
研究通过引入mosaic框架,系统探究了扩散模型在多物体生成中的局限性。发现场景复杂性是主要障碍,而非概念不平衡;在低数据量下,计数能力尤其难以学习。当训练中排除更多概念组合时,模型的组合泛化能力会崩溃。这些发现揭示了扩散模型的基本限制,为设计更强归纳偏置和数据方案以提升多物体组合生成鲁棒性提供了依据。