OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。
OPID从在线策略轨迹中提取技能监督,构建分层技能:回合级技能捕获全局流程,步骤级技能捕获关键局部决策。关键优先路由机制在决策关键时使用步骤级技能,默认回退至回合级。技能注入交互历史后,旧策略在原始与技能增强上下文下重新评分同一响应,产生token级自蒸馏优势,与结果优势结合优化策略。在ALFWorld、WebShop和Search-based QA上,OPID相比纯结果RL和现有技能蒸馏基线提升了智能体性能、样本效率和鲁棒性。
ViQ 是一种视觉量化表示框架,通过两阶段学习(文本对齐预训练与特征离散化)在离散表示中平衡语义与细节,并支持原生分辨率输入。预训练借助语言模型增强语义监督,离散化阶段采用近端表示学习逐步压缩特征空间,结合位置感知多头量化实现任意分辨率处理。多模态任务上,ViQ 达到与基于连续高维特征的 SOTA 编码器相当的竞争力,同时保持低层重建高精度。采用 ViQ 的量化表示进行多模态训练可实现 20%–70% 的加速,适用于不同大语言模型和训练方案。
视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。
传统VLA模型因仅依赖当前观测和语言指令,难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling(ICWM)将系统辨识作为上下文适应问题:机器人通过短暂自生成、任务无关交互历史,自主推断系统变量,从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式,无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明,ICWM在新相机视角下显著优于标准VLA基线。
现代生成式世界模型渲染逼真未来时产生幻觉,集中于状态-动作空间低覆盖区域。研究引入MMBench2(427小时、210任务)数据集,训练350M参数世界模型,识别出三种幻觉模式(感知、动作边缘化、场景发散),并开发相应预测信号。训练时采用覆盖感知采样;在线时预测信号作为好奇心奖励指导数据收集,仅需50条真实轨迹即可微调模型全新环境。结论:世界模型幻觉本质是数据覆盖问题,检测信号可用于缓解。
JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。
多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。
GauntletBench是一个基于网络的基准测试,用于评估AI智能体在陌生场景中的泛化能力,聚焦时间感知、图形理解与3D推理三项未被充分探索的能力,覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用,每项包含20个视觉密集型任务(共100个)。测试结果显示,最先进智能体的成功率仅19.1%,而人类非专家可达80%以上,凸显当前智能体与复杂现实场景之间的显著差距。
LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。
EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型,将天气作为条件信号,稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号(如持续高温与干旱胁迫),并引入极端夏季基准和季节性匹配对基准,分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明,EO-WM在NDVI下降幅度预测上相对误差降低5.63%,方向命中率相对提升7.80%,同时保持标准像素级指标竞争力。模型与基准将开源。
大语言模型推理能力提升导致KV缓存快速增长,现有压缩方法仅依赖注意力权重,忽略了预测不确定性等信息论信号。本文提出Forward Influence度量,从前瞻视角衡量压缩token对未来上下文的影响。分析发现,高注意力得分token主要影响邻近上下文,而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架,融合token级预测不确定性与层表示演化,在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中,InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。
InSight是一个框架,通过让视觉-语言-动作(VLA)模型在原始动作层面(如“将夹爪移动到碗边”“向上抬起”)变得可控,实现自主技能获取。包含两个阶段:(1)自动化分割管道,利用VLM规划分解和末端执行器位姿将演示分割为带标签原始动作;(2)VLM引导的数据飞轮,识别缺失原始动作,自主尝试并标注存储成功演示。在模拟和真实操作任务(方块翻转、抽屉关闭、清扫、扭转、倾倒)上的评估表明,无需人类演示目标技能即可习得,且原始动作可组合执行新任务。
Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。
大语言模型正越来越多地作为智能体在文档上进行推理,而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token,远超任何模型的上下文窗口,迫使智能体进行审慎探索而非穷举扫描。评估8个模型后,最强模型准确率仅为59.4%,且各领域表现差异显著。
研究团队推出Qwen-AgentWorld系列,是首批基于语言模型的“语言世界模型”,通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹,经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器,它支持可扩展的可控仿真以增强智能体强化学习;作为统一基础模型,世界模型训练可有效预热下游7个智能体基准的性能。
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。
FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元,首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题,引入射线中心旋转参数化回归三角形,并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。
DREAM是一种利用大语言模型(LLM)自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头,使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上,使用0.5B至3B参数的嵌入骨干,DREAM均持续优于现有基线。
FlowR2A通过flow-matching解码器学习奖励条件动作分布,将基于评分方法(密集奖励监督但固定动作词汇)与基于锚点方法(动态生成提案但稀疏监督)统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布,引入细粒度每时间步奖励条件和奖励噪声增强,以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果,多模态提案质量显著高于此前方法。
大语言模型智能体在开放世界交互中自我进化时,单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功,导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段:多异构智能体并行探索产生多样化轨迹;第三方智能体对比分析减少归纳偏差;执行组通过共识机制验证候选经验,仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上,EDV 持续超越强基线,验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。
当前扩散Transformer(DiT)研究集中于ImageNet类别条件生成单一评估设置,方法排名与文生图(T2I)任务间无强相关。NanoGen框架统一了DiT训练与评估:在ImageNet上匹配SOTA基线,仅需修改12行配置即可训练T2I模型,两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后,三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580,表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench,作为替代单一ImageNet评估的DiT整体基准。
FLUX3D提出图像到3D高斯泼溅(3DGS)生成框架,解决两个结构性瓶颈:表示瓶颈(判别式2D特征构建稀疏体素潜在表示抑制重构线索)与跨模态对应瓶颈(标准扩散Transformer难对齐密集2D与稀疏3D token)。引入扩散对齐结构化潜在(DA-SLAT)与仅解码器架构提升3DGS保真度,并设计含稀疏结构多模态扩散Transformer(SMDiT)和模态感知旋转位置编码(MARoPE)的稀疏结构感知扩散框架,实现几何无关对齐。实验表明FLUX3D在外观保真度上显著超越现有SOTA。
OpenThoughts-Agent(OT-Agent)项目提出一套完全开源的数据 curation 流水线,专门用于训练智能体模型。研究团队通过 100 余项对照消融实验,系统探索了任务来源与多样性的影响,并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后,模型在 7 项智能体基准测试中平均准确率为 44.8%,比现有最强的开源数据智能体模型 Nemotron-Terminal-32B(40.9%)高 3.9 个百分点。训练数据展现出强扩展性,同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。
Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹,经连续预训练(注入状态转移与专业语料)、监督微调(激活下一状态预测推理)和强化学习(混合规则与评分奖励提升仿真保真度)三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建,实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习,也可作为统一智能体基础模型,通过世界模型训练预热提升下游7个智能体基准的性能。
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)现有机器人价值模型基于缺乏时间建模能力的VLM骨干。世界模型擅长时间建模与未来规划,由此将世界模型与价值估计结合,构建了世界价值模型(WVM)。WVM在标准基准上取得SOTA的价值序相关(VOC)结果。为补充仅含专家数据的评测,新引入Suboptimal-Value-Bench(含800条次优轨迹及人工标注),WVM同样保持SOTA。在策略学习中,WVM在模拟和真实部署中提升了多种策略提取方法的操作性能。
CF-World是一个反事实基准,用于测试文本到图像(T2I)模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级:事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval,引入两个指标:Prior Resistance Rate(PRR)衡量克服固有先验的能力,Reasoning Retention Rate(RRR)评估无显式视觉线索时的推理依赖生成。实验表明,所有模型在反事实场景中性能急剧下降,原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式,过度依赖训练数据中的频繁视觉共现,在反事实任务中退回至熟悉常识先验。
现有大语言模型预训练的在线数据混合方法仅从单一角度优化。新框架全息数据调度器(HDS)将数据调度建模为连续控制空间中的强化学习问题,采用Soft Actor-Critic算法。其核心是多目标综合奖励函数,整合数据驱动质量奖励、损失驱动域间影响奖励和模型驱动权重范数奖励。在The Pile基准上,HDS达到次优方法最终验证困惑度所需训练迭代减少44%,并在MMLU 0-shot任务上提升7.2%。
提出ReMMD框架,包含基准ReMMDBench(500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签)及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点,构建可重用证据集,输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中,ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能,准确率41.80%,macro-F1 39.12%,成本较MMD-Agent降低17.5%,较T2-Agent降低79.9%。项目已在HuggingFace开源。
一项研究对比了基于智能体大语言模型的机器翻译(MT)与人工翻译(HT)在文学作品中的读者体验。15名读者评估了15部近期从法语、波兰语和日语译成英语的小说节选(每部约8000词)。在沉浸式阅读(30次比较)和精读(772次片段对比)中,读者认为MT“还行”,但更偏好HT(节选19/30偏好HT,片段522/772),因其更易读、清晰且沉浸。MT质量波动更大。读者无法可靠区分两者(17/30猜对),且倾向于相信是人工翻译的版本。自动评测指标(包括LLM作为评判者)无法复现读者偏好。研究发布了LAIT数据集(含1000条读者评论、2000条偏好评分、7200条片段级标注)。
Play2Perfect 提出一种基于强化学习的任务无关预训练框架,让多指机器人在多样化对象和目标上通过“玩耍”习得可复用的操作先验(如抓取、手中重定向、姿态到达),再微调用于精确装配任务。系统研究表明,对象多样性、训练目标、轨迹多样性和目标精度是关键设计因素。该先验使样本效率比从零强化学习提升 33 倍。零样本 sim-to-real 迁移实现了 0.5 mm 间隙紧配插入 60% 成功率,以及长时序多部件装配和拧螺丝超过 50% 成功率。
针对不同实时语音应用需单独训练增强模型的痛点,本文提出一种通用实时语音增强模型,可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整,并引入并行卷积层应对不同填充配置带来的学习低效;计算延迟由早期退出机制控制,支持在不同网络深度推理。两阶段训练策略(共享到多解码器过渡)缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署,无需重新训练。
TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境,提取 1830 万条有向依赖;形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间,LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配,阈值 ≥0.9 时接受率升至 87%。形式化概念检索中,name-and-signature 加图扩展的 Recall@10 达 0.775,接近 LeanSearch v2 的 0.780(无需 LM 重排序)。相关数据集、提取器、HTTP API 及 MCP 接口已开源。
MIMFlow是一个统一端到端框架,联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量,使归一化流专注于建模简化的低频频谱流形,专用解码器处理高频合成,从而解决归一化流的容量瓶颈。在ImageNet 256×256上,MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token(比标准模型少50%),性能较相似规模NF基线提升32.8%。代码已开源。
在统一Transformer框架下,比较Affine、AIM、JetFormer和VQ-VAE四种tokenization策略对天文成像的影响。使用DESI Legacy Survey中640,000张星系图像和共享AstroPT骨干,评估重建保真度与物理属性预测。结果显示:基于流的JetFormer重建质量更高,VQ-VAE对星系物理属性的探针性能更强,Affine与AIM更好保留局部形态信息。重建质量与表示质量相互解耦,没有单一方法在所有任务上一致最优。研究以独立测量的物理量为基准,凸显科学数据构建可解释基础模型基准的潜力。
Tatoxa 是一个针对鞑靼语(Tatar)文本去毒化的最新系统,能够自动检测并缓解攻击性和有害内容。对比实验表明,该方案在关键质量指标上超越了现有开源和闭源商用大语言模型。研究同时引入了一个专为低资源场景下微调和评估设计的鞑靼语文本去毒化数据集。跨语言迁移实验显示,即使使用大规模俄语语料,从其他语言(包括文化相近的俄语)迁移的效果也显著差于在本地鞑靼语数据上训练。
论文提出 Physics Question Scene Graph (PQSG),一种层级问题图评估方法,利用 VLM 生成带逻辑依赖的问题图,从对象、动作和物理定律三个维度细粒度检查生成视频。为验证方法,构建了 FinePhyEval 数据集,包含来自 Sora 2、Veo 3 和 Wan 2.1 的生成视频及人工标注。PQSG 的细粒度评分与人类判断相关性优于以往方法,且闭源模型物理真实性排名高于 Wan 2.1。此外,FinePhyEval 标注可用于子任务评估:两个强 VLM 能生成类人问题,但回答准确率仍不及人类。
COrigami是一个端到端AI驱动管道,从自然语言生成可折叠平面折纸的折痕图案。管道流程包括生成语义火柴人、计算基础填充、求解可折叠折痕图案、塑造平面折叠图案,并通过强化学习与自主审美评估循环对生成模型进行优化。该系统作为高效协作助手,为人类艺术家提供结构起点,展示了AI如何在满足多目标物理约束(如平面可折叠性方程)的前提下实现可靠的、基于数学的协同创造力。
Fast-LeWM是一种快速潜空间世界模型,基于JEPA和LeWM。它用动作前缀预测替代LeWM逐次单步潜状态展开:将候选动作序列的前缀编码后并行预测对应未来潜状态。前缀级监督使模型学习不同前缀下状态的连续演化,规划时可直接利用最后一个前缀token评估未来潜状态,无需逐一遍历中间想象状态。在多个任务上,Fast-LeWM相比LeWM提高了平均成功率,大幅缩短了规划时间,并实现了随展开步长增长显著变慢的开环潜损失。
大语言模型在多步工具使用的强化学习(RL)训练中常出现灾难性崩溃——模型性能骤降且工具调用结构失效。研究发现,崩溃源于特定控制 token 的概率尖峰,但底层工具使用能力并未丢失,仅被格式掩盖。研究者系统探索了离策略监督、提示引导、错误示例等多种监督信号,发现将监督微调(SFT)与 RL 交错训练可显著提升稳定性,但在格式和内容分布外(OOD)评估中性能下降。代码已开源。
随着基础模型推理能力与工程框架增强,生成长代码方案已不困难,可靠验证反成瓶颈。验证器仅为人类意图的代理,意图天然欠指定,优化会拉大代理与意图差距(奖励破解或信号饱和)。论文沿可扩展性、忠实性、鲁棒性三维度刻画验证信号质量,研究测试验证器、评分标准验证器、用户验证器及自动化智能体验证器四种构造。实验表明针对性设计能抑制奖励破解、提升任务质量。核心结论:无固定奖励函数能随策略能力增长保持有效,验证必须与生成协同进化。