传统VLA模型因仅依赖当前观测和语言指令,难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling(ICWM)将系统辨识作为上下文适应问题:机器人通过短暂自生成、任务无关交互历史,自主推断系统变量,从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式,无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明,ICWM在新相机视角下显著优于标准VLA基线。
传统VLA模型因仅依赖当前观测和语言指令,难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling(ICWM)将系统辨识作为上下文适应问题:机器人通过短暂自生成、任务无关交互历史,自主推断系统变量,从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式,无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明,ICWM在新相机视角下显著优于标准VLA基线。
现代生成式世界模型渲染逼真未来时产生幻觉,集中于状态-动作空间低覆盖区域。研究引入MMBench2(427小时、210任务)数据集,训练350M参数世界模型,识别出三种幻觉模式(感知、动作边缘化、场景发散),并开发相应预测信号。训练时采用覆盖感知采样;在线时预测信号作为好奇心奖励指导数据收集,仅需50条真实轨迹即可微调模型全新环境。结论:世界模型幻觉本质是数据覆盖问题,检测信号可用于缓解。
JetSpec 是一种头部驱动推测解码框架,通过在冻结目标模型的融合隐藏状态上训练因果并行草稿头,生成与自回归因子分解对齐的候选树,从而将更大草稿预算转化为更长接受前缀和更高端到端加速。在密集和 MoE Qwen3 模型的数学、编码及聊天基准测试中,JetSpec 一致优于双向头和树形基线。在 H100 GPU 上,MATH-500 达 9.64 倍加速,开放对话达 4.58 倍;经 vLLM 集成在现实服务负载下进一步降低延迟。
多模型LLM系统(路由、投票、级联、融合、混合智能体)的准确率提升受限于共同失败上限1−β(β为所有模型在同一查询上均出错的比率)。在21家供应商的67个模型上,开放数学题实际β=0.052,是高斯copula预测值0.023的2.5倍;代码任务β=0.079;GPQA-Diamond自由回答形式β=0.127。低相关异质集成优于高相关Self-MoA,但组合模型很少击败单一最佳模型,除非有强查询级路由信号。收益来自模型在不同问题上犯错,而非增加模型数量。
GauntletBench是一个基于网络的基准测试,用于评估AI智能体在陌生场景中的泛化能力,聚焦时间感知、图形理解与3D推理三项未被充分探索的能力,覆盖视频编辑器、工作流构建器、3D建模器、飞行分析器和电路设计器五个专业应用,每项包含20个视觉密集型任务(共100个)。测试结果显示,最先进智能体的成功率仅19.1%,而人类非专家可达80%以上,凸显当前智能体与复杂现实场景之间的显著差距。
LISA是一种针对视觉条件可控生成的训练正则化方法。它将双分支范式(预训练主网络+侧网络)重新解释为基于分数的生成建模:主网络提供无条件先验分数,侧网络隐式贡献似然分数。LISA通过轻量解码器将侧网络指定层中间特征投影到分数隐空间,与构造的近似似然分数目标计算距离作为正则化损失,并与标准扩散损失联合优化。实验表明,LISA能一致加速训练收敛并提升合成质量,使侧网络特征更解耦,且几乎不增加训练成本、零额外推理成本。
EO-WM是一种基于视频扩散Transformer的多光谱地球观测预测模型,将天气作为条件信号,稀疏观测与未观测地表状态视为不确定性来源。模型通过物理信息条件框架区分气候基线、天气异常和累积物理应力信号(如持续高温与干旱胁迫),并引入极端夏季基准和季节性匹配对基准,分别评估极端天气下植被退化预测的严重性感知能力及天气强迫变化下的响应保真度。实验表明,EO-WM在NDVI下降幅度预测上相对误差降低5.63%,方向命中率相对提升7.80%,同时保持标准像素级指标竞争力。模型与基准将开源。
大语言模型推理能力提升导致KV缓存快速增长,现有压缩方法仅依赖注意力权重,忽略了预测不确定性等信息论信号。本文提出Forward Influence度量,从前瞻视角衡量压缩token对未来上下文的影响。分析发现,高注意力得分token主要影响邻近上下文,而高预测不确定性token对远距离未来上下文影响更强。基于此提出InfoKV框架,融合token级预测不确定性与层表示演化,在推理时将熵分数与注意力分数结合。在Llama-3.1、Llama-3.2和DeepSeek-R1上的长上下文推理基准测试中,InfoKV在长预填充和解码场景下均优于现有基于注意力的KV压缩方法。
Elvis Saravia 推荐一篇试图明确“智能体”定义的论文。Eric Xing 及其同事从哲学与科幻视角出发,分析智能体架构的五维度:目标、身份、决策、自我调节和学习。论文指出,真正“智体性”需这些维度以特定方式组合,从而区分自动化与智能体。论文地址:arxiv.org/abs/2606.23991。
InSight是一个框架,通过让视觉-语言-动作(VLA)模型在原始动作层面(如“将夹爪移动到碗边”“向上抬起”)变得可控,实现自主技能获取。包含两个阶段:(1)自动化分割管道,利用VLM规划分解和末端执行器位姿将演示分割为带标签原始动作;(2)VLM引导的数据飞轮,识别缺失原始动作,自主尝试并标注存储成功演示。在模拟和真实操作任务(方块翻转、抽屉关闭、清扫、扭转、倾倒)上的评估表明,无需人类演示目标技能即可习得,且原始动作可组合执行新任务。
该论文认为当前AI主要建立在网络数学而非知识理论上。人脑以极低功耗做出快速自适应决策,而前沿AI依赖巨大算力。生物智能高效是因为围绕目标、上下文和决策组织意义。论文将心智活动分为物理认知、情绪认知、心智认知和智能,其中智能指在情境仍有效时做出有用决策。提出的“合成智能”将使用结构化语义知识(信息与目的绑定),而非仅依赖语法、统计或神经网络权重。通过不对称信息解析模型展示如何将知识组织成决策图,以捕食者-猎物为例,每个状态仅包含少数可能动作。
Google Research研究发现,推理(chain-of-thought)能帮助大语言模型(LLM)回忆简单事实,即使这些事实无需复杂推导。在Gemini-2.5 Flash和Pro以及Qwen3-32B上,启用推理后模型能够回答原本无法直接回答的简单问题,pass@k显示正确事实存在于输出分布中。该现象由两个机制驱动:一是生成的推理token充当计算缓冲,允许模型进行隐藏计算以提取参数化知识;二是推理过程中产生的相关事实起到启动效应(factual priming),帮助模型激活正确答案。
大语言模型正越来越多地作为智能体在文档上进行推理,而非依赖参数化知识。Agora基准测试包含362个问题、8个领域共9664份真实文档和3.72亿个模型token,远超任何模型的上下文窗口,迫使智能体进行审慎探索而非穷举扫描。评估8个模型后,最强模型准确率仅为59.4%,且各领域表现差异显著。
面壁智能 OpenBMB 联合清华NLP、哈工大、东北大学提出元认知框架 Know More, Know Clearer,应对 LLM 因认知错位导致的幻觉。框架包含三项:结构性衰减定律(准确率随不确定性指数衰减);Know More(CGKE)将知识空间分为掌握/混淆/缺失三区针对性增强;Know Clearer(CDKC)基于 GRPO 对齐置信度,使平均 ECE 从 60.41 降至 24.34。在 11 个 QA 基准上,CDKC 将 Llama-3.1-8B 从 30.91% 提升至 55.50%(+24.59 点),Qwen2.5-7B 从 25.76% 提升至 48.29%(+22.53 点)。自知识基准上 CBS 达 73.43%、CAE 达 68.18%,正确决策率 63.37%,边界识别 79.07%,达到最佳平衡。
Should FP4 training still default to E2M1?🤔 With fine-grained scaling + RHT, the bottleneck may shift from dynamic rang...
研究团队推出Qwen-AgentWorld系列,是首批基于语言模型的“语言世界模型”,通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹,经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器,它支持可扩展的可控仿真以增强智能体强化学习;作为统一基础模型,世界模型训练可有效预热下游7个智能体基准的性能。
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)DFlash 由 UC San Diego 团队提出,是一种用于投机解码的轻量块扩散草稿模型。它一次前向推理生成整块 token,再由目标模型并行验证,保证输出无损。相比 EAGLE-3,DFlash 实现最高 2.5 倍加速,在 Qwen3-8B 等多种模型上平均无损加速超过 6 倍(MATH-500 达 6.08×)。在 NVIDIA Blackwell 上(TensorRT-LLM),gpt-oss-120b 模型吞吐量提升最高 15 倍,约为 EAGLE-3 的 1.5 倍。核心创新是将目标模型多层隐藏特征注入草稿模型每一层的 Key-Value 投影,使接受长度随草稿深度增长。
FLAT 从单张图像直接解码视频扩散潜码中的三角形泼溅表面基元,首次实现前馈传递下从压缩潜码到显式三角形面片的映射。针对平面基元方向敏感、梯度流动困难问题,引入射线中心旋转参数化回归三角形,并设计乘积窗函数改进可微分三角形渲染的梯度流。标准基准上 FLAT 在保持视觉质量的同时取得显著更高的几何精度。轻量级测试时优化可将三角形网格转换为不透明、支持实时渲染的游戏引擎就绪表示。在相同训练设置下系统对比了 3DGS、2DGS 与三角形泼溅的表示权衡。
DREAM是一种利用大语言模型(LLM)自回归下一token预测目标为密集检索嵌入模型提供监督训练的方法。它将检索器生成的查询-文档相似度分数注入冻结LLM的选定注意力头,使预测损失通过注意力机制为检索器提供梯度。在BEIR和RTEB检索基准上,使用0.5B至3B参数的嵌入骨干,DREAM均持续优于现有基线。
FlowR2A通过flow-matching解码器学习奖励条件动作分布,将基于评分方法(密集奖励监督但固定动作词汇)与基于锚点方法(动态生成提案但稀疏监督)统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布,引入细粒度每时间步奖励条件和奖励噪声增强,以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果,多模态提案质量显著高于此前方法。
大语言模型智能体在开放世界交互中自我进化时,单智能体循环易陷入自我确认陷阱——将错误但自洽的轨迹误判为成功,导致错误累积。EDV 框架将经验学习解耦为执行、蒸馏、验证三阶段:多异构智能体并行探索产生多样化轨迹;第三方智能体对比分析减少归纳偏差;执行组通过共识机制验证候选经验,仅批准内容写入记忆。在 tau2-bench、Mind2Web 和 MMTB 三个长周期基准上,EDV 持续超越强基线,验证了可靠经验构建对鲁棒自我演化的关键作用。代码已开源。
微软新论文Next-Latent Prediction (NextLat) 提出一种自监督学习方法,在常规token预测基础上增加预测下一隐藏状态的任务,迫使Transformer学习紧凑的内部世界模型。该方法在地图式世界建模、数学推理、图规划、故事预测等任务上表现更优,生成速度通过自推测解码最高提升3.3x,且无需改变Transformer架构或减慢正常推理。
Next-token prediction is myopic. What if transformers learn to predict their own next latent state? 🌠 We present Next-L...
当前扩散Transformer(DiT)研究集中于ImageNet类别条件生成单一评估设置,方法排名与文生图(T2I)任务间无强相关。NanoGen框架统一了DiT训练与评估:在ImageNet上匹配SOTA基线,仅需修改12行配置即可训练T2I模型,两种任务训练计算量相当。基于NanoGen训练21个潜在扩散模型后,三个指标上ImageNet与T2I排名间的Pearson相关系数为-0.377至-0.580,表明仅靠ImageNet FID改进未必反映T2I真实进步。为此整合ImageNet与T2I结果形成DiffusionBench,作为替代单一ImageNet评估的DiT整体基准。
FLUX3D提出图像到3D高斯泼溅(3DGS)生成框架,解决两个结构性瓶颈:表示瓶颈(判别式2D特征构建稀疏体素潜在表示抑制重构线索)与跨模态对应瓶颈(标准扩散Transformer难对齐密集2D与稀疏3D token)。引入扩散对齐结构化潜在(DA-SLAT)与仅解码器架构提升3DGS保真度,并设计含稀疏结构多模态扩散Transformer(SMDiT)和模态感知旋转位置编码(MARoPE)的稀疏结构感知扩散框架,实现几何无关对齐。实验表明FLUX3D在外观保真度上显著超越现有SOTA。
OpenThoughts-Agent(OT-Agent)项目提出一套完全开源的数据 curation 流水线,专门用于训练智能体模型。研究团队通过 100 余项对照消融实验,系统探索了任务来源与多样性的影响,并构建了包含 10 万条样本的数据集。基于该数据集微调 Qwen3-32B 后,模型在 7 项智能体基准测试中平均准确率为 44.8%,比现有最强的开源数据智能体模型 Nemotron-Terminal-32B(40.9%)高 3.9 个百分点。训练数据展现出强扩展性,同等计算资源下各数据规模均优于其他开源数据集。所有数据、流水线、实验记录及模型已在 openthoughts.ai 公开发布。
Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹,经连续预训练(注入状态转移与专业语料)、监督微调(激活下一状态预测推理)和强化学习(混合规则与评分奖励提升仿真保真度)三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建,实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习,也可作为统一智能体基础模型,通过世界模型训练预热提升下游7个智能体基准的性能。
关联讨论 4 条X:通义千问 / Qwen (@Alibaba_Qwen)X:Berry Xia (@berryxia)公众号:通义实验室(千问)Qwen:Blog Retrieval(API)现有机器人价值模型基于缺乏时间建模能力的VLM骨干。世界模型擅长时间建模与未来规划,由此将世界模型与价值估计结合,构建了世界价值模型(WVM)。WVM在标准基准上取得SOTA的价值序相关(VOC)结果。为补充仅含专家数据的评测,新引入Suboptimal-Value-Bench(含800条次优轨迹及人工标注),WVM同样保持SOTA。在策略学习中,WVM在模拟和真实部署中提升了多种策略提取方法的操作性能。
CF-World是一个反事实基准,用于测试文本到图像(T2I)模型在系统性违背现实世界先验规则下生成图像的能力。每个场景分三个递进层级:事实生成、显式反事实生成和隐式反事实生成。评估采用VLM-based评估器CF-Eval,引入两个指标:Prior Resistance Rate(PRR)衡量克服固有先验的能力,Reasoning Retention Rate(RRR)评估无显式视觉线索时的推理依赖生成。实验表明,所有模型在反事实场景中性能急剧下降,原因是T2I模型将世界知识与视觉外观编码为紧密耦合模式,过度依赖训练数据中的频繁视觉共现,在反事实任务中退回至熟悉常识先验。
现有大语言模型预训练的在线数据混合方法仅从单一角度优化。新框架全息数据调度器(HDS)将数据调度建模为连续控制空间中的强化学习问题,采用Soft Actor-Critic算法。其核心是多目标综合奖励函数,整合数据驱动质量奖励、损失驱动域间影响奖励和模型驱动权重范数奖励。在The Pile基准上,HDS达到次优方法最终验证困惑度所需训练迭代减少44%,并在MMLU 0-shot任务上提升7.2%。
提出ReMMD框架,包含基准ReMMDBench(500样本、2756张图片、5种单语及2种跨语言设置、多图像帖子、5类真实性标签与8类失真标签)及持久记忆验证器ReMMD-Agent。该Agent将帖子分解为原子点,构建可重用证据集,输出结构化L1/L2/L3预测。在闭源系统、开源LVLMs、MMD-Agent和T2-Agent对比中,ReMMD-Agent搭配GPT-5.2取得最佳五类真实性性能,准确率41.80%,macro-F1 39.12%,成本较MMD-Agent降低17.5%,较T2-Agent降低79.9%。项目已在HuggingFace开源。
该论文提出“热力学智能”概念,将智能定义为通过信息与控制显著提高罕见有效结果概率的能力。现有评测仅关注任务成功率,而论文指出大脑、大语言模型、控制器等智能体的共同点:系统将自身纳入世界模型,并基于模型选择行动以改变未来概率。有效未来需满足在被动行为下罕见且仍有效。作者提出“罕见有效提升”度量,衡量系统比被动基线更频繁产生此类未来的倍数。高提升取决于系统能否准确识别罕见有效未来。核心论点:智能是物理层面的概率转移过程,而非测试分数或类人行为标签。
一项针对10个开源模型、4个安全基准的研究发现,大语言模型在遭遇对抗性前缀攻击(模型被植入有害开篇并继续生成)后,无法可靠识别自己的输出已被外部引导。模型所谓的“自我意识”更像安全机制的延迟反射:拒绝受攻击回答时通常引用政策或缺乏意图,而非检测到输出被篡改的机械事实。平均有27.3%的受攻击响应被模型误认为自身意图,表明自我报告证据薄弱。模型的有限识别主要来自正常拒绝行为,而非对攻击的深层认知。
一项研究对比了基于智能体大语言模型的机器翻译(MT)与人工翻译(HT)在文学作品中的读者体验。15名读者评估了15部近期从法语、波兰语和日语译成英语的小说节选(每部约8000词)。在沉浸式阅读(30次比较)和精读(772次片段对比)中,读者认为MT“还行”,但更偏好HT(节选19/30偏好HT,片段522/772),因其更易读、清晰且沉浸。MT质量波动更大。读者无法可靠区分两者(17/30猜对),且倾向于相信是人工翻译的版本。自动评测指标(包括LLM作为评判者)无法复现读者偏好。研究发布了LAIT数据集(含1000条读者评论、2000条偏好评分、7200条片段级标注)。
Play2Perfect 提出一种基于强化学习的任务无关预训练框架,让多指机器人在多样化对象和目标上通过“玩耍”习得可复用的操作先验(如抓取、手中重定向、姿态到达),再微调用于精确装配任务。系统研究表明,对象多样性、训练目标、轨迹多样性和目标精度是关键设计因素。该先验使样本效率比从零强化学习提升 33 倍。零样本 sim-to-real 迁移实现了 0.5 mm 间隙紧配插入 60% 成功率,以及长时序多部件装配和拧螺丝超过 50% 成功率。
针对不同实时语音应用需单独训练增强模型的痛点,本文提出一种通用实时语音增强模型,可同时控制算法延迟与计算延迟。算法延迟通过可配置的前瞻帧灵活调整,并引入并行卷积层应对不同填充配置带来的学习低效;计算延迟由早期退出机制控制,支持在不同网络深度推理。两阶段训练策略(共享到多解码器过渡)缩小了通用模型与专用模型的性能差距。该框架使单个模型可在多种延迟预算下部署,无需重新训练。
TheoremGraph 是覆盖非形式化与形式化数学的语句级依赖图。非形式化侧从 arXiv 解析 1170 万定理环境,提取 1830 万条有向依赖;形式化侧 LeanGraph 从 25 个 Lean 项目提取 388,105 声明节点和 1130 万类型化边。通过嵌入自然语言 slogan 将两类图映射到同一语义空间,LLM judge 在余弦阈值 ≥0.8 时确认 47,952 个匹配,阈值 ≥0.9 时接受率升至 87%。形式化概念检索中,name-and-signature 加图扩展的 Recall@10 达 0.775,接近 LeanSearch v2 的 0.780(无需 LM 重排序)。相关数据集、提取器、HTTP API 及 MCP 接口已开源。
MIMFlow是一个统一端到端框架,联合优化潜语义、像素重建和生成流。它采用VAE编码器从掩码图像推断语义潜变量,使归一化流专注于建模简化的低频频谱流形,专用解码器处理高频合成,从而解决归一化流的容量瓶颈。在ImageNet 256×256上,MIMFlow-L达到71.3%线性探测准确率和FID 2.50。仅使用128 token(比标准模型少50%),性能较相似规模NF基线提升32.8%。代码已开源。