Qwen-AgentWorld:面向通用智能体的语言世界模型
阅读原文· qwen.aiQwen把世界模型做成了一个可开源的通用产品,覆盖七域,做agent RL的可以直接拿它仿真训练,可控性甚至超过真实环境,做agent的团队应该认真看看。
Qwen 团队发布 Qwen-AgentWorld,一个以环境建模为训练目标的原生语言世界模型,在单个模型中模拟 MCP、Search、Terminal、SWE 及 GUI 域(Web、OS、Android)共七个域。模型使用超 1000 万条真实交互轨迹训练,在 AgentWorldBench 上以 Qwen-AgentWorld-397B-A17B 版本达最高模拟质量,超越 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。同时发布评测基准 AgentWorldBench。该模型可作为解耦环境模拟器用于智能体 RL 训练,也可作为统一智能体基础模型,经 LWM 预热后无需智能体 RL 微调即可迁移。模型和基准已开源在 Hugging Face 和 ModelScope。
Qwen-AgentWorld:面向通用智能体的语言世界模型
2026/06/23 · 14 分钟 · 2741 字 · QwenTeam丨翻译:简体中文
论文GitHubHugging FaceModelScope
今天,我们发布 Qwen-AgentWorld,这是一个原生语言世界模型,能够模拟七个领域的智能体环境:
- 原生世界建模:环境建模是从持续预训练阶段开始(CPT → SFT → RL)的训练目标,而非在通用大语言模型之上进行的后期适配。
- 七个领域,一个模型:单一模型即可模拟基于文本(MCP、搜索、终端、SWE)和基于图形界面(Web、操作系统、Android)的环境,并在不同领域之间实现知识迁移。
与该模型一同发布的还有 AgentWorldBench,这是一个涵盖七个领域的评估基准,并配有来自真实环境的配对的真实观测数据。两者均已上架 Hugging Face 和 ModelScope。
语言智能体经过训练可在交互式环境中执行动作,但迄今为止,没有任何语言模型被明确训练用于建模环境本身——即根据当前状态和智能体的动作来预测接下来会发生什么。
路线图:Qwen-AgentWorld 代表了我们在探索如何基于语言模型构建世界建模,从而进一步推动通用智能体能力边界方面所做出的尝试。
我们既探索如何实现语言世界建模,也研究如何将其应用于推动通用智能体的发展:
- 首先,我们构建了一个用于智能体环境模拟的基础模型:Qwen-AgentWorld 是首个在单一模型中涵盖七个智能体交互领域(MCP、搜索、终端、SWE、Web、操作系统、Android)的语言世界模型,通过 CPT → SFT → RL 在超过 1000 万条真实环境交互轨迹上进行训练。在 AgentWorldBench 上,Qwen-AgentWorld-397B-A17B 实现了最高的整体模拟质量,超越了 GPT-5.4、Claude Opus 4.8 和 Gemini 3.1 Pro。
- 第二,我们通过两种互补范式研究了世界建模在智能体训练中的作用:作为解耦的环境模拟器,它为智能体的强化学习提供了卓越的可扩展性和可控性。可控的模拟强化学习能够以真实环境无法实现的方式塑造智能体行为,并且显著优于仅在真实世界环境中训练的强化学习;作为统一的智能体基础模型,LWM 预热使得无需在智能体任务上进行任何强化学习微调,即可在七个基准测试(包括三个完全域外任务)中有效迁移到多轮智能体任务,这初步验证了语言世界模型可以作为构建更强智能体模型的基础。
Qwen-AgentWorld:一个覆盖七个统一域的原生语言世界模型,具有两种互补范式以增强通用智能体。
交互演示 #
探索由 Qwen-AgentWorld 模拟的所有七个域中的真实智能体-环境对话。点击任何思考轨迹以查看模型的内部推理过程。
Qwen-AgentWorld 演示 — 7 个域(终端、搜索、MCP、SWE、Android、Web、操作系统)
展开
第一部分:构建智能体环境模拟的基础模型 #
七个域,一个模型 #
Qwen-AgentWorld 涵盖七类交互环境。对于三个 GUI 域,环境观测采用可渲染代码的形式(无障碍树 XML、HTML、UI 层级标记),而非像素帧,从而实现了对视觉环境的纯文本世界建模。
| 域 | LWM 模拟的内容 | 代表性预测 |
|---|---|---|
| 文本环境 | ||
| 终端 | 命令行环境:shell 输出、文件系统状态、进程行为 | 多步命令管道的完整 shell 输出 |
| 搜索 | 搜索引擎结果:URL、摘要、排名、页面内容 | 真实的 URL 标识符、自然的来源排名顺序、特定查询的事实细节 |
| MCP | API 服务器响应:工具调用结果、数据库状态、服务协议 | 跨九次连续 Notion API 调用的跨调用模式一致性 |
| SWE | IDE/代码编辑环境:git diff、测试结果、编译错误 | 代码修改的文件变更和测试结果 |
| GUI 环境 | ||
| Web | 用户交互后的浏览器 DOM 状态变化 | HTML 及无障碍树更新 |
| Android | 触摸/手势操作后的 Android UI 层级变化 | UI 层级 XML 标记 |
| 操作系统 | 桌面操作系统状态:文件系统、窗口管理、应用行为 | 无障碍树 XML 更新 |
训练流程 #
三阶段训练流程:CPT 注入环境知识,SFT 激活下一状态预测推理,RL 强化仿真保真度。
Qwen-AgentWorld 以环境建模作为从持续预训练开始的明确目标进行端到端训练。三阶段流程遵循同一原则:CPT 注入,SFT 激活,RL 强化。
第一阶段:持续预训练(CPT)通过非思维链轨迹注入环境知识。数据来源于专用的智能体基础设施(容器化执行沙箱、MCP 服务器、Android/Web/OS 模拟器)、开放环境交互轨迹以及内部智能体轨迹。除环境数据外,我们还纳入了覆盖工业控制、网络安全、法律、医学、金融和时事的专业领域世界知识语料库。一个关键贡献是逐轮信息论损失掩码:每个(动作、观察)对的四个表层统计量识别出携带真实环境信息的轮次,并从损失中掩码其余轮次,同时将其保留为上下文。
第二阶段:监督微调(SFT)通过 <think>...</think> 块将下一状态预测激活为显式思考模式。我们使用拒绝采样选择高质量思考轨迹,得到 7,094 条训练样本。
第三阶段:强化学习(RL)通过混合奖励强化输出质量。我们使用 GSPO 进行 RL 训练。奖励结合了基于规则的 LLM 裁判(评估多维质量)和基于规则的验证器(用于可通过编程方式检查精确正确性的领域)。
AgentWorldBench #
AgentWorldBench 概览:领域分布、源基准、评估维度以及每个领域的轨迹统计。
为评估语言世界模型,我们引入了 AgentWorldBench——一个综合基准测试集,它基于 5 个前沿模型在 9 个已建立基准(如 Tool Decathlon、Terminal-Bench 1.0 & 2.0 和 OSWorld-Verified)上的轨迹,从真实世界观测中构建而来。每个评估样本都配有一次真实环境执行得到的真实观测值,从而实现基于参考数据的评分。AgentWorldBench 通过开放式评分准则评判,从 5 个维度——格式、事实性、一致性、真实性和质量——评估世界建模质量,深入探究模型的推理、知识和长上下文能力。
性能 #
AgentWorldBench 结果:每个领域按五维评分准则计算的均值。Qwen-AgentWorld-397B-A17B 取得最高总分(58.71),超过了 GPT-5.4(58.25)及其他前沿模型。
Qwen-AgentWorld-397B-A17B 取得最高总平均分(58.71),超越了 GPT-5.4(58.25)及所有其他前沿模型。其优势在 Terminal 和 SWE 两个领域最为显著,这两个领域的预测需要精确建模代码执行状态和工具 API 行为。
在 35B-A3B 规模上,三阶段流水线将总平均分提升了 +8.66 分(从 47.73 提升至 56.39),使 Qwen-AgentWorld-35B-A3B 超越了 Claude Sonnet 4.6(56.04)。这一提升在文本域和 GUI 域上均表现一致。
世界模型的内在思维 #
除了总体性能,语言世界模型的趣味之处在于它如何进行推理。我们分析了跨 4 个文本领域的 129 条思考轨迹,发现了三种涌现推理模式。
LWM 推理模式:审慎自我修正、信息泄露预防以及多步因果推理。
**审慎自我修正**。模型使用“等等!”作为认知中断,来修正中间预测。在 129 轮中,我们统计到 1,347 次这样的中断(平均每轮 10.4 次),涉及事实错误、认识论局限(“我实际上无法执行 np.random.seed(42)”)以及视角转换。
防信息泄露。在搜索场景中,模型持有一个智能体试图寻找的参考答案。当查询内容不相关时,模型通过确保摘要片段不会意外透露出目标来防止信息泄露——这相当于世界模型中的心智理论能力。
多步因果推理。预测 `curl -s localhost:3000 | python3 -m json.tool` 的输出需要经过六步推理链:Node.js 缺失 → 服务器从未启动 → 3000 端口无监听进程 → curl 静默失败 → 空管道传递 → json.tool 抛出 JSONDecodeError 异常。
第二部分:探究世界建模在智能体训练中的作用#
我们研究了两种互补范式,通过这两种方式,世界建模能够增强通用智能体。
为什么世界建模对智能体至关重要?#
不是为了取代真实环境,也不是为了降低成本,而是作为拓展前沿的补充维度
语言世界模型的作用。在智能体与环境的交互循环中,策略决定做什么,世界模型预测接下来会发生什么。语言世界模型以当前的交互历史和智能体的动作为输入,预测环境将返回的内容:终端输出、API 响应、更新后的 DOM。这不是基于模板的生成。忠实的模拟需要多步因果推理(串联六步系统知识来预测 curl 管道的失败)、状态跟踪(维持跨九个连续 Notion API 调用的引用完整性)以及领域特定知识(Unix 语义、API 模式、浏览器渲染规则)。
为什么不仅仅/只使用真实环境?真实环境交互仍然是让智能体行为立足现实的金标准。语言世界模型并非旨在取代它,也主要不是作为降低成本的手段。相反,语言世界模型开辟了一个补充轴,用于补充真实环境:
(1)超越真实环境的可扩展性与可控性。大型世界模型(LWM)能够在不依赖专用基础设施(沙箱、GUI虚拟机)的情况下,实现多种环境的轮次级扩展,涵盖极端场景、现实世界任务以及因不可逆操作或专有部署而无法真实执行的高价值专业领域。除可扩展性之外,大型世界模型还提供了精确的可控性:在真实环境中罕见甚至缺失的定向使动性扰动,可以系统性地暴露智能体的弱点。针对这些扰动进行训练,有助于智能体处理仅靠真实环境训练无法覆盖的边缘情况,最终超越单纯在真实环境中训练的智能体。
(2)内化的世界预测作为智能体能力。一个强大的通用智能体应同时具备决策能力和世界建模能力。世界建模使智能体能够预测未来环境状态,从而优化动作选择,本质上是在内部进行心智模拟,作为一项规划步骤——而传统的智能体训练仅专注于从状态到动作的决策过程。因此,下一状态预测被内化为一种类似于“反思”但面向未来的元推理模式:先预测,再行动。此外,精准的下一状态预测本身就需要推理、知识、指令遵循和长上下文处理能力——这些正是通用智能体的基础能力。
通用型语言环境模拟是如何实现的?构建一个通用型语言世界模型需要三个要素协同工作。第一,环境多样性:在尽可能多的不同环境的轨迹上进行训练,使模型接触到完整的状态转换模式谱系,而不仅仅是记忆狭窄的集合。第二,跨领域泛化:我们的实验表明,在单一文本领域上训练会带来所有其他文本领域的性能提升,这表明存在共享的底层环境建模能力,且随着领域覆盖范围的扩大而不断增强。第三,通过持续预训练获得世界知识:仅靠环境轨迹无法提供忠实模拟所需的事实基础。模拟一个合规监管平台需要法律知识;模拟针对当前事件的搜索引擎响应需要最新的事实覆盖。通过在持续预训练阶段引入专业领域的世界知识语料库(工业控制、网络安全、法律、医学、金融、时事),模型获得了环境模拟所依赖的事实基底。这三个要素——环境多样性、跨领域迁移和世界知识——共同使得单一模型能够作为通用型模拟器,覆盖七个智能体交互领域。
范式一:解耦式模拟
作为独立模拟器,策略智能体和世界模型是分离的模型,Qwen-AgentWorld 提供了真实环境无法实现的可扩展性和可控性。在这种模拟强化学习设置中,世界模型在智能体强化学习训练期间替代真实环境:智能体执行动作,世界模型预测下一个观察状态,智能体从这些模拟推演中学习。关键发现如下:
- 零样本环境泛化。Qwen-AgentWorld 模拟了训练中完全未曾出现的 4k 个 OpenClaw 环境,在无需任何领域特定适配的情况下,在 Claw-Eval 上取得了 +4.3 的模拟强化学习收益,在 QwenClawBench 上取得了 +7.1 的收益。
- 受控模拟至关重要。不受控的模拟强化学习带来的改进微乎其微;可控扰动使 MCPMark 提升 +12.3,WideSearch 提升 +16.3,远超不受控的模拟强化学习。
- 超越真实环境训练。可控模拟强化学习战胜了针对实时搜索引擎训练的真实强化学习(F1 得分 50.3% 对 45.6%),同时通过对抗性片段设计塑造更具针对性的智能体行为。
- 虚构世界有效。在完全虚构、自洽的世界中训练的智能体能够泛化到真实搜索任务,同时从结构上防止智能体将模拟事实与真实世界知识混淆。
- 状态是瓶颈。模拟强化学习的效果取决于为世界模型提供足够详细的初始状态;否则,仿真保真度会下降,下游收益也会减少。
可泛化的环境规模化 #
我们测试世界模型是否能够泛化到完全未出现在训练中的环境。OpenClaw 是一个开源智能体平台,其任务涵盖排程、编码、邮件分类、浏览器自动化和文件管理——完全超出 Qwen-AgentWorld 的分布范围。我们模拟了 4,000 个 OpenClaw 环境用于智能体强化学习训练,未进行任何领域特定的适配,同时还对模拟器本身进行了消融实验:使用 Qwen3.6-Plus 作为模拟器只能带来微乎其微的改进,而 Qwen-AgentWorld-397B-A17B 则产生了显著提升——证实了世界模型的质量是模拟强化学习的瓶颈。智能体从与不忠实的模拟器交互中学到的东西很少。
| Claw-Eval | QwenClawBench | |
|---|---|---|
| Qwen3.5-35B-A3B | 65.4 | 47.9 |
| + 模拟强化学习(使用 Qwen3.6-Plus) | 66.7 | 47.8 |
| + 模拟强化学习(使用 Qwen-AgentWorld-397B-A17B) | 69.7 | 55.0 |
| Δ | +4.3 | +7.1 |
- 所有分数均基于 3 次独立运行的平均值,最大序列长度为 256K。
可控模拟 #
更强大的能力是可控性:在训练过程中使用自然语言指令来塑造模拟器的行为。我们验证了两种模式。
MCP:环境适应。我们从真实的 MCP 工具使用轨迹中合成模拟系统提示词:每个提示词指定工具架构和服务器配置,总结隐藏的环境状态(数据库内容、权限设置、服务可用性),并定义可控的模拟指令,这些指令决定了模拟器在每一轮如何响应。控制指令会注入目标扰动——间歇性 API 错误、需要后续调用的分页响应、迫使多步检索的不完整中间结果,以及批量操作的部分失败——从而系统地暴露那些真实部署中很少出现的智能体弱点。
结果揭示了鲜明对比:没有控制指令的标准模拟 RL 没有任何实质性收益(Tool Decathlon 甚至从 32.4 降至 31.5),因为模拟器缺乏足够的支撑来产生可信的响应。而采用可控模拟后,Tool Decathlon 提升了 +3.7,MCPMark 提升了 +12.3。可控性不仅仅是提升幅度的一个因素——它是在该领域使模拟 RL 能够起作用的先决条件。MCPMark 上的更大提升(+12.3 vs. +3.7)表明,可控模拟对于需要大量顺序工具调用和精细处理中间结果的任务尤其有效。
| Tool Decathlon | MCPMark | |
|---|---|---|
| Qwen3.5-35B-A3B-SFT | 32.4 | 21.5 |
| + 模拟 RL(无控制) | 31.5 | 24.6 |
| + 模拟 RL(受控) | 36.1 | 33.8 |
| Δ | +3.7 | +12.3 |
搜索:虚构世界构建。我们构建了 1,000 个自包含的虚构环境,每个环境以一个关系数据库(300–500 行)为基础,其中包含内部一致的虚构事实。一个时间偏移的环境可能包含一份 2029 年智能手机市场排名,使用真实品牌名称但型号编号并不存在。由于答案只存在于虚构设定中,智能体无法通过参数记忆绕过搜索工具来作答;由于所有事实都是虚构的,智能体也不会将模拟事实与现实世界知识混淆。
| 按项目 F1 | 按行 F1 | |
|---|---|---|
| Qwen3.5-35B-A3B-SFT | 34.02 | 13.72 |
| + 模拟 RL(受控) | 50.31 | 24.21 |
| Δ | +16.29 | +10.49 |
| Qwen3.5-397B-A17B-SFT | 70.11 | 45.69 |
| + 模拟 RL(受控) | 73.98 | 51.74 |
| Δ | +3.87 | +6.05 |
模拟 RL vs. 真实 RL
可控模拟强化学习与真实强化学习在WideSearch上的对比:可控模拟强化学习的表现与使用实时搜索引擎训练的真实强化学习持平或略优。
性能表现。我们直接在WideSearch上对比可控模拟强化学习与真实强化学习(使用实时搜索引擎训练)。模拟强化学习的表现与真实强化学习持平或略优:在第60步时,按项目计算的F1分数达到50.3%,而真实强化学习为45.6%。
工具使用分化:模拟强化学习训练的智能体增加了对web\_extractor的调用次数,而真实强化学习训练的智能体则减少了调用,这反映了可控模拟如何塑造出不同的智能体行为。
行为表现。更具信息量的信号来自智能体的行为。两种训练方式都将每个轨迹中的web\_search调用次数从约5次减少到约3.5次,但web\_extractor的调用次数出现显著分化:模拟强化学习将其从2.5次增加到4.0次,而真实强化学习则从2.5次减少到1.5次。由于模拟的片段有意省略了详细内容,模拟强化学习训练的智能体意识到,要拼凑出完整答案,必须提取完整页面。可控模拟能够以真实环境无法做到的方式,有针对性地塑造智能体行为。
范式二:智能体基础模型 #
在范式一中,智能体与世界模型是分离的模型。此处我们将二者统一:同一个模型既选择动作,又预测环境状态。LWM训练将下一状态预测内化为一种推理能力。主要发现:
- 激进的跨任务泛化。单轮、非智能体的LWM RL热身训练(无需调用工具)能够迁移至跨五个领域七个基准测试的多轮、调用工具的智能体任务。
- 领域泛化。在LWM训练中完全未见过的、完全分布之外的领域上,性能也有提升(Claw-Eval +11.3,QwenClawBench +9.7,BFCL v4 +9.0),这证实了该能力具有可迁移性,而非领域特定的捷径。
- 下一状态预测作为元推理模式。LWM训练教会智能体在执行动作之前,先在头脑中模拟环境响应,这种能力能够泛化至不同的任务格式和领域。
我们通过在 Qwen3.5-35B-A3B-SFT 上运行 LWM RL(一个没有工具调用的单轮任务)来验证这一点,然后直接在七个基准测试上评估多轮、工具调用的智能体任务,无需额外微调,其中包括三个在 LWM 训练中未出现的域外基准测试。
| 域内 | 域外 | |
|---|---|---|
| Terminal-Bench 2.0 | SWE-Bench Verified | |
| 基准 | 33.3 | 64.5 |
| + LWM RL | 39.6 | 67.9 |
| Δ | +6.3 | +3.4 |
域外结果尤为显著:LWM 训练管线中不包含 Claw 或函数调用数据,但在世界模型训练中完全未出现的域上却取得了 +11.3、+9.7 和 +9.0 的提升。
使用 Qwen-AgentWorld 构建 #
部署 #
我们已开源 Qwen-AgentWorld-35B-A3B(Hugging Face、ModelScope),这是一个基于 MoE 架构的语言世界模型,总参数量 35B / 激活参数量 3B,支持 256K 上下文窗口。可通过以下方式进行部署和使用。
bash
# SGLangpython -m sglang.launch_server \
--model-path Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
--context-length 262144 \
--reasoning-parser qwen3
# vLLMvllm serve Qwen/Qwen-AgentWorld-35B-A3B \
--port 8000 \
--tensor-parallel-size 4 \
--max-model-len 262144 \
--reasoning-parser qwen3 \
--trust-remote-code
python
from transformers import AutoModelForCausalLM, AutoTokenizermodel = AutoModelForCausalLM.from_pretrained( "Qwen/Qwen-AgentWorld-35B-A3B", torch_dtype="auto", device_map="auto",)tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen-AgentWorld-35B-A3B")
评估 #
AgentWorldBench 可在 Hugging Face 和 Modelscope 上获取,以按域划分的 JSONL 文件形式提供,每个文件包含来自真实环境的交互轨迹及真实观察结果。评估使用 eval/eval.py 的三步流程:(1) 推理——运行世界模型生成预测观察结果,(2) 评判——使用 LLM 评判器根据五个维度(格式、事实性、一致性、真实感、质量)对每个预测与真实结果进行评分,(3) 聚合——计算每个域及总体得分。世界模型和评判器均使用兼容 OpenAI 的 API,支持 SGLang、vLLM 或专有端点。完整设置、数据格式及示例命令请参阅 GitHub README。
总结 #
通义千问-Qwen-AgentWorld 是一个原生语言世界模型,在单一模型的两个规模(35B-A3B 和 397B-A17B)上覆盖了七个智能体交互领域。通过三阶段方案,CPT 注入环境知识,SFT 激活下一状态预测推理,RL 提高模拟保真度,逐步从零构建世界建模能力。我们研究了世界建模提升通用智能体的两种互补范式。作为解耦模拟器,我们在 Tool Decathlon、MCPMark 和 WideSearch 上验证了可控模拟的有效性,超越了非受控模拟和真实环境训练。作为统一的智能体基础模型,LWM 的预热迁移到七个基准上的多轮智能体任务,包括三个完全跨域的任务,初步验证了语言世界模型可以作为构建更强智能体模型的基础。语言世界建模为扩展通用智能体开辟了一条互补轴,超越了仅凭真实环境交互所能提供的范围。
引用 #
bibtex
@article{zuo2026qwen, title={Qwen-agentworld: language world models for general agents}, author={Zuo, Yuxin and Xiao, Zikai and Sheng, Li and Huang, Fei and Tu, Jianhong and Liu, Yuxuan and Tang, Tianyi and Hu, Xiaomeng and Su, Yang and Lan, Qingfeng and others}, journal={arXiv preprint arXiv:2606.24597}, year={2026}}