# 阿里千问发布首个原生语言世界模型 Qwen-AgentWorld

- 来源：IT之家（RSS）
- 发布时间：2026-06-24 11:45
- AIHOT 分数：66
- AIHOT 链接：https://aihot.virxact.com/items/cmqrl73460l9mslp503x141ml
- 原文链接：https://www.ithome.com/0/967/843.htm

## AI 摘要

6 月 24 日，阿里巴巴千问发布 Qwen-AgentWorld，首个原生语言世界模型，提供 35B-A3B 与 397B-A17B 两种规模，单一模型覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大智能体交互领域。模型基于超 1000 万条真实环境交互轨迹，经 CPT → SFT → RL 三阶段训练。同步发布的 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得最高整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。模型与评测基准已开源，可从 Hugging Face 和 ModelScope 获取。

## 正文

IT之家 6 月 24 日消息，阿里巴巴千问大模型今天正式发布 Qwen-AgentWorld，官方称这是首个原生语言世界模型，能够在七大领域中模拟智能体交互环境，提供两种规模（35B-A3B 与 397B-A17B）。

原生世界建模：环境建模从继续预训练（CPT）阶段起即为训练目标，贯穿 CPT → SFT → RL 全流程，而非对通用大语言模型的事后适配。

七大领域，一个模型：单一模型同时覆盖文本类环境（MCP、Search、Terminal、SWE）与 GUI 类环境（Web、OS、Android），实现跨领域知识迁移。

同步发布的还有 AgentWorldBench—— 覆盖七大领域的语言世界模型评测基准，每条测试样本均配备真实环境执行所得的真实环境观测数据。模型与评测基准可从 Hugging Face 和 ModelScope 获取。

IT之家附官方介绍如下：

Qwen-AgentWorld 代表了我们的核心探索：基于语言模型的世界建模，能否进一步拓展通用智能体能力的边界。

我们从两个方向探索如何实现语言世界建模，以及如何将其应用于推进通用智能体：

首先，我们构建了智能体环境模拟的基础模型：Qwen-AgentWorld 是首个在单一模型中覆盖七大智能体交互领域（MCP、Search、Terminal、SWE、Web、OS、Android）的语言世界模型，基于超过 1000 万条真实环境交互轨迹，经由 CPT → SFT → RL 三阶段训练而成。在 AgentWorldBench 评测中，Qwen-AgentWorld-397B-A17B 取得了最高的整体模拟质量，超越 GPT-5.4、Claude Opus 4.8 与 Gemini 3.1 Pro。

其次，我们探讨世界建模在智能体训练中的作用，并通过两种互补范式加以验证：作为解耦的环境模拟器，它为智能体强化学习提供了更优的可扩展性与可控性 —— 可控的模拟 RL 能够以真实环境无法实现的方式塑造智能体行为，且显著优于仅在真实环境中训练的 RL；作为统一的智能体基础模型，LWM 预热训练可有效迁移至涵盖七个基准（其中三个完全未出现在训练集中）的多轮智能体任务，且无需在智能体任务上进行任何 RL 微调，初步验证了语言世界模型能够作为构建更强智能体模型的基础。

通过三阶段训练范式 —— 持续预训练（CPT）注入环境知识、监督微调（SFT）激活下一状态预测推理、强化学习（RL）打磨模拟真实性 —— 自底向上逐步构建世界建模能力。我们探索了世界模型赋能通用智能体的两种互补范式：作为解耦的环境模拟器，我们在 Tool Decathlon、MCPMark 和 WideSearch 上验证了可控模拟的有效性，其表现超越了无控模拟与真实环境训练；作为统一智能体基础模型，语言世界模型（LWM）的预热训练可迁移至涵盖七个基准（其中三个完全属于域外）的多轮智能体任务，初步验证了语言世界模型能够作为构建更强智能体模型的基础。语言世界建模开辟了一条互补的扩展路径，使通用智能体的能力边界得以突破真实环境交互所能提供的上限。

AgentWorldBench 已在 Hugging Face 上发布，以按领域划分的 JSONL 文件形式提供，每个文件包含来自真实环境的交互轨迹及对应的真实观测数据。
