这是我最近看到最有想法的Agent方向探索,直接从环境建模入手,而不是让模型死记硬背操作,且零样本迁移能力很惊艳,做Agent的开发者必读。
Qwen-AgentWorld是一个原生语言世界模型,端到端以环境建模为训练目标,而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境,并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向:1)将世界模型用作可控Sim RL的环境模拟器,模拟环境训练的Agent在部分任务上超过真实环境训练;2)仅做环境预测(不进行Agent训练)的预测能力零微调迁移到多轮Agent任务,在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。
Qwen直接训了一个能模拟7种Agent环境的语言世界模型,叫Qwen-AgentWorld。
它不是先训Agent再加环境,而是从头就把“环境建模”当成核心训练目标。
模型要学会预测终端会输出什么、网页会怎么变、代码执行后状态如何变化,而不是只学会怎么去操作。
他们做了两个方向的探索:
一个是把世界模型做成高质量的环境模拟器,用来跑可控的Sim RL,结果发现用模拟环境训练的Agent,在某些任务上甚至能超过真实环境训练的Agent。
另一个更有意思:单纯让模型做环境预测(不做任何Agent训练),这个预测能力居然能直接迁移到真实的多轮Agent任务上,在多个benchmark上都有明显提升,包括一些完全没见过的领域。
Qwen这次开源了35B的MoE版本和对应的benchmark。
核心思路很清晰:想让Agent变强,先让它真正“懂”环境,不只是只教它怎么行动。
[引用 @Alibaba_Qwen]:📣📣 认识一下 Qwen-AgentWorld——一个原生的语言世界模型,能够在单一模型内模拟 7 种 Agent 环境(MCP、Search、Terminal、SWE、Web、OS、Android)。环境建模从一开始就是训练目标,而非事后适配。
🤔 大语言模型被训练成更好的 Agent——更擅长在环境中行动。但没有人训练它们去建模环境本身。
🗺️ 我们的路线图:探究语言世界建模如何推动通用 Agent 能力的边界,沿着两条路径:
1️⃣ 构建用于环境模拟的基础模型——在 AgentWorldBench 上超越 Claude Opus 4.8 和 GPT-5.4
2️⃣ 探究世界建模如何增强 Agent 训练: 🔬 可控 Sim RL(以 LWM 作为环境的智能体 RL)超越了在真实环境中的训练 🧠 学习预测环境(LWM 预热)使 Agent 变得更强——值得注意的是,即使没有任何针对 Agent 的训练,这种预测知识也能零微调迁移到智能体任务上
📑 Paper: https://arxiv.org/abs/2606.24597 📖 Blog: https://qwen.ai/blog?id=qwen-agentworld 💻 GitHub: https://github.com/QwenLM/Qwen-AgentWorld 🤗 HuggingFace: https://huggingface.co/collections/Qwen/qwen-agentworld 🧩 ModelScope: https://modelscope.cn/collections/Qwen/Qwen-AgentWorld