通义千问发布Qwen-AgentWorld,一款原生语言世界模型,可在单一模型中模拟MCP、搜索、终端、SWE、Web、OS、Android共7种智能体环境。环境建模即训练目标,非事后适配。该模型在AgentWorldBench上性能超越Claude Opus 4.8和GPT-5.4。研究分两条路径:一是构建环境模拟基础模型;二是探索世界模型增强智能体训练——可控Sim RL(以LWM为环境的智能体强化学习)优于真实环境训练,而LWM预热(预测环境的学习)即使不经任何智能体特定微调,也能将预测知识迁移至智能体任务。
📣📣 认识一下 Qwen-AgentWorld —— 一个原生语言世界模型,在单一模型内模拟 7 种智能体环境(MCP、搜索、终端、SWE、Web、操作系统、Android)。环境建模从一开始就是训练目标,而非事后适配。
🤔 大语言模型被训练成更好的智能体 —— 更善于在环境中行动。但没有人训练过它们去建模环境本身。
🗺️ 我们的路线图:探索语言世界建模如何从两条路径推动通用智能体能力的边界:
1️⃣ 构建环境模拟的基础模型 —— 在 AgentWorldBench 上超越 Claude Opus 4.8 和 GPT-5.4
2️⃣ 研究世界建模如何增强智能体训练: 🔬 可控模拟强化学习(以 LWM 作为环境的智能体强化学习)超越了在真实环境中的训练 🧠 学习预测环境(LWM 预热)使智能体变得更强 —— 值得注意的是,即使没有任何智能体特定训练,这种预测性知识也能在零微调的情况下迁移到智能体任务
📑 论文:https://arxiv.org/abs/2606.24597 📖 博客:https://qwen.ai/blog?id=qwen-agentworld 💻 GitHub:https://github.com/QwenLM/Qwen-AgentWorld 🤗 HuggingFace:https://huggingface.co/collections/Qwen/qwen-agentworld 🧩 ModelScope:https://modelscope.cn/collections/Qwen/Qwen-AgentWorld