Qwen-AgentWorld:用于通用智能体的语言世界模型
Qwen-AgentWorld-35B-A3B和Qwen-AgentWorld-397B-A17B是首批能通过长链式推理模拟7个领域智能体环境的语言世界模型。它们基于超过1000万条真实环境交互轨迹,经连续预训练(注入状态转移与专业语料)、监督微调(激活下一状态预测推理)和强化学习(混合规则与评分奖励提升仿真保真度)三阶段训练而成。配套基准AgentWorldBench利用5个前沿模型在9个已建立基准上的真实交互构建,实验表明Qwen-AgentWorld显著优于现有前沿模型。该模型既可充当解耦环境模拟器支持智能体强化学习,也可作为统一智能体基础模型,通过世界模型训练预热提升下游7个智能体基准的性能。
世界模型基于当前观测和动作预测环境动态,是推理与规划的核心认知机制。在这项工作中,我们研究基于大语言模型的世界建模如何进一步推动通用智能体的边界。 (i) 我们首先聚焦构建用于智能体环境模拟的基础模型。我们推出了 Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B,这是首批能够通过长链式推理模拟涵盖 7 个领域的智能体环境的语言世界模型。利用真实世界环境中 7 个领域超过 1000 万条环境交互轨迹,我们通过三阶段训练流程开发了 Qwen-AgentWorld:CPT 从状态转移动态和增强专业语料库中注入通用世界建模能力,SFT 激活下一状态预测推理,RL 通过量身定制的混合标准与规则奖励框架提升模拟保真度。为了评估语言世界模型,我们提出了 AgentWorldBench,这是一个从 5 个前沿模型在 9 个已有基准上的真实世界交互中构建的综合基准。实证结果表明,Qwen-AgentWorld 显著优于现有前沿模型。 (ii) 超越基础模型,我们进一步研究了世界建模增强通用智能体的两种互补范式。首先,作为解耦的环境模拟器,Qwen-AgentWorld 支持对数千个真实世界环境进行可扩展、可控的模拟,用于智能体 RL,其效果超越了单独使用真实环境训练。其次,作为统一的智能体基础模型,世界模型训练作为一种高效的预热方法,能提升 7 个智能体基准的下游性能。代码:https://github.com/QwenLM/Qwen-AgentWorld