Qwen-AgentWorld:通用智能体的语言世界模型
研究团队推出Qwen-AgentWorld系列,是首批基于语言模型的“语言世界模型”,通过长链式推理模拟7个领域的智能体环境。模型使用超1000万条真实环境交互轨迹,经连续预训练、监督微调和强化学习三阶段训练而成。配套AgentWorldBench基准基于5个前沿模型在9个标准评测上的真实交互构建。实验表明Qwen-AgentWorld显著优于现有模型。作为解耦环境模拟器,它支持可扩展的可控仿真以增强智能体强化学习;作为统一基础模型,世界模型训练可有效预热下游7个智能体基准的性能。
计算机科学 > 计算与语言
标题:Qwen-AgentWorld:面向通用智能体的语言世界模型
摘要:世界模型根据当前观测和动作预测环境动态,是推理和规划的核心认知机制。在这项工作中,我们研究了基于语言模型的世界建模如何进一步推动通用智能体的能力边界。(i)我们首先专注于构建智能体环境模拟的基础模型。我们推出了 Qwen-AgentWorld-35B-A3B 和 Qwen-AgentWorld-397B-A17B,这是首批能够通过长链式推理模拟涵盖 7 个领域智能体环境的语言世界模型。利用超过 1000 万条来自真实环境、覆盖 7 个领域的环境交互轨迹,我们通过三阶段训练流程开发了 Qwen-AgentWorld:CPT 从状态转移动态和增强的专业语料库中注入通用世界建模能力,SFT 激活下一状态预测推理,RL 则通过一个结合了混合评分标准与规则奖励的定制框架来提升模拟保真度。为了评估语言世界模型,我们提出了 AgentWorldBench,这是一个基于 5 个前沿模型在 9 个既有基准上的真实交互构建的综合性基准。实验结果表明,Qwen-AgentWorld 显著优于现有的前沿模型。(ii)除了基础模型,我们进一步研究了世界模型增强通用智能体的两种互补范式。第一,作为解耦的环境模拟器,Qwen-AgentWorld 支持对数千个真实环境进行可扩展且可控的模拟,用于智能体强化学习,其收益超越了仅使用真实环境训练的效果。第二,作为统一的智能体基础模型,世界模型训练是一种非常有效的预热方法,能够提升 7 个智能体基准的下游性能。代码:this https URL
| 主题: | 计算与语言(cs.CL) |
| 引用方式: | arXiv:2606.24597 [cs.CL] |
| (或本版本:arXiv:2606.24597v1 [cs.CL]) | |
| https://doi.org/10.48550/arXiv.2606.24597 arXiv 通过 DataCite 分配的 DOI(注册中) |
访问论文:
- 查看 PDF
- HTML(实验性)
- TeX 源码
当前浏览上下文:
参考文献与引用
- NASA ADS
- Google Scholar
- Semantic Scholar
参考文献与引文工具
与本文相关的代码、数据与媒体
演示
推荐与搜索工具
- 作者
- 会议/期刊
- 机构
- 主题
arXivLabs:与社区合作者共同开展的实验项目
arXivLabs 是一个框架,允许合作者直接在我们的网站上开发和分享新的 arXiv 功能。
与 arXivLabs 合作的个人和组织都已接受并认同我们关于开放、社区、卓越和用户数据隐私的价值观。arXiv 致力于践行这些价值观,并且只与遵守这些价值观的合作伙伴合作。
您是否有一个能为 arXiv 社区带来价值的项目想法?了解更多关于 arXivLabs 的信息。