Qwen-AgentWorld 开源:让 Agent 学会"先预测,再行动"
Qwen-AgentWorld 把环境建模变成显式训练目标,让模型先预测再行动。超越 GPT-5.4 的基准结果加上开源,对做 Agent 工具链的团队是个新思路。
通义千问推出首个原生语言世界模型 Qwen-AgentWorld,覆盖 MCP、Search、Terminal、SWE、Web、OS、Android 七大领域。模型基于超 1000 万条真实交互轨迹,经 CPT→SFT→RL 三阶段训练,在 AgentWorldBench 上超越 GPT-5.4(58.25)和 Claude Opus 4.8,Qwen-AgentWorld-397B-A17B 取得 58.71 分。两种范式已验证其能力:作为解耦环境模拟器实现可控 Sim RL,在 WideSearch 上超越真实环境 RL(F1 50.3% vs 45.6%);作为智能体基础模型,LWM 预热可迁移至七个基准(三个完全未出现在训练集中)。模型与评测基准已开源。
公众号正文需在微信内阅读,站内仅提供摘要。
在微信中打开原文mp.weixin.qq.com