Berryxia.AI@berryxia

精选78

2026-06-25 00:24·11小时前

精选理由

这是我最近看到最有想法的Agent方向探索，直接从环境建模入手，而不是让模型死记硬背操作，且零样本迁移能力很惊艳，做Agent的开发者必读。

AI 摘要

Qwen-AgentWorld是一个原生语言世界模型，端到端以环境建模为训练目标，而非事后适配。它在单一模型中模拟MCP、Search、Terminal、SWE、Web、OS、Android等7种Agent环境，并在AgentWorldBench上超越Claude Opus 4.8和GPT-5.4。两个探索方向：1）将世界模型用作可控Sim RL的环境模拟器，模拟环境训练的Agent在部分任务上超过真实环境训练；2）仅做环境预测（不进行Agent训练）的预测能力零微调迁移到多轮Agent任务，在多个benchmark上均有提升。已开源35B MoE版本及对应benchmark。

AI 翻译 · 中文

Qwen直接训了一个能模拟7种Agent环境的语言世界模型，叫Qwen-AgentWorld。

它不是先训Agent再加环境，而是从头就把“环境建模”当成核心训练目标。

模型要学会预测终端会输出什么、网页会怎么变、代码执行后状态如何变化，而不是只学会怎么去操作。

他们做了两个方向的探索：

一个是把世界模型做成高质量的环境模拟器，用来跑可控的Sim RL，结果发现用模拟环境训练的Agent，在某些任务上甚至能超过真实环境训练的Agent。

另一个更有意思：单纯让模型做环境预测（不做任何Agent训练），这个预测能力居然能直接迁移到真实的多轮Agent任务上，在多个benchmark上都有明显提升，包括一些完全没见过的领域。

Qwen这次开源了35B的MoE版本和对应的benchmark。

核心思路很清晰：想让Agent变强，先让它真正“懂”环境，不只是只教它怎么行动。

[引用 @Alibaba_Qwen]：📣📣 认识一下 Qwen-AgentWorld——一个原生的语言世界模型，能够在单一模型内模拟 7 种 Agent 环境（MCP、Search、Terminal、SWE、Web、OS、Android）。环境建模从一开始就是训练目标，而非事后适配。

🤔 大语言模型被训练成更好的 Agent——更擅长在环境中行动。但没有人训练它们去建模环境本身。

🗺️ 我们的路线图：探究语言世界建模如何推动通用 Agent 能力的边界，沿着两条路径：

1️⃣ 构建用于环境模拟的基础模型——在 AgentWorldBench 上超越 Claude Opus 4.8 和 GPT-5.4

2️⃣ 探究世界建模如何增强 Agent 训练： 🔬 可控 Sim RL（以 LWM 作为环境的智能体 RL）超越了在真实环境中的训练 🧠 学习预测环境（LWM 预热）使 Agent 变得更强——值得注意的是，即使没有任何针对 Agent 的训练，这种预测知识也能零微调迁移到智能体任务上

📑 Paper: https://arxiv.org/abs/2606.24597 📖 Blog: https://qwen.ai/blog?id=qwen-agentworld 💻 GitHub: https://github.com/QwenLM/Qwen-AgentWorld 🤗 HuggingFace: https://huggingface.co/collections/Qwen/qwen-agentworld 🧩 ModelScope: https://modelscope.cn/collections/Qwen/Qwen-AgentWorld

Qwen📣📣 Meet Qwen-AgentWorld - a native language world model that simulates 7 agent environments (MCP, Search, Terminal, SWE, Web, OS, Android) within a single mod...

智能体开源生态模型发布

在 X 查看原推

Berryxia.AI@berryxia · X