从单视角到共享全局状态,开源多智能体世界模型或改变AI训练范式
Project Solaris提出世界建模的本质在于全局共享状态而非局部像素渲染,推出基于Minecraft的多人在线视频世界模型。该系统突破单智能体视角局限,支持任意数量智能体随时介入交互,实现持久化世界状态演化。核心包含三大组件:Solaris Engine多人数据收集系统、基于DiT架构的Solaris Model(采用新型内存高效自强制设计,训练于1260万帧协调游戏数据)、以及使用VLM评判的Solaris Eval评估体系。这一范式转变为构建神经MMORPG服务器奠定基础。
世界建模从来都不是关于渲染像素的。
渲染是局部的。世界状态是全局的。只要存在超过一个智能体,唯一真正重要的就是各个视角之下的共享表征。那种共享表征才能扩展为集体能力。
这就是为什么我无比兴奋地分享 Project Solaris——我们专注于在 Minecraft 中构建多人视频世界模型的新工作。
本次发布包含三个主要部分。 1️⃣ Solaris Engine,一个功能完备的多人数据采集系统,内置可视化。团队为此投入了大量精力,因为目前还没有类似的东西存在。 https://github.com/solaris-wm/solaris-engine 2️⃣ Solaris Model,一个多人 DiT,采用新的内存高效 self‑forcing 设计,在 1260 万帧协同 Minecraft 游戏数据上训练。 https://github.com/solaris-wm/solaris 3️⃣ Solaris Eval,使用一个 VLM 作为裁判来评估不同的多人能力。
阅读 @ojmichel4 的完整技术解析,并开始用 Solaris 构建吧。
https://solaris-wm.github.io/