# 世界建模绝非像素渲染：Project Solaris发布多智能体视频世界模型

- 来源：Saining Xie (@sainingxie)
- 发布时间：2026-02-27 04:15
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnz6dpf302adsl0ff3olpcnz
- 原文链接：https://x.com/sainingxie/status/2027115356318474661

## 精选理由

从单视角到共享全局状态，开源多智能体世界模型或改变AI训练范式

## AI 摘要

Project Solaris提出世界建模的本质在于全局共享状态而非局部像素渲染，推出基于Minecraft的多人在线视频世界模型。该系统突破单智能体视角局限，支持任意数量智能体随时介入交互，实现持久化世界状态演化。核心包含三大组件：Solaris Engine多人数据收集系统、基于DiT架构的Solaris Model（采用新型内存高效自强制设计，训练于1260万帧协调游戏数据）、以及使用VLM评判的Solaris Eval评估体系。这一范式转变为构建神经MMORPG服务器奠定基础。

## 正文

世界建模从来都不是关于渲染像素的。

渲染是局部的。世界状态是全局的。只要存在超过一个智能体，唯一真正重要的就是各个视角之下的共享表征。那种共享表征才能扩展为集体能力。

这就是为什么我无比兴奋地分享 Project Solaris——我们专注于在 Minecraft 中构建多人视频世界模型的新工作。

本次发布包含三个主要部分。 1️⃣ Solaris Engine，一个功能完备的多人数据采集系统，内置可视化。团队为此投入了大量精力，因为目前还没有类似的东西存在。 https://github.com/solaris-wm/solaris-engine 2️⃣ Solaris Model，一个多人 DiT，采用新的内存高效 self‑forcing 设计，在 1260 万帧协同 Minecraft 游戏数据上训练。 https://github.com/solaris-wm/solaris 3️⃣ Solaris Eval，使用一个 VLM 作为裁判来评估不同的多人能力。

阅读 @ojmichel4 的完整技术解析，并开始用 Solaris 构建吧。

https://solaris-wm.github.io/

### 引用推文

> Oscar Michel：📢Current world models aren't really modeling the world; they're modeling one agent's view of it. Partial observations ≠ world state. Future world models will b...
