现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。