WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后,模型生成未来帧,使选定物体沿轨迹运动同时相机继续导航。其核心包括:Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影;Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力;Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制,保持相机保真度,并维持跨长自回归滚动的物体状态。