WBench:面向交互式世界模型评估的多轮基准
阅读原文· arxiv.org视频世界模型的评估终于有了统一尺度,WBench 从画面质量到物理一致性覆盖五个维度,289 个测试用例把 20 个模型拉平一看,没有谁全面领先,做这方向的值得拿来跑一遍。
WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架,涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互,覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标,所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现,目前尚无模型在所有维度上表现均优。
交互式世界模型发展迅速,但现有基准仅覆盖了部分所需能力,缺乏统一的系统评估标准。为填补这一空白,我们推出了 WBench,这是一个全面的多轮交互式世界模型评估基准,涵盖五个维度:视频质量、设定遵循度、交互遵循度、一致性和物理合规性。WBench 包含 289 个测试用例和 1,058 次交互轮次,每个用例指定一个世界设定和一个多轮交互序列,覆盖多样化的场景、风格、主体,以及第一人称和第三人称视角,同时包含四种交互类型:导航、主体动作、事件编辑和视角切换。在导航方面,WBench 统一了文本、六自由度位姿和离散动作控制,支持评估具有不同原生输入接口的模型。评估使用 22 项自动子度量,结合了专用视觉模型与大型多模态模型,所有度量均通过人工评判进行了验证。在 20 个最先进的模型上,我们发现没有单一模型在所有维度上表现强劲。我们提供了详细的诊断性洞察,揭示了每个模型的特征性优势、劣势以及尚未解决的挑战。代码和数据可在 https://github.com/meituan-longcat/WBench 获取。