WBench：面向交互式世界模型评估的多轮基准

2026-05-25 08:00·39天前

精选理由

视频世界模型的评估终于有了统一尺度，WBench 从画面质量到物理一致性覆盖五个维度，289 个测试用例把 20 个模型拉平一看，没有谁全面领先，做这方向的值得拿来跑一遍。

AI 摘要

WBench 是一个用于系统评估交互式世界模型的多轮基准。它提出了一个五维评估框架，涵盖视频质量、场景设定遵循度、交互指令遵循度、一致性与物理符合性。该基准包含 289 个测试案例与 1,058 轮交互，覆盖了多样化的场景、风格、主体及第一/第三人称视角。评估使用 22 个结合专业视觉模型与大型多模态模型的自动子指标，所有指标均经过人工校验。对 20 个 SOTA 模型的评测发现，目前尚无模型在所有维度上表现均优。

AI 翻译 · 中文

交互式世界模型发展迅速，但现有基准仅覆盖了部分所需能力，缺乏统一的系统评估标准。为填补这一空白，我们推出了 WBench，这是一个全面的多轮交互式世界模型评估基准，涵盖五个维度：视频质量、设定遵循度、交互遵循度、一致性和物理合规性。WBench 包含 289 个测试用例和 1,058 次交互轮次，每个用例指定一个世界设定和一个多轮交互序列，覆盖多样化的场景、风格、主体，以及第一人称和第三人称视角，同时包含四种交互类型：导航、主体动作、事件编辑和视角切换。在导航方面，WBench 统一了文本、六自由度位姿和离散动作控制，支持评估具有不同原生输入接口的模型。评估使用 22 项自动子度量，结合了专用视觉模型与大型多模态模型，所有度量均通过人工评判进行了验证。在 20 个最先进的模型上，我们发现没有单一模型在所有维度上表现强劲。我们提供了详细的诊断性洞察，揭示了每个模型的特征性优势、劣势以及尚未解决的挑战。代码和数据可在 https://github.com/meituan-longcat/WBench 获取。

HuggingFace Daily Papers（社区热门论文）

精选70导出 Markdown

WBench：面向交互式世界模型评估的多轮基准

2026-05-25 08:00·39天前

阅读原文· arxiv.org

精选理由

AI 摘要

AI 翻译 · 中文

arXiv多模态视频论文/研究

阅读原文