# WBench：面向交互式视频世界模型的首个系统性多轮评测基准

- 来源：公众号：龙猫LongCat（美团）
- 作者：龙猫LongCat
- 发布时间：2026-06-11 19:58
- AIHOT 分数：54
- AIHOT 链接：https://aihot.virxact.com/items/cmqc6ig6700l9slt4fy9fv7sj
- 原文链接：https://mp.weixin.qq.com/s/tQFM4yay6wmIMnQ_dpDaoQ

## AI 摘要

美团 LongCat 团队推出 WBench，首个面向交互式视频世界模型的系统性多轮评测基准。包含 289 个测试案例、1058 个交互轮次，覆盖导航、主体动作、事件编辑、视角切换四种交互方式，从视频质量、设定遵循度、交互遵循度、一致性、物理真实性五维度评测 20 个前沿模型（包括 Kling 3.0、HY-World 1.5、Genie 3 等）。核心发现：无全能模型，导航能力与画质无关；多轮交互后所有模型性能下降，导航平均分下降 33 点；开源模型 HY-World 1.5 导航能力突出；视角切换最难（平均分 30.7）。WBench 已开源。

## 正文

公众号正文需在微信内阅读，站内仅提供摘要。
