WBench:面向交互式世界模型评估的多轮基准 · AI HOT