GE-Sim 2.0:面向机器人操作的全面闭环视频世界模拟器路线图
阅读原文· arxiv.org过去机器人策略训练卡在仿真到真机的鸿沟上,GE-Sim 2.0 把视频生成、状态提取和自动评估闭环了,策略迭代效率可能翻倍,搞具身智能的很值得蹲一下。
GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架,并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练,提升了动作跟随与轨迹覆盖能力。其核心新增三个模块:从视频潜变量解码本体感受状态的“状态专家”;为生成轨迹评分并提供成功信号与奖励的“世界评判”;以及能实现快速轨迹生成的加速框架。该模型仅2B参数,在WorldArena排行榜上位列第一,优于专用模型与闭源生成器,其训练出的策略能转化为实际世界性能提升。
我们推出 GE-Sim 2.0(Genie Envisioner 世界模拟器 2.0),一个面向机器人操作的闭环视频世界模拟器。
基于 Genie Envisioner 的动作条件视频生成框架,GE-Sim 2.0 在数千小时的真实机器人数据上重新训练,数据涵盖遥操作、密集接触交互以及机上策略部署,显著提升了动作跟随保真度和轨迹覆盖范围。
在此基础之上,三个新模块将视频模拟与策略学习连接成闭环:一个状态专家模块,从视频隐空间中解码本体感知状态,以支持下游 VLA 策略进行下一组块预测;一个世界裁判模块,根据任务指令对生成的展开序列进行评分,产生机器可验证的成功信号和奖励,替代人工检查;以及一个加速框架,在单个 H100 上以 2.3 秒生成 25 帧的展开序列,推理时支持最高 4 倍帧跳过以实现长程评估。
GE-Sim 2.0 以仅 2B 参数登顶公开的 WorldArena 排行榜,超越了专门的机器人世界模型和闭源通用视频生成器,并且基于其展开序列和奖励训练的策略可转化为可衡量的真实世界收益,从而将 GE-Sim 2.0 确立为用于可扩展评估与操作策略闭环学习的实用平台。