字节 Seed:Research Feed(网页内嵌数据)
GR-RL 发布:突破 VLA 精细操作瓶颈,首次实现真机强化学习穿鞋带
AI 摘要
字节跳动 Seed 团队发布 GR-RL,采用离线数据筛选结合在线真机微调的强化学习框架,突破 VLA 模型长时程精细操作瓶颈,首次实现机器人连续穿鞋带。相比前作 GR-3,成功率从 45.7% 提升至 83.3%,减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据,并在隐空间探索优化,解决模仿学习的数据次优性与执行错位问题,模型涌现出自纠错与场景调整能力。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文seed.bytedance.com