# GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

- 来源：字节 Seed：Research Feed（网页内嵌数据）
- 发布时间：2025-12-02 00:00
- AIHOT 链接：https://aihot.virxact.com/items/cmnw1yzp701uaslc3zy5os7g7
- 原文链接：https://seed.bytedance.com/zh/blog/gr-rl-%E5%8F%91%E5%B8%83-%E7%AA%81%E7%A0%B4-vla-%E7%B2%BE%E7%BB%86%E6%93%8D%E4%BD%9C%E7%93%B6%E9%A2%88-%E9%A6%96%E6%AC%A1%E5%AE%9E%E7%8E%B0%E7%9C%9F%E6%9C%BA%E5%BC%BA%E5%8C%96%E5%AD%A6%E4%B9%A0%E7%A9%BF%E9%9E%8B%E5%B8%A6

## AI 摘要

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

## 正文

该来源未收录可展示正文，站内仅提供摘要。
