字节 Seed：Research Feed（网页内嵌数据）

GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

2025-12-02 00:00·213天前

AI 摘要

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

该来源未收录可展示正文，站内仅提供摘要。

具身智能数据/训练论文/研究

阅读原文导出 Markdown

字节 Seed：Research Feed（网页内嵌数据）

导出 Markdown