字节 Seed:Research Papers(网页内嵌数据)
GR-RL:实现灵巧精准的长程机器人操作
AI 摘要
GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.orgGR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。
该来源未收录可展示正文,站内仅提供摘要。
GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。
该来源未收录可展示正文,站内仅提供摘要。
阅读原文arxiv.org