AFUN: 迈向功能理解的可供性基础模型
阅读原文· arxiv.org在 affordance 基础模型方向做出一步,跨 8 个测试集大幅超越基线,并可直接部署到真实机器人,对具身智能的通用化是个值得关注的信号。
AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发,能同时预测任务条件的功能掩码(where)和3D接触后运动曲线(how)。为实现开放世界泛化,该研究构建了一个大规模标准化数据管道,整合了机器人、人类、仿真与真实扫描数据。评估结果显示,AFUN在可供性分割任务上,于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3;在接触点预测上,命中率比最佳基线高出12.7%–61.3%;在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。
功能理解连接了视觉感知与物理动作,为在开放、非结构化的真实世界环境中进行机器人操作提供了一个可解释的接口。然而,构建一个不仅能理解交互应在何处及如何发生,还能跨不同环境、物体和任务进行泛化的功能基础模型,仍然是一个长期的研究挑战。现有方法通常只解决这一挑战的某一部分,要么定位任务相关区域而不指定可执行的运动,要么预测运动但可扩展性有限。在本文中,我们提出了 ourmodel,朝着用于功能理解的功能基础模型迈出了一步。从单张 RGB-D 观测图像和一条语言任务描述出发,ourmodel 预测一个任务条件功能掩码(在何处交互)和一个 3D 接触后运动曲线(如何交互)。为了支持开放世界泛化,我们构建了一个大规模标准化数据流水线,将异构的机器人、人类、仿真和真实世界扫描数据转换为一个共享的功能模式,包含语言、掩码和以物体为中心的 3D 运动标签。我们从三个方面评估 ourmodel:在功能分割方面,ourmodel 在来自 4 个基准的 8 个测试集上以较大优势优于所有基线,平均 gIoU/cIoU 提高了 +23.9/+26.3;在接触点预测方面,它预测的点显著更准确,相比最佳基线命中率提升 12.7%–61.3%;在 3D 运动方面,它在所有三个测试集上均取得了最佳性能。ourmodel 可以直接部署到真实世界的机器人操作中,无需针对机器人本体进行微调,也无需使用任务特定的启发式方法,展示出适应开放世界功能任务的能力。项目页面:https://www.zhaoningwang.com/AFUN