Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

2026-06-17 23:26·3天前

精选理由

MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

AI 摘要

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

AI 翻译 · 中文

MolmoMotion：语言引导的 3D 运动预测

Enterprise Article

2026 年 6 月 17 日

Kyle Wiggers

Ai2Comms

allenai

🧠 Models: https://huggingface.co/collections/allenai/molmomotion | 📄 Tech Report: https://allenai.org/papers/molmomotion | 📊 Data: https://huggingface.co/datasets/allenai/molmo-motion-1m | 💻 Code: https://github.com/allenai/molmo-motion.git | 🌐 Project Page: https://molmomotion.github.io/

机器已经变得非常擅长感知运动。给定一段视频，现代模型能够以极高的置信度追踪物体和点在场景中的运动方式。但感知本质上是回顾性的：它解释已经发生的运动。而我们想要构建的许多系统和应用需要向前看。一个伸手抓杯子的机器人必须先预测杯子在被触碰之前会如何运动。一个视频生成器如果要生成物理上合理的帧，就必须知道接下来什么运动是合理的。

预测运动比观察运动更难，但在很多场景下也更为有用。

这个想法正是我们今天发布的全新运动预测模型 MolmoMotion 背后的动机。给定一帧视频、物体上标记的 3D 点以及描述预期动作的书面指令（例如“移动并旋转桌上装有水果的木碗”），MolmoMotion 会预测这些点在接下来几秒钟内在 3D 空间中的运动位置——其性能显著优于现有的预测方法。

给定一个 RGB 观测、一组物体上的查询点以及一段动作描述，MolmoMotion 会预测该物体未来的 3D 点轨迹。这些预测轨迹随后可用于驱动下游应用，例如机器人规划和轨迹条件视频生成。

除了模型之外，我们还发布了 MolmoMotion-1M，这是目前最大的与动作描述配对的 3D 点轨迹集合，来源于 116 万段视频。同时我们还发布了 PointMotionBench，这是一个经过人工验证的基准测试，旨在评估以物体为中心的 3D 运动预测精度，包含 2700 段视频片段。

我们发现，像 MolmoMotion 这样的运动预测器可以在一系列下游任务中发挥作用，从机器人规划到可控视频生成。我们公开了模型权重、MolmoMotion-1M 数据集以及 PointMotionBench 基准测试，供社区研究、改进和定制。

MolmoMotion：内部机制

MolmoMotion 以刻意且高效的方式表示运动：即作为世界空间中附着在物体上的 3D 点，这些点能在不渲染完整视频的情况下捕捉运动。我们选择这种表示方式，是因为我们需要一种具有以下三个属性的通用运动表示：

类别无关：不依赖于人体、手部、刚性物体或任何其他固定类别的模板。
视角稳定：相同的物理运动在不同摄像头和视角下应保持一致表示。
可直接被需要推理物理运动的下游系统使用。

在我们考虑过的各种表示方法中，这是唯一同时满足以上三个条件的。稀疏的表面点集可以描述刚性、铰接以及（在一定范围内）可变形运动，而无需假设被移动物体的类型。由于这些点位于共享的世界坐标系中，它们的轨迹在摄像头运动和视角变化时保持稳定。同时，由于它们是 3D 空间中紧凑的显式轨迹，可以直接传递给机器人策略或视频生成模型等系统。

为了预测这些轨迹，MolmoMotion 使用 Molmo 2 作为其主干模型，使其能够将语言指令与图像中的物体和点关联起来。给定一段短视频历史、一个动作描述以及一组带有初始 3D 位置的查询点，模型首先识别出所指的物体、查询点以及指令描述的运动，然后预测每个点未来的 3D 轨迹。

我们训练了 MolmoMotion 的两个变体：

自回归变体（MolmoMotion-AR）逐步预测未来的坐标。它将 3D 坐标表示为结构化文本，遵循视觉语言模型（VLM）使用的坐标式预测方式，并按照时间顺序写出未来的轨迹。由于每个新坐标都基于已生成的轨迹进行条件预测，这有助于实现平滑的展开，并在未来路径明确的情况下给出最高的准确率。
流匹配变体（MolmoMotion-FM）通过将噪声转化为运动来预测连续三维空间中的轨迹，这使得它在指令允许多个合理未来时，能够更好地表示不确定性。

MolmoMotion的架构。共享输入到Molmo 2主干网络的部分包括：RGB观测的图像token、动作描述的文本token，以及从Molmo 2视觉编码器中采样的二维查询点特征token。MolmoMotion-AR对初始的三维查询坐标进行编码，并将未来轨迹解码为量化的坐标文本；而MolmoMotion-FM则直接在连续的三维坐标空间中表示它们。

介绍MolmoMotion-1M和PointMotionBench

为了训练MolmoMotion，我们需要此前不存在的数据：大规模视频，其中包含与特定物体相关联的三维点轨迹，并配有动作描述。现有的三维跟踪数据集规模小且领域受限，而互联网视频虽然具有我们为MolmoMotion这样的预测模型所期望的规模和多样性，但它们不包含三维标注。因此，我们构建了一个自动流水线，能够从无约束视频中提取基于物体的三维轨迹。

给定一个输入视频及其动作描述，我们的标注流水线会在公制世界坐标系中生成基于物体的三维点轨迹。（下图展示了每个阶段。）挑战在于：从无约束视频中得到的原始轨迹带有噪声——深度和跟踪误差会导致点出现抖动和漂移——而且物体往往在视频的大部分时间里保持静止。为了使数据更可靠，我们过滤掉那些不与物体其余部分一致移动的点，平滑剩余轨迹，并将每个片段分割到物体实际移动的时间窗口内。

大规模运行我们的流水线产生了MolmoMotion-1M——据我们所知，这是迄今为止规模最大的、包含动作描述和基于物体三维点轨迹的语料库，涵盖736种运动类型和5600个不同的物体。

我们的数据标注流程概述。给定一段动作事件的视频及其描述，我们首先定位运动中的物体并在其上采样查询点。然后，我们对该物体上的密集二维点进行追踪，将这些轨迹提升到共享的度量三维框架中，并利用物体级别的时空一致性先验来过滤不可靠的轨迹。最后，我们截取视频中该定位物体发生有意义运动的时间段。

上方指令："移动并旋转装有水果的木碗。" 下方指令："用粘毛滚筒在蓝色布料上滚动。"

上方指令："一辆银色汽车沿道路行驶，并缓慢向右转弯。" 下方指令："一只火烈鸟将喙浸入水中，同时向右行走。"

为了评估 MolmoMotion 的预测性能，我们还构建了 PointMotionBench，这是一个经过人工验证的、包含保留三维轨迹的基准测试集。它涵盖 2700 个片段，涉及 111 个物体类别和 61 种运动类型，包括室内操作、第一人称视角的手-物交互以及室外动态场景。对于每个片段，模型会获得当前观测、物体查询点以及动作描述，然后根据其预测的三维点轨迹与物体实际未来运动的匹配准确度进行评估。这为我们提供了对三维运动预测的直接定量测试，而不是仅仅依赖生成的点轨迹看起来是否合理。

实验与性能

我们从三个方面评估 MolmoMotion。首先，测试它是否比现有方法更准确地预测未来的三维运动。其次，测试它所学的运动知识是否有助于机器人完成操作任务。第三，测试同样的知识能否帮助指导生成视频中的运动。

三维运动预测

在 PointMotionBench 上，MolmoMotion 在各类物体、场景和动作中均优于我们测试的所有现有三维运动预测方法——包括像素空间视频生成器、参数化三维方法以及简单的匀速基线模型。

MolmoMotion 能够预测多种物体与场景的运动，例如粘毛滚筒在布料上来回滚动、碗在桌面上滑动并旋转、火烈鸟向右行走时喙部浸入水中，以及汽车在转弯时沿道路行驶。在每种情况下，预测的轨迹都严格遵循赋予 MolmoMotion 的指令，并在我们的基准测试中与真实运动轨迹高度吻合。

下游评估：机器人规划

MolmoMotion 所习得的运动规律应能跨场景迁移——人类用手举起杯子和机器人夹爪举起杯子是截然不同的动作，但杯子本身在三维空间中的运动路径是相似的。这使得 MolmoMotion 天然适用于机器人领域，因为机器人在移动物体前必须先规划物体的运动方式。

在 DROID（一个大型开源真实机器人操作视频数据集）上进行微调后，我们发现 MolmoMotion 能够针对不同的物体、相机视角、场景和任务，在广泛的机器人规划场景中预测出合理的物体运动路径。

顶部指令：“从容器中取出布料。” 底部指令：“盖上锅盖。”

在仿真环境中，基于 MolmoMotion 构建的控制策略在拾取与放置任务中成功率达到 76.3%，而基于 Molmo 2 的同一策略仅为 56.0%——且学习速度更快，训练 10K 步后即达到 51%，而 Molmo 2 版本最高仅达 19%。在真实机器人上（微调后），MolmoMotion 仅需约 2K 训练步数即可达到 Molmo 2 基线在 12K 训练步数后实现的测试 L2 误差。

下游评估：视频生成

指令：“一只火烈鸟向右行走，同时将喙浸入水中。” 从上到下依次为：DaS + MolmoMotion、CogVideoX-5B 和 WAN-14B。

指令：“从桌子上拿起圆形浅棕色盘子。” 从上到下依次为：DaS + MolmoMotion、CogVideoX-5B 和 WAN-14B。

MolmoMotion 的预测路径同样可以引导视频生成。与其让图像转视频模型仅凭文本指令猜测运动，不如将 MolmoMotion 的预测结果输入模型。这样生成的视频能更紧密地遵循指令动作，尤其是对于提示词只能模糊描述的小而精密的运动。

评估指标也证实了这一点。当用于引导视频生成器时，MolmoMotion 在我们测量的全部五项运动相关指标上均优于基础模型，并在其中四项指标上击败了一个规模大得多的图像转视频模型。

局限性与未来方向

MolmoMotion 是一个功能强大的模型，但仍有一些局限性需要注意。在训练过程中，它对每个物体使用八个查询点——足以预测出有效的轨迹，但不足以密集地表征表面几何形状。这限制了模型处理复杂可变形运动的能力。

我们认为，预测——在物体移动之前预见它们将如何移动——对于机器智能来说，与感知已然存在的事物同样基础。MolmoMotion 正是朝着这一方向迈出的一步：它实现了跨物体类别的 3D 运动预测，无需每个类别的模板，仅从普通视频中学习，并且是我们在 PointMotionBench 上测量到的最精确的 3D 运动预测器。我们预计，机器人技术、视频领域及更多方向将由此催生众多应用。

我们鼓励你下载权重文件、查看训练数据，并在 PointMotionBench 上评估我们的方法，亲自尝试 MolmoMotion。

社区

· 或发表评论

Hugging Face具身智能多模态模型发布

阅读原文