6月22日

22:00

公众号：百度智能云（文心）

百度智能云亮相张江EAI：百舸AI Infra加速具身模型，安全方案护航产业落地

6月16日至17日，2026张江EAI大会上，百度智能云展示百度百舸全栈AI Infra平台，针对VLA和WAM模型优化训练与推理，将开源WAM模型推理延迟降至原来的1/2甚至1/4；与上海交通大学合作的AHA-WAM模型延迟压缩至约41毫秒。百度智能云还总结具身智能三类核心安全风险（远程劫持、知识产权泄露、行为决策诱导），推出体系化安全解决方案。同时，人形机器人产业创新联盟已集聚120余家成员，百度智能云与宇树科技、乐聚机器人等获授牌。

具身智能行业动态部署/工程

6月19日

00:22

Anthropic：Research（发表成果 · 网页）

精选77

Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中，配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中，Claude Opus 4.7 无需人类协助即完成所有任务，速度比最快人类团队快约20倍，比无 Claude 团队快37倍以上，编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色，但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化，而非针对机器人领域的专项优化。

智能体 Anthropic 具身智能论文/研究

关联讨论 1 条

推荐理由：Anthropic 用 Claude Opus 4.7 自主操作机器狗，比当初的人类志愿者快 18-37 倍，代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条，做具身智能和 agent 的人都该看一眼。

6月17日

23:43

Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face 具身智能多模态模型发布

推荐理由：MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

18:39

Hugging Face：Blog（RSS）

精选66

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face 产品更新具身智能开源生态

推荐理由：AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里，代码几乎不变就能从模拟切到物理机器人，对具身智能开发者是省掉胶水代码的实用工具。

6月16日

19:30

公众号：生数科技（Vidu·视频）

生数科技携手光轮智能，推动世界模型走向真实世界

6月15日，生数科技与光轮智能宣布战略合作，围绕通用世界模型的数据标准、评测体系与场景落地深度协同。生数科技以世界行动模型MotuBrain为核心，打造具身智能通用大脑；光轮智能依托“求解—测量—生成”全栈仿真平台RoboFinals，提供数据与评测基础设施。双方将共同推进面向物理世界的数据体系、可复现评测闭环及从仿真到真机的产业验证，加速世界模型从数字走向真实场景。

具身智能行业动态

14:30

公众号：通义实验室（千问）

Qwen-Robot 发布：打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot，包含三个基础模型：Qwen-RobotNav 以单套权重统一五类导航任务，五项基准达 SOTA，零样本部署于宇树 Go2 机器人（推理延迟 196ms）；Qwen-RobotManip 基于 Qwen3.5-4B VL，采用 80 维状态-动作统一表示，利用超 38,100 小时开源数据训练，在多个操作基准超越 π0.5；Qwen-RobotWorld 以 860 万视频-文本对训练，通过自然语言动作接口统一 20 余种本体，多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用，实现物理智能体闭环。

具身智能多模态模型发布

关联讨论 3 条

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

12:39

Qwen：Blog Retrieval（API）

精选72

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布

关联讨论 3 条

推荐理由：具身智能的世界模型长期受限于单一形态，Qwen-RobotWorld用语言统一动作接口，把操作、驾驶、导航合训，多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号，做机器人的别错过。

12:39

Qwen：Blog Retrieval（API）

Qwen-Robot Suite：面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务，在 VLN-CE RxR 上达 76.5% SR，HM3Dv2 物体目标导航（仅 RGB）75.6% SR，EVT-Bench 追踪率 90.0%，NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体，预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布

关联讨论 3 条

12:39

Qwen：Blog Retrieval（API）

同事件精选70

Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上，无需环境微调。

具身智能模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：把导航任务看作上下文配置问题，单一模型覆盖从跟随指令到自动驾驶五种任务，在四足机器人上零样本部署，具身智能的工程化样本。

6月15日