中国自动驾驶公司 Momenta 估值已升至约 90 亿美元,正筹备赴港上市,计划通过 IPO 募资约 10 亿美元。中国证监会于 6 月 10 日发出通知,批准 Momenta 在港最多发行 4375 万股的备案申请。Momenta 定位为自动驾驶汽车的“大脑”,向车企提供驾驶辅助解决方案。若成功上市,将成为继文远知行、小马智行后又一家赴港融资的中国自动驾驶初创企业。
中国自动驾驶公司 Momenta 估值已升至约 90 亿美元,正筹备赴港上市,计划通过 IPO 募资约 10 亿美元。中国证监会于 6 月 10 日发出通知,批准 Momenta 在港最多发行 4375 万股的备案申请。Momenta 定位为自动驾驶汽车的“大脑”,向车企提供驾驶辅助解决方案。若成功上市,将成为继文远知行、小马智行后又一家赴港融资的中国自动驾驶初创企业。
6月19日,银河通用推出全球首个人形机器人通用小脑GPT基础模型AstraBrain-WBC 0.5。该模型基于2万小时人类动作数据训练,参数规模达8040万,是行业首个达到GPT-1量级的人形机器人全身实时运控大模型。采用因果Transformer架构,将全身控制定义为连续序列预测问题。实验表明,训练数据从200万帧扩展至20亿帧时,成功率从83.26%提升至92.58%,零样本跟踪误差持续下降。
HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。
瑞典交通管理局建议,除非特斯拉移除FSD(监督版)的超速功能,否则欧盟不应批准其全面推广。该局已致函欧盟机动车技术委员会,委员会定于6月30日再次讨论并日后表决。FSD的“速度偏移”功能允许车辆超出法定限速,欧洲版不提供美版的多种驾驶模式。芬兰、挪威等北欧国家也表达担忧。目前荷兰、立陶宛、爱沙尼亚、丹麦、比利时已批准FSD,全面获批需至少15个成员国支持且人口占欧盟65%以上。
S-Agent 将空间推理视为时空证据积累,以 VLM 为语义规划器,通过分层空间工具和专家将 2D 物体提升为 3D 几何证据,聚合为计数、测量等高级空间知识;Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上,S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B,性能媲美 GPT-5.4 和 Gemini 3。
世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性,忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预,通过链式评估:摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型(9600个视频,覆盖四种控制范式)的测试表明,当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态,而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模,表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。
ENPIRE 提出一个闭环框架,让编码智能体通过环境(自动重置与验证)、策略改进、回滚(并行评估策略)和进化(分析日志、查阅文献、改进训练与算法代码)四个模块,自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程,在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率,并通过机器人集群加速迭代。
PoLAR 在潜在动作空间上施加径向结构,使半径编码过渡程度、方向保留过渡模式。利用两帧观测间的时间偏移作为过渡程度的弱代理,在双曲空间中实例化,借助其随半径膨胀的体积容纳更大程度下的多样化模式。在任务内和大规模预训练中,PoLAR 在仿真和真实机器人实验里提升了下游策略性能,优于潜在动作基线及强预训练 VLA 模型。
Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。
关联讨论 1 条X:Anthropic (@AnthropicAI)从游戏剪辑平台Medal剥离的AI初创公司General Intuition正洽谈约3亿美元融资,估值超20亿美元。本轮距其1.34亿美元种子轮仅8个月,投资方包括Jeff Bezos、Eric Schmidt及现有投资者Khosla Ventures、General Catalyst。公司利用Medal每年20亿条视频(来自1000万月活用户)训练具身AI与世界模型,通过第一人称交互数据实现空间-时间推理。OpenAI曾试图收购Medal。资金将用于扩大算力,计划夏末或初秋发布新产品。
工信部6月16日就《智能网联汽车自动驾驶系统安全要求》等2项强制性国标公开征求意见,公示至6月24日,建议2027年7月1日起实施。该标准系我国首部针对L3/L4的强制性国标,要求系统安全水平至少达到“合格且专注驾驶人”,引入Safety Case机制。L3重点规范人机交接,L4强调自身风险处置、不得依赖远程协助。新申请车型实施日起执行,已获批车型有约一年过渡期。
俄亥俄州都柏林市上月停用警察机器人DubBot。该机器人型号K5,高约1.52米、重约181千克,无四肢,两轮移动,用于360度监控及紧急呼叫。2025年7月起在停车楼巡逻,未促成任何逮捕、立案或罚单,也未发现需警察处理的事件。警方为此支付67548美元。原计划2年部署两台、合同总额238440美元,实际仅用一台,费用128080美元,Knightscope将退还60533美元。此前纽约地铁和圣安东尼奥机场部署的同款机器人也因技术问题或效率低下被停用。
MolmoMotion将运动预测形式化为目标条件的3D点运动预测:给定短视觉历史、物体上的3D查询点集和语言描述的目标,预测每个点的未来3D轨迹。研究包含三个组件:MolmoMotion-1M数据集(从116万段无约束视频中标注动作描述和3D点轨迹)、PointMotionBench人工验证基准(覆盖111类物体和61种运动类型)以及MolmoMotion模型(支持自回归坐标预测和流匹配轨迹生成)。该模型能根据语言指令预测多样化运动,在基准上显著超越现有方法,且学到的3D运动先验可迁移至机器人操作和视频生成。
6月18日,中国证监会公布Momenta境外发行上市备案通知书。Momenta拟发行不超过43754060股普通股并在香港联合交易所上市,完成境外发行上市后15个工作日内需通过备案管理信息系统报告发行情况。Momenta此前已于3月在香港秘密提交首次公开募股申请。
商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持,落实数码和智能产品购新政策,鼓励地方在消费品以旧换新框架内自主制定补贴,重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给,培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用,建设AI商品首发平台,举办“人工智能进万家”活动。
曹操出行在2026国际汽车及供应链博览会(香港)发布RoboX战略,提出“双十万计划”:到2030年累计部署10万辆Robotaxi与10万辆Robovan。公司宣布全面AI转型,已成立AI事业部,并与吉利远程新能源商用车战略合作推进Robovan规模化。2025年总收入202亿元,同比增长37.7%,覆盖国内195城,月活用户4130万。Robotaxi已部署超100辆,完全定制Robotaxi于2026年4月亮相,2027年量产。
6月18日,奔驰宣布轴向磁通电机在柏林工厂启动大规模量产。生产过程包含98道工序,其中65道为奔驰首次应用、35道全球首创,开发超30项新技术并提交专利申请。装配中“婚礼”环节需在9000牛磁力下将定子固定于磁中心平面,公差小于0.1毫米。全新AMG GT高性能四门跑车为首款量产搭载该电机的纯电车型,零百加速2.1秒,峰值功率860千瓦,峰值扭矩2000牛·米。
英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布,基于ENPIRE编码智能体框架,首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算,设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等,并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术,使爱好者可居家托管自动运行机器人实验室。
Vesta是一个统一的具身通用基础模型,将定位、空间推理、导航和长期规划能力整合于单一模型。通过大规模空间感知数据集和简单的多模态记忆机制,Vesta在多种基准测试中平均超过单个SOTA基线20%以上,并优于按类别最佳基线集成的结果10%以上。在需要记忆与推理的真实机器人任务中,Vesta将任务成功率提升35%以上,表明单一通用模型在可行性和可扩展性上优于多模型组合方案。
Qwen-RobotNav通过参数化接口支持多种任务模式(如指令跟随、目标搜索)和可控观察参数(模型token预算、每摄像头权重),训练时随机化所有参数,推理时无需修改骨干架构。模型在15.6M样本上训练,与视觉语言数据共同训练避免仅轨迹训练导致的崩溃。上层规划器可在回合中动态切换其任务模式与上下文策略,通过重复调用同一模型组合复杂行为。Qwen-RobotNav在多项导航基准上取得新最优结果,参数从2B扩展到8B表现出良好缩放规律,多任务联合训练形成跨任务家族共享的空间规划基板,并在真实机器人上展现强零样本泛化能力。
EventVLA是一种端到端机器人操作框架,其核心为稀疏视觉证据记忆,包含基础视觉锚点和动态关键帧证据记忆(KEM)模块。KEM从VLA潜在嵌入直接预测未来关键帧概率,自主捕获并存储任务关键的视觉事件,解决了标准VLA模型在长时程操作中因遮挡或不可观测导致的失败。研究还提出诊断基准RoboTwin-MeM。在17个需记忆的仿真任务和4个真实双臂任务上,EventVLA平均成功率比现有最优记忆增强VLA高出40%。
研究对比视觉语言模型(VLM)与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题,测试泛化能力。结果发现人类与VLM的回答存在差异,但地理来源对双方回答均无显著影响。数据集已公开。
World Action Models(WAM)是具身预测动作模型,通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界,从生成内容(渲染未来、潜在未来、无视频生成的动作推理)和设计维度(预测基质、骨干、动作耦合、部署机制)两个视角组织现有方法。分析表明:WAM并非仅带动作头的视频生成器,其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。
NVIDIA GEAR实验室联合卡内基梅隆大学和UC Berkeley开发了ENPIRE框架,让AI编码智能体自主训练机器人。测试了OpenAI Codex(GPT-5.5)、Anthropic Claude Code(Opus 4.7)和月之暗面Kimi Code(Kimi K2.6)。在Push-T、插针盒、剪扎带和GPU安装等任务中,智能体达到99%成功率;插针任务中AI智能体比人类参与方法更快接近100%。8个智能体协作2小时完成Push-T(4个需3小时,单个近5小时)。局限包括机器人闲置、智能体耗时总结彼此想法和token消耗高。团队将开源全部内容。
由自动驾驶领域连续创业者Oliver Cameron(CEO)和Jeff Hawke(CTO)联合创立的世界模型AI公司Odyssey完成3.1亿美元B轮融资,估值14.5亿美元。本轮由Natural Capital领投,Amazon、AMD Ventures、GV等跟投。Odyssey成立于2023年,其世界模型通过人员背负相机采集物理世界数据并模拟真实物理效果。公司提供面向游戏制作和机器人等场景的多款世界模型,以从文本提示生成交互视频而知名。AWS成为首选云服务商,模型将针对AWS Trainium芯片优化。天使投资者包括Jeff Dean、Elad Gil等,累计融资3.37亿美元。
MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。
Nvidia、卡内基梅隆大学和 UC Berkeley 联合开发的 ENPIRE 项目,利用 AI 编程智能体让机器人在现实世界中自主进行灵巧抓取训练。8 台双臂 YAM 机器人通过 Git 共享试验结果,智能体自主编写奖励函数、阅读论文并编辑训练代码。在 Push-T 测试、插针和剪扎带等任务上最高达 99% 成功率;从 1 个智能体扩展到 8 个后,Push-T 完成时间从约 5 小时降至 2 小时,插针从 90 分钟降至约 40 分钟。测试了 Codex(GPT-5.5)、Claude Code(Opus 4.7)和 Kimi Code(Kimi K2.6),Codex 表现最佳。现实环境仍比模拟困难,但该方法为机器人自主改进提供了可行路径。
机器人训练数据初创公司XDOF结束隐身,获Thrive Capital、a16z等7000万美元投资。公司为AI实验室和机器人公司构建数据管道、采集工具和标注系统,填补物理交互训练数据缺口。XDOF联合UC Berkeley发布ABC数据集,含13万条机器人操作轨迹、300小时仿真数据及100小时评估数据,号称迄今最大高质量机器人训练数据集。公司计划通过三层数据金字塔采集数据,已与20家客户合作。
京津冀首个万台级具身智能机器人超级工厂(领益智造北京具身智能超级工厂)近日规模投用。工厂覆盖核心零部件到整机组装全链条制造,模组自动组装线采用力觉+视觉双引导精密装配,换型时间小于15分钟;整机总装自动流水线实现节拍式装配。测试体系配备行业首创的整机环形吊轨测试线,可同时承载6-12台机器人,较传统线体节能约25%。质量管理通过自研MES、WMS、QMS系统实现全流程数字化追溯,每台机器绑定唯一SN码,24小时内完成质量闭环。根据规划,年产能逐步爬坡,预计2030年达50万台套。
詹锟在理想汽车Livis Day上表示,国内除特斯拉FSD外暂无智驾系统能入第一梯队。他于2026年5月赴美体验FSD V14.3后坦言差距真实。理想公布下半年路线:第三季度向AD Max车型推送马赫VLA新版本,第四季度全场景智驾对齐FSD V14。目前L9 Livis搭载马赫VLA 2.1,基于自研5nm马赫M100芯片(单芯1280 TOPS,双芯2560 TOPS)。小鹏何小鹏此前称其VLA将于2026年8月达FSD V14.2的硅谷效果。
AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。
法国初创公司 Genesis AI(获前 Google CEO Eric Schmidt 支持)推出机器人 Eno。该机器人被设计为“通用型”而非单一任务专用,外观没有头部和腿部,采用轮式底座且可折叠,但双手精确匹配人类手部形态与功能以使用现有工具。Genesis 计划 2026 年底开始生产和客户部署,率先覆盖制造、实验室和物流,随后拓展至医院、酒店和消费者市场,并透露正在开发“额外形态”。
6月17日,Stellantis、Wayve、Uber宣布达成三方合作,共同探索在全球范围内开发和部署L4自动驾驶Robotaxi。Stellantis负责车辆制造与传感器集成,Wayve提供端到端AI自动驾驶软件,Uber则在其全球出行网络上部署Robotaxi并帮助扩大运营规模。三方计划联合开展车辆集成、测试、验证和部署,目标是为欧洲、北美等地区带来安全、可靠且可扩展的自动驾驶出行服务。
6月17日,星动纪元发布星动XHAND 1 PRO“大脑手”,采用全直驱21自由度设计。五指最大展开135°,包络抓握直径超160mm,可抓取篮球等大物体。整手搭载18个分布式触觉传感器及电容式压力传感器,测力区间0.1-25N,分辨率0.01N,支持厘米级非接触预检测。单关节背隙<±0.25mm,重复定位精度±0.1mm,循环测试超20万次。支持VR头显、动捕手套、外骨骼手套遥操作,兼容Ubuntu,SDK支持C++、Python、ROS 2,适配x86与ARM架构。
6 月 17 日,大晓机器人联合香港中文大学发布并开源具身操作 VLA 模型 ACE-Ego。在 RoboCasa GR1 TableTop 基准上,ACE-Ego 以 72.8% 平均成功率刷新纪录,超越英伟达 GR00T 等模型;在 RoboTwin 2.0 强域随机化测试中成功率达 90.62%。该模型已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期复杂零售操作。
现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。
在6月16日的2026张江具身智能开发者大会上,开普勒发布机械麒麟系列重载四足机器人。整机尺寸2175×800×1630mm,自重约300kg,满载近吨级。实测可搭载多名工程师、驮工业物料跑厂、牵引全尺寸商务车,并对接标准料盘。续航充电一次可连续行走8小时。另有骑乘款。后续将陆续开放更多实测与落地场景。
本周特斯拉向车辆推送监督版 FSD v14.3.4,但导航仍是最大短板。系统频繁拐错弯、错过高速出口、选低效路线、误报限速,因导航问题人工接管次数甚至超过基础操作。问题源于多源数据拼接冲突、难以从人工修正中学习、路线推理缺乏人类直觉。不靠谱的导航阻碍网约车落地、增加安全风险,并持续消耗消费者信任。
美国参议员马基与布卢门撒尔致函NHTSA,要求复核特斯拉FSD安全数据。特斯拉宣称FSD安全系数为人类7倍(550万英里一次重大碰撞 vs 手动66万英里),但路透社质疑其测算方法。参议员指出误导性数据可能导致驾驶员过度依赖,要求7月7日前回应数据核验、测算方法、5秒脱离窗口(行业标准30秒)及数据采集漏洞等4个问题。荷兰交通大臣依据RDW实测为FSD准入辩护:2400万公里无重大事故,安全性能为人类3.5倍。新泽西州正审议限制自动驾驶法案,特斯拉游说反对;其已在得州完成L4合规自认证并投放无人驾驶出租车。
为评估视觉-语言-动作模型微调后是否保留常识与事实知识,研究提出Act2Answer轻量协议,将知识评测转为动作答题:智能体通过单次物体放置动作选择答案,获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上,对7个VLA模型与9个VLM基线进行排名。结果显示,VLA在简单概念上表现稳健,但在语义丰富类别上与源VLM差距较大;VQA共训练与更好知识保留相关;答案相关信号在VLA中层最强,上层衰减。