自动驾驶需推理自车动作如何影响世界演化,现有端到端方法依赖直接状态-动作映射,缺乏对动作条件动力学的显式建模;连续潜空间世界模型缺乏组合因果推理。Discrete-WAM提出统一潜视觉-动作世界策略,将未来视觉状态与自车动作表示为对齐的离散token,在离散扩散框架内联合实现世界建模、世界-动作策略和层级决策策略,支持跨替代未来的组合因果推理与可控生成。在大规模自动驾驶基准上取得有竞争力的性能。
自动驾驶需推理自车动作如何影响世界演化,现有端到端方法依赖直接状态-动作映射,缺乏对动作条件动力学的显式建模;连续潜空间世界模型缺乏组合因果推理。Discrete-WAM提出统一潜视觉-动作世界策略,将未来视觉状态与自车动作表示为对齐的离散token,在离散扩散框架内联合实现世界建模、世界-动作策略和层级决策策略,支持跨替代未来的组合因果推理与可控生成。在大规模自动驾驶基准上取得有竞争力的性能。
WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。
6月5日,海尔在2026上海老博会上通过新品牌Haier care推出行业首套AI未来智慧养老方案,首次展出三大AI陪伴机器人:具身服务机器人(自主开关冰箱、洗衣)、家务机器人(AI视觉识别收纳清洁)、陪伴机器人(跌倒监测、服药提醒、联系家人)。失能人群方案包括天悦超低电动护理床(离地15cm)、体征监测护理床、步入式浴缸、下肢运动康复机及AI智驾轮椅机器人(自动定速巡航、避障、跟随)。同步推出九大AI健康管理方案,覆盖心血管、按摩、渐冻症呼吸护理等。现场展示海尔关爱智能床S1、双助扶手马桶、电动助行器、微高压氧舱等产品。
VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。
针对视觉-语言-动作(VLA)模型部署成本高的问题,WIZARD提出权重空间元学习框架,仅需语言指令和简短演示视频,在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数,无需动作标签或测试时优化。在LIBERO上,WIZARD在未见过数据集集合上性能提升最高约2倍,在未见过任务上最高约14倍;在Franka Emika Panda真实机器人上,WIZARD持续优于域适应基线。
TBD-VLA是一种基于离散token的视觉-语言-动作(VLA)框架,通过引入块扩散(block diffusion)实现时序动作生成。该方法将动作序列划分为时间块,在块内进行掩码离散扩散,块间保持自回归生成,统一了时序自回归与并行动作解码,兼顾时序连贯性与推理速度。此外,显式时序建模支持通过时间修复实现动作块的异步执行(如实时分块)。TBD-VLA在模拟和真实操控任务中显著优于此前VLA方法。
AnchorWorld 提出一种具身自我中心世界模拟框架,通过增强交互完整性与灵活的世界定制机制提升实际场景可控性。该框架以 3D 人体运动为主要交互模态,引入与第一人称传感器解耦的外部视角辅助监督,使模型能观察全身相对环境的定位,从而稳健建模人-世界交互。此外,在世界坐标系内定义锚定视图并配合描述局部场景演变的文本,实现简单有效的世界自我演进定制。实验结果显示,AnchorWorld 显著优于现有基线,消融研究验证了关键设计的有效性,定制方案展现出良好的时空几何一致性并严格遵循预设演化规则。
LIMMT 提出首个以数据为中心的人形运动跟踪框架,从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明,仅用不到 3% 的 AMASS 数据集训练,跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗,验证了数据质量驱动的有效性。
Stream3D-VLM 是一种在线3D视觉语言模型,能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应,通过轻量级Visual-Spatial Feature Integration(VSFI)模块逐步注入时序对齐的几何先验,并提出Geometry-Adaptive Voxel Compression(GAVC)模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺,构建了超过1M在线时空3D问答对的数据生成流程,并建立涵盖29个任务的benchmark。实验显示,该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。
澳大利亚Luyten公司发布全球首款机器人塔吊式起重机平台Ascend,将塔吊结构、机器人技术、3D混凝土打印及AI整合。系统工作半径45米,支撑结构最高100米,安装调试仅需1-2天。通过AI生成打印路径、优化流程并实时监控,配合专用Ultimatecrete打印混凝土,旨在减少人工依赖和模板需求,提升材料利用率。
亚马逊宣布了新版本的完全自主仓库机器人 Proteus,新增语言交互能力。借助 AI 升级,人类员工可以像与同事交谈一样向 Proteus 分配任务,无需再使用专用软件指挥这款用于搬运重物和大推车的地面机器人。此前工人必须通过代码操作该乌龟型系统。
亚马逊发布新版完全自主仓储机器人 Proteus,员工可通过自然语言直接向其分配任务,无需代码或专门软件。Proteus 贴近地面、形似乌龟,负责重物搬运和移动大型推车,能自行判断优先级、路线和时间安排。其活动范围从装卸区大幅扩展至任何需移动物品的地方。新系统目前在亚马逊实验室试点,计划 2027 年上半年部署到欧洲。此外,亚马逊还计划将触觉机器人 Vulcan 及协作式周转箱处理系统推广至更多站点。
GRAIL是一个全虚拟数字生成管线,利用3D资产、仿真就绪场景和视频基础模型先验,合成人形机器人交互数据,无需物理环境重建或遥操作。管线在视频生成前已知物体几何、相机参数、度量尺度、环境深度和机器人比例角色,从而更好地约束4D重建,通过基于模型的物体跟踪、人体运动估计和交互感知优化,恢复度量4D人-物交互轨迹。GRAIL生成超过20,000个序列,涵盖拾取、物体操作、坐着和地形穿越。仅使用GRAIL数据训练的自我中心视觉策略,通过仿真到真实迁移部署到宇树G1人形机器人,实现了84%物体拾取成功率和90%爬楼梯成功率。
26岁四川小伙吴宇飞带着八台宇树机器人登上当地时间6月2日晚播出的《美国达人秀》舞台,与机器人共同起舞,获得评委全票通过,晋级下一轮。评委惊叹“太了不起,太壮观了”。
6月4日,特斯拉在得克萨斯州奥斯汀都会区正式推出无安全员自动驾驶出租车服务。马斯克将此项业务视为公司增长战略的关键一环。该服务已试运行近一年,用户时常面临超30分钟的候车时长。目前特斯拉在当地投入约50辆运营车辆,而Waymo在同一区域部署了超250辆。马斯克预计无安全员全自动驾驶车型将于今年晚些时候在美国大范围普及。
ActiveMimic 是一个预训练框架,从单个人体佩戴的 RGB 摄像头中恢复同步的相机和手腕轨迹,将相机运动建模为视角动作,从而在野外第一人称人类视频上联合学习主动感知和操作能力,再迁移至目标机器人。跨任务真实世界实验表明,ActiveMimic 持续超越基于人类视频预训练的基线,并达到与基于机器人数据预训练的 SOTA 模型相当的性能。进一步分析确认主动感知能力源自第一人称视频预训练,而非机器人微调。
针对视觉语言模型(VLM)难以处理连续值输出(如事件时间边界定位、机器人控制动作生成)的问题,研究者提出DRIFT框架。该框架通过基础预测器提供粗略估计,并结合基于流匹配的生成式精化模块迭代优化预测结果。残差公式将生成建模从学习全局输出分布简化为在强先验附近拟合局部残差分布,显著降低优化难度。在视觉定位和机器人控制等任务上,DRIFT在多种架构(MLLM、VLA、WAM)中均持续优于强回归与生成基线方法。
本文认为通用机器人智能常被简化为策略缩放问题,但核心瓶颈并非策略学习,而是缺乏将人类运动、互联网视频等非结构化行为数据转化为具身监督信号的机制。研究者识别出四个缺失接口:自动标注非结构化行为的数据接口、重定向人类运动至机器人动作的具身接口、基于物理的3D推理世界模型接口,以及从视频和语言推断任务进度与成功的奖励接口。文章梳理了机器人基础模型、视频学习等进展,并提出构建能从更广泛物理世界学习的机器人系统研究议程。
视觉-语言模型(VLM)在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL(基于强化学习的VLM策略)与Astra-WM(基于Bagel的世界模拟器)耦合,后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习,训练模型仅在想象观测优于直接回答时调用模拟器。实验显示,Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5;Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。
AURA-Mem是一种恒定大小的递归记忆机制,专为机器人策略设计。它包装了一个冻结的视觉-语言-动作主干(7B参数),通过学习门控仅在当前观测会改变下一步动作时写入记忆。推理状态固定为4,224字节,而KV-cache在100,000步时大6,061倍。在LIBERO-Long上,门控策略未降低成功率(0.233),略优于始终写入的KV臂(0.217),同时写入次数减少7.0倍。在合成基准上,AURA-Mem匹配最佳O(1)基线精度,写入次数减少5.19–6.13倍,而随机或周期调度无法复现该增益。
Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 reachy-mini-conversation-app tool-spaces add 命令即可从 Hugging Face Spaces 安装远程工具(如搜索、天气),并自动启用至当前 profile 的 tools.txt 中。内置工具(头部动作、跳舞、表情、摄像头等)仍为本地 Python 代码,远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用,不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力,便于发布、共享和迭代,无需修改应用本身。支持 install、list、remove 等子命令。
华为联合天津港发布新一代港口智能水平运输系统解决方案,围绕“感、联、算、控”四大核心能力,融合多维感知、混行动态路径规划、虚拟红绿灯智能管控、AI全域交通态势研判等技术,实现ART(人工智能运输机器人)与人工集卡安全高效混行作业。该方案无需大规模土建改造,可适配全球绝大多数传统集装箱码头。截至目前,华为已服务全球100多个港口。
比亚迪集团执行副总裁李柯透露,比亚迪正在开发人形机器人,强调机器人的竞争在于制造能力、软件和硬件的整合,汽车相关 AI 能力与机器人具有同源性。若未来认为机器人可走向家庭,比亚迪将利用其经销商网络进行销售。此外,比亚迪计划打造开放平台,既可以自行研发,也可以与其他企业合作。接近比亚迪的人士也确认该公司确实已在研发人形机器人。
小鹏集团董事长何小鹏在GX智造工厂直播中透露,小鹏GX未公布海外定价即获中东等海外市场1000笔盲订。国内上市12小时大定超2.4万辆,限时起售价26.98万元,提供纯电和超级增程动力。何小鹏判断全球L3级自动驾驶将于明年Q1实施,小鹏第二代VLA正海外测试。针对热销致提车周期延长,他否认“加价2万插队”传言,并称已成立专项督战小组加速提产。
浙江人形机器人创新中心与百度智能云合作,推动人形机器人产业落地。浙江人形推出国内首个全尺寸双足人形机器人NAVIAI-I2(41个自由度,亚毫米级操作精度)及面向超精密装配的NAVIAI-WA1;“领航者2号”在2025国际人形机器人技能大赛获商用场景冠军,单次抓取平均12秒、准确率100%。百度智能云通过百舸平台提供GPU算力调度与模型训推加速,并搭建Real2Sim2Real仿真通道,支持数据标注。已实现与杰克科技签约2000台订单、联合方太发布机器人总厨,以及康养场景喂饭喂水陪护服务验证。
Momenta 已获无锡市智能网联汽车道路测试与示范应用许可,今年 1 月启动当地测试。计划 2026 年在全球多新城市及区域落地高阶自动驾驶,此前已在上海、苏州、慕尼黑、阿布扎比等地运营 Robotaxi,并拓展欧洲、新加坡、日本等市场。技术方面,上半年发布 R7 强化学习世界模型,应用于 L4 级实践。生态上与 Uber、Grab、梅赛德斯-奔驰等合作。量产智驾方案搭载量超 80 万台,交付车型超 70 款,定点车型超 200 款,覆盖十余个国家和地区。
6月1日,新疆一景区的人形机器人在表演时踢中一名围观儿童腹部,致其捂腹坐地。孩子母亲称已报警处理,但对负责人态度不满,所幸孩子无大碍。涉事机器人由园区人员遥控操作,表演区域无围挡或警戒线。相关话题一度登上微博热搜第一,网友就景区、家长及操控方责任归属展开激烈讨论。
NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。
据报道,赛力斯与字节跳动合作的新车品牌“赛豆”,预计其智能驾驶方案将由元戎启行提供。元戎启行已与长城汽车、零跑等多家车企合作,搭载其方案的车辆达30万辆。该公司已完成8轮融资,累计金额超10亿美元。“赛豆科技”首款跨界车型预计今年内推出,提供纯电与增程双动力,新品牌计划于6月发布。知情人士表示,该车智驾方案预计不会采用华为乾崑。
智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。
Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。
OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型,使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作,自回归地实时生成动作条件化的逼真传感器视频,可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中,作为高响应性环境。初步结果显示,基于OmniDreams后训练的世界-动作模型(WAM)在Physical AI自动驾驶NuRec数据集上,仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。
微软在 Build 2026 发布专为 AI 智能体打造的操作系统“Project Solara”。该系统基于 Android 定制,旨在运行于小型低功耗设备。现场同步展示了桌面终端和可穿戴智能胸牌两款概念设备,作为硬件厂商的参考设计。
世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。
AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发,能同时预测任务条件的功能掩码(where)和3D接触后运动曲线(how)。为实现开放世界泛化,该研究构建了一个大规模标准化数据管道,整合了机器人、人类、仿真与真实扫描数据。评估结果显示,AFUN在可供性分割任务上,于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3;在接触点预测上,命中率比最佳基线高出12.7%–61.3%;在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。
宇树科技与英伟达合作推出新一代人形机器人参考设计“H2 Plus”,预计于今年下半年上市。该产品的核心特点是搭载了英伟达高性能算力平台,旨在为人形机器人提供更强大的“智能大脑”。此外,英伟达Isaac GR00T开发者平台也将支持宇树G1人形机器人。
强脑科技预计,随着中国人形机器人产业扩张,其机械手销量今年将大幅增长。公司合伙人何熙昱锦表示,宇树科技、乐聚机器人等数十家中国内地机器人公司正在采购其五指灵巧手,行业重心正转向真实应用场景。强脑科技最初为残障人士开发仿生手,如今利用脑机接口技术,致力于开发更接近人手灵巧度的机械手。该公司还在开发一种脑机接口治疗方案,预计2027年底或2028年上市,并认为脑机接口与具身智能的结合是未来重点。
东风天元智驾T200辅助驾驶系统发布城市NOA功能,已在奕派007+汽车OTA升级中上线。该系统首次采用依托国产地平线J6M芯片(128 TOPS算力)的端到端无图方案,配备4颗环视摄像头和12颗超声波雷达,支持拨杆变道、路口通行、环岛通行等八大能力,探测距离达200米,精度±5cm。系统终身免费使用。