LaWAM是一种潜在世界动作模型,通过在预训练视觉基础模型的特征空间中训练潜在动作模型,并利用其前向解码器预测未来观察特征,从而将预测动力学引入机器人策略,而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率,在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒,比像素空间WAMs降低24倍壁钟延迟。
LaWAM是一种潜在世界动作模型,通过在预训练视觉基础模型的特征空间中训练潜在动作模型,并利用其前向解码器预测未来观察特征,从而将预测动力学引入机器人策略,而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率,在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒,比像素空间WAMs降低24倍壁钟延迟。
通用汽车关停自动驾驶出租车子公司后,首席产品官斯特林·安德森表示,公司目前主攻乘用车自动驾驶,先攻克高速路段,再拓展至城市区域;未来技术也可用于无人驾驶网约车服务。
小马智行第七代 Robotaxi 及无人驾驶科技展区于 6 月 13 日至 16 日在 2026 重庆国际车展首次亮相。今年 4 月北京车展期间,官方宣布 2027 版 Robotaxi 整车总成本下探至 23 万元以内,将推出海外版本,目标部署千台以上。2026 年第一季度财报显示,总营收 2.36 亿元,同比增长 145.0%;Robotaxi 业务收入 5912 万元,同比增长 395.4%;乘客车费收入同比增长 456.5%。
我国首批自主研发的海洋工程柔性制造智能焊接机器人设备系统近日在天津投用。该系统专为油气平台组块节点等高难度焊接场景研发,设计寿命20年,最大承载30吨,核心软件与工艺库实现100%国产化。项目团队攻克多项技术难题,实现焊缝AI视觉识别、多层多道智能排道等10余项创新。机器人可一键启动自动完成焊接,具备智能纠偏、智能封底等功能。
马斯克在 X 上透露,特斯拉 AI6 芯片工程评审进展顺利,综合良率下有望创下单块晶圆可用算力纪录。AI6 仍处设计阶段,AI5 已完成流片,计划 2027 下半年量产,AI6 预计 2028 下半年投产。性能上,AI5 算力可达两块 AI4 总和的五倍,AI6 再翻倍。AI6 配备近半数 TRIP 加速器搭配 SRAM,主存采用 LPDDR6。特斯拉与三星合作由德州工厂代工,金额 165 亿美元。新一代芯片先用于 Optimus 机器人及超级计算机集群,再下放民用乘用车。
在2026中国汽车重庆论坛上,小鹏集团副总裁余鹏指出物理AI时代已到来,汽车智能的本质根基在于底盘,而非仅停留在智能座舱。小鹏去年7月发布“太极AI底盘”,具备AI智能识别减速带、颠簸路段、路面凹凸、障碍物以及6D防晕车功能共5项AI底盘能力。小鹏未来将持续加大原生AI架构研发投入。
提出检索增强的视觉-语言-动作(VLA)策略,训练一次后冻结,新任务通过在检索池中追加演示数据来适应,无需逐任务微调。在基于视频生成的世界动作模型(WAM)Cosmos Policy上效果尤其显著,检索提供粗粒度任务推进,未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线,并在真实机器人上完成验证。
面壁智能李大海在智源大会上表示,端侧智能是实现物理世界AGI的必由之路。MiniCPM端侧模型已落地汽车(长安马自达、吉利等)、手机、AIPC、具身智能、智能家居等领域。公司开源发布周展示全栈技术:UltraData数据治理体系、MiniCPM5-1B模型以1/200参数逼近两年前GPT-4o、ForgeTrain框架对比英伟达Megatron节省10%资源、BitCPM-CANN在国产算力跑通三值训练(推理节省6倍内存)、开源PilotDeck多智能体操作系统。面壁选择全栈开源,共建端侧生态。
6月12日,面壁智能在2026北京智源大会上展示端侧AI全栈技术。MiniCPM5-1B以1B参数在AA-Index上超越所有2B以下模型,相比Qwen3.5-2B效果更优且参数量减半,由全球首个完全AI编写的预训练框架ForgeTrain完成,训练速度比英伟达Megatron快10%。BitCPM-CANN是国内首个基于华为昇腾端到端训练并开源的三值(1.58-bit)大模型,推理阶段释放约6倍显存红利。面壁智能联合北京智源人工智能研究院、OpenBMB发起「智能体+硬件创新加速孵化器」,单项目最高500万综合投资。
小鹏集团副总裁余鹏在2026中国汽车重庆论坛上明确小鹏定位为“面向全球的具身智能公司”。飞行汽车并非孤立业务,而是与芯片、机器人共同构成AI技术协同矩阵。汽车上验证的AI底盘能力、全栈自研技术可复用至飞行汽车等终端,机器人操作经验也反哺汽车。今年3月,小鹏分体式飞行汽车批量试产下线,计划2026年内规模化量产。该产品采用分体式设计,陆行体为三轴六轮六驱全地形大空间车型,搭载航空级增程系统;飞行器可完全收纳进后备箱,具备垂直起降能力。
DragMesh-2提出接触驱动框架,将铰接物体交互从以物体为中心扩展为由手驱动的灵巧手交互,铰接运动必须通过物理接触产生。同时提出PICA——一种物理感知接触感知训练机制,无需触觉或力反馈即可注入物理信号,提升接触负载变化下的鲁棒性和任务成功率。在七个GAPartNet物体上的评估显示,DragMesh-2在多种阻尼条件下相比对比方法鲁棒性更强,同时保持高任务成功率。
RL4IL是一种强化学习引导的模仿学习方法,通过近端策略优化对广度优先搜索候选集排序,并利用软交叉注意力融合头部聚合
MotionVLA 基于 Qwen3.5,采用 DSFT 双流频率分词器将运动分解为 Base 流和 Physical 流,通过 DCT 截断和 BPE 独立压缩,并在统一序列中按 Base → Physical 顺序预测。在 HumanML3D 和 MBench 上,仅 2B 参数轻量级骨干即实现:HumanML3D 多样性差距降低超 50%,MBench 运动条件一致性提升 3.8%,证明频率感知双流解耦对自回归运动生成的有效性。
特斯拉全自动驾驶功能(Full Self Driving)在丹麦官方认证视频中被发现使用了自行车道。该视频由丹麦媒体politiken.dk报道,时长01:49,在Hacker News上获得100个点赞。
Jeff Bezos 创立的新公司 Prometheus 瞄准物理 AI 领域。尽管并非唯一涉足该赛道的初创企业,Prometheus 是资金最充足的公司之一。
科学实验室的机器人操作需要VLA模型,但现有模型多训练于家居场景,缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis,从原子技能组合生成结构化演示;并提出LabVLA模型,采用两阶段训练:先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力,再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上,LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。
WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。
Theker 完成 8500 万美元融资。其工厂机器人采用可重新配置设计,不同于波士顿动力等固定形态人形机器人,不专精于任何特定任务。
物理 AI 初创公司 Prometheus 完成 120 亿美元新一轮融资,估值达 410 亿美元。该公司旨在通过 AI 自动化重型工程和药物设计,构建所谓的“人工通用工程师”。
同一事件,精选展示《Prometheus 融资120亿美元,估值410亿美元,定位"人工通用工程师"》Hy-Embodied-0.5-VLA(HyVLA-0.5)是一个端到端系统,完整覆盖机器人学习栈:数据收集、模型设计、继续预训练与监督微调、强化学习后训练,以及真实世界部署。每个组件在栈中扮演独立角色。
千里科技6月11日公告,控股子公司千里智驾拟以2590.8万元收购融感科技100%股权。融感科技成立于2023年6月,主营视觉与毫米波融合雷达,基于AI算法提供堪比激光雷达效果的点云输出。收购旨在构建覆盖L2至L4的全栈式智能驾驶解决方案,践行软硬一体、全栈交付战略。此外,5月末有消息称吉利中央研究院辅助驾驶团队将整合入千里科技。
银河通用机器人智慧药房创下人形机器人持续自主工作超一年的世界纪录。其24小时运行的机器人已承担夜间拣货任务,实现店铺夜间自主值守。银河通用还推出由人形机器人完全自主运营的智慧零售解决方案“银河太空舱”,已在20余个城市落地超百家门店,首家门店位于北京海淀,计划未来几年在全国扩展至1000家。
精灵宝可梦GO的扫描功能被用于训练军用无人机的导航技术。该游戏通过玩家提交的地理位置和扫描数据,帮助优化无人机在复杂环境中的自主导航能力。
脑虎科技宣布,两位高位截瘫患者通过自研“三全”脑机接口完成上海与南昌相距800公里的象棋对弈。上海小张2025年10月植入,术后第5天实现脑控光标,经17天训练脑控速率达5.2 BPS,可上网、打游戏、控智能轮椅和家居。南昌邓老师2025年12月植入,术后一月可通过脑控外骨骼辅助吃饭、喝水、书写,今年4月借助BCI-FES技术实现用手绘画。“三全”系统采用柔性电极贴附大脑表面不刺入组织,发热单元置于胸部皮下,复用成熟DBS手术范式,无需专用机器人。
京东 618 期间,京东 MALL 引入多款智能机器人担任实习员工,覆盖迎宾、导购、理货、咨询等岗位。迎宾岗采用智元 X2 人形机器人,实现点位导航;导购岗由宇树 Go2 四足机器狗接入 JoyInside 能力;理货岗的智元 G2、睿尔曼 RealBOT 基于 JoyAI-RA 模型,单品上架成功率突破 90%;咨询岗众擎导购机器人对接京东数万 SKU 商品体系。此外,京东已建成具身智能数据采集中心,计划发动数十万人参与覆盖超百个场景的数据采集。
理想汽车将于 6 月 15 日 16:30 举办 Livis Day 发布会,探讨具身智能定义与用户价值。CEO 李想回应质疑,认为基于汽车形态的具身智能是首个进入物理世界的人工智能机器人。内部消息称理想已规划双轮和双足两款人形机器人,双轮机器人已准备就绪,最佳状态下将于今年年中发布用于工厂。李想强调 2026 年是 AI 头部公司上车最后一年,最晚 2028 年 L4 落地,理想将布局基座模型、芯片、操作系统、具身智能,并一定会做人形机器人。
World Pilot 是一种视觉-语言-动作(VLA)框架,通过世界动作模型(WAM)提供场景演进隐变量与预期轨迹两种先验,分别经 Latent Steering 和 Action Steering 注入决策链。在 LIBERO-Plus 零样本 OOD 基准上,总成功率达 84.7%,并在四个真实机器人操作任务中取得最高成功率,在视角、几何、变形状态和位姿变化场景下优势最显著。
提出结合自蒸馏与强化学习的可扩展框架,激发预训练视频扩散模型(Demonstrator)的任务解决能力。给定未标注场景图像,视觉语言模型(VLM)生成候选任务及详细步骤,条件化Demonstrator生成视频;通过蒸馏将执行知识迁移至仅以图像和简短任务提示为条件的Executor,无需配对任务-视频数据。进一步利用VLM反馈的强化学习优化Executor。在WorldTasks-Benchmark和DreamGen机器人基准上,Executor在VLM评估协议下超越Demonstrator,并有效迁移至机器人任务。
μ_0是基于3D轨迹的可扩展世界模型,通过预测物体、工具、手及接触区域等关键交互点的平滑3D轨迹,形成紧凑且无关具身形态的运动接口。其配套的TraceExtract系统可从多样化视频源自动提取3D监督。μ_0结合预训练视觉-语言骨干与模块化轨迹专家,用B样条控制点表示查询并预测未来轨迹。实验显示,μ_0在2D和3D轨迹预测上优于基线模型。冻结后的μ_0可搭配下游机器人动作专家,无需动作标签预训练的策略性能与使用动作监督预训练的VLA模型相当。
NASA喷气推进实验室(JPL)正维持已运行13年的“好奇号”火星车继续执行科学任务。该火星车自2012年着陆以来持续探测盖尔陨石坑,JPL通过远程软件更新、故障规避和能源管理策略延长其工作寿命。
Instagram 用户曝光的照片显示,一辆车身涂有“12”字样的小米 YU7 GT 原型车停在纽北赛道旁,标牌注明其为“Nordschleife Autonomous Driving Prototype”,预示小米即将公布该车官方圈速。小米官方未回应。该用户暗示自动驾驶圈速可能明显慢于任周灿驾驶的成绩。YU7 GT 量产版双电机 738kW,零百 2.92 秒,曾以 7 分 22 秒 755 创纽北量产 SUV 最快圈速;任周灿在 5 月 19 日曾以 7 分 34 秒 931 刷新纪录。
6月10日,智元推出灵犀X2 EDU“人人造”版本机器人,面向科研教育、工程实训、机器人赛事开发。整机高130cm、重35kg,全身29个自由度(单臂7自由度),末端负载3kg,行走速度1.8m/s,搭载RK3588算力模组。支持选配夹爪、仿真假手、假拳等多类型末端执行器,适配抓取、人机交互、运动实验等任务。开放关节控制与运动控制接口,允许底层算法二次开发,并支持传感器及开发板自由加装。
Next Forcing 提出多块预测(MCP)框架,受大语言模型多 token 预测启发,在主模型上添加轻量级辅助 MCP 模块,同时对多个未来时间步的视频块去噪。50fps 下训练 5k 步时相对 LingBot-VA 提升 93.1%,收敛速度加快 2.3 倍;在 RoboTwin 基准上达 94.1%(Clean)/93.5%(Random)新 SOTA。推理时保留 MCP 模块可实现 2 倍加速。在物理规律基准 PhyWorld 上也有显著提升,通用视频预训练 FVD 降低超 50%。
Decart 推出 Oasis 3,一个实时世界模型,能够生成逼真的驾驶环境用于自动驾驶车辆测试,现已通过 API 向开发者开放。
跃伴在2026上海国际养老、辅具及康复医疗博览会上发布智能如厕机器人“小伴”,售价28999元。该产品将“人找马桶”升级为“马桶找人”,通过自建马桶数据库无需改动下水即可精准对位家中马桶或蹲厕,内置低噪粉碎结构防止堵塞。排污后360度涡旋自清洁,自动生成泡沫阻断异味,配合高密封污水箱自动关盖、冲水、关闭隔臭阀。搭载AI芯片及5路线激光、1个激光雷达等传感器,实现全流程无人干预的自主移动。配备大按键遥控与离线语音操控,扶手设有紧急呼叫按钮。
工信部印发《“人工智能+信息通信”创新发展实施意见(2026—2028年)》,提出打造网智融合新终端,加强具身智能与信息通信融合创新,推动具身智能与网联通信模组适配验证,大力发展人工智能手机和电脑、智慧家庭设备、智能穿戴设备。意见鼓励基础电信企业利用AI赋能传统业务,深化智慧个人助理、智慧管家、家庭看护等应用。面向卫生健康和教育等领域,开展智能健康监测、老人和儿童看护、智能课堂、智能学伴等应用,提供精准化与普惠化服务。
WorldOlympiad 将视频世界模型评估分解为物理、几何和交互三个维度。物理轨道用物体分割和 MLLM-as-judge 检验视频对力学、热现象、材料属性等规则的遵循;几何轨道以高斯泼溅重建评估结构一致性、跨视角连贯性与相机轨迹对齐;交互轨道评测模型能否按复杂动作提示生成连贯长程视频。基准覆盖游戏、机器人和通用真实视频三大场景。实验表明,当前最先进模型在物理推理、3D 一致性和长程交互上存在显著差距。
何小鹏通过内部信宣布亲自直管机器人业务,称小鹏机器人正迎来量产和商业化前夜,相当于8年前小鹏汽车完成G3发布时的阶段。接下来几个月是最艰苦、最关键的冲刺期,需解决量产细节。新一代IRON人形机器人计划于今年三季度正式亮相,目标今年底实现高阶人形机器人量产,首先在小鹏门店试商用,明年起面向中国及海外商业客户交付。从明年起,人形机器人的硬件收入和AI模型收入将成为集团收入和毛利增长的重要驱动力之一。
QGF(Q-Guided Flow)是一种完全在测试时执行策略优化的强化学习算法。它先通过标准行为克隆预训练参考流策略和价值函数批评家,然后在测试时利用价值梯度引导参考策略生成更高价值的动作。在单任务和目标条件离线RL基准测试中,QGF优于先前的测试时强化学习方法,与最先进的训练时算法性能相当但运行成本更低,且通过避免演员-评论家训练的不稳定性展现了良好的模型规模扩展性。