针对世界行动模型(WAMs)执行固定预测动作、缺乏实时验证的问题,本研究提出一种自适应执行框架。该框架通过轻量级验证器FFDC,联合推理预测动作、视觉动态、真实观测与语言指令,以评估剩余动作序列的可信度,从而根据预测与观测的一致性动态调整执行的动作块大小。该方法在保持长时程执行效率的同时,提升了机器人在接触密集或困难阶段的响应能力。实验表明,其在RoboTwin基准上显著减少了模型前向传递与执行时间,并提高了任务成功率。
针对世界行动模型(WAMs)执行固定预测动作、缺乏实时验证的问题,本研究提出一种自适应执行框架。该框架通过轻量级验证器FFDC,联合推理预测动作、视觉动态、真实观测与语言指令,以评估剩余动作序列的可信度,从而根据预测与观测的一致性动态调整执行的动作块大小。该方法在保持长时程执行效率的同时,提升了机器人在接触密集或困难阶段的响应能力。实验表明,其在RoboTwin基准上显著减少了模型前向传递与执行时间,并提高了任务成功率。
本研究提出了一种新型的残差潜在动作表示,它能从DINO残差中学习,并具备预测性、泛化性与时序编码能力。基于此构建的RLA世界模型通过流匹配预测未来状态,在仿真与真实数据集上超越了当前最先进的基于特征的方法和视频扩散世界模型,且速度快数个数量级。此外,团队开发了两种利用该世界模型改进机器人策略学习的技术:一是从无动作演示视频中学习的极简世界动作模型;二是首个完全在仅从离线视频学习的世界模型内训练、使用视频对齐奖励且无需在线交互或手工奖励的视觉强化学习框架。
华为云将于6月5日至6日在上海举办INSPIRE2026活动,旨在打造一个沉浸式的AI体验场。活动包含30多项互动环节,核心是通过游戏化方式让参与者亲身感受AI技术。主要亮点包括探讨AI前沿观点的主题对谈、结合体感技术的互动游戏、可观看与交互的具身智能机器人竞赛,以及集章赢奖等趣味活动。主办方强调,参与者将通过行走、游玩和探索,获得对AI更深的理解,并有机会获得礼品。
韩国曹溪宗在首尔曹溪寺为人形机器人“宇树G1”举行受戒仪式,授予其法名“迦悲”。该机器人以普通佛教徒身份受戒,并在佛诞节期间作为“名誉”僧侣参与活动。仪式中,机器人穿戴特制僧服,完成了忏悔和象征性的燃臂环节。传统的佛教“五戒”被改编为机器人版本,包括不伤害生命、不损坏物品、服从人类、不做欺骗行为以及节约能源、不过度充电。曹溪宗表示,此举旨在倡导技术应基于慈悲与责任的价值,并探索人机和谐共存的新可能。
宇树科技宣布其全球首个人形机器人任务动作应用商店“UniStore”正式全面开放。该平台允许用户像使用手机应用商店一样,轻松上传、分享和下载训练好的机器人动作模型,例如舞蹈、武术和劳动技能。此举旨在推动人形机器人从“功能机”向“智能机”时代跨越,通过共享应用生态解锁机器人的无限潜能。平台包含用户广场和动作库,用户可一键获取复杂操作预设。
武警第二机动总队某支队近日在西南边陲组织了一场有人和无人协同捕歼演练。演练模拟2名暴恐分子藏匿于废弃厂房,侦察组使用无人机进行高空侦察。突击组兵分两路:一组借助机器狗对目标区域实施封控警戒;另一组操控穿越机率先进入屋内,对暴恐分子可能藏匿的位置进行精准打击。此次演练将无人力量正式纳入作战编组,旨在优化战法训法,将新质战斗力转化为复杂环境下的实际制胜能力。
针对交互式虚拟世界与具身智能中物理3D资产合成的瓶颈,现有方法多忽视功能性。本文提出PhysForge,一个由大规模四层物理标注数据集PhysDB支持的两阶段框架。第一阶段,视觉语言模型担任“物理架构师”,规划定义材料、功能与运动学约束的“分层物理蓝图”。第二阶段,基于物理的扩散模型通过新颖的运动体素注入机制,合成高保真几何与精确运动学参数。实验证明,PhysForge能生成功能合理、可直接仿真的资产,为交互式3D内容与具身智能体提供了强大的数据引擎。
为解决VLA模型对长时程自我中心数据的需求与现有短时程数据集之间的矛盾,本文提出MobileEgo Anywhere框架。该框架利用智能手机传感器实现高精度位姿追踪,降低了数据采集的硬件门槛。主要贡献包括:发布了一个包含200小时多样化长时程轨迹的数据集,开源了移动数据采集应用,并提供了将原始数据转换为标准训练格式的完整处理流程。这实现了跨全球环境的大规模长时程数据获取,为机器人策略研究提供了关键数据支持。
HumanNet是一个百万小时规模的人类中心视频数据集,涵盖第一和第三人称视角,包含精细活动、人-物交互、工具使用及长期行为。它提供交互中心标注,如描述文本、动作说明及身体信号,支持动作与交互感知学习。数据构建强调人类中心筛选、时序结构化、视角多样性和标注增强,将互联网视频转化为可扩展学习基础。实验表明,用其1000小时第一人称视频训练Qwen VLM模型,效果优于100小时真实机器人数据,提示人类视频可作为机器人数据的可扩展且经济高效替代。该项目旨在探索通过人类视频扩展具身基础模型。
工信部公开征求《以标准提升引领轻工产品品质革命实施方案》意见。方案提出将推广应用家用电器抗菌、除菌、噪声限值等现有标准,并研究制定宠物用家电、特殊人群用服务机器人等新产品标准。目标到2027年,制修订产品及方法标准约200项,完成约100项标准评估复审,译制外文版标准约30项,牵头制修订国际标准占比提升至8%左右。到2030年,基本建成全球领先的轻工业标准体系,助力“中国轻工”品牌国际化。
为系统评估交互式世界模型的物理交互能力,研究团队提出了iWorld-Bench基准测试。该基准包含一个33万视频片段的数据集,并精选了2100个涵盖多视角、天气与场景的高质量样本。针对现有模型交互模态不统一的问题,研究设计了一个统一的动作生成框架,构建了六类任务共4900个测试样本,以综合评估模型在视觉生成、轨迹跟随和记忆等方面的性能。通过对14个代表性模型的评估,研究揭示了当前关键局限,为未来方向提供了见解。相关排行榜已公开。
ReflectDrive-2是一种用于自动驾驶的掩码离散扩散规划器,它将规划表示为离散轨迹令牌并通过并行掩码解码生成。其核心是AutoEdit自编辑功能,可在同一模型内直接重写选定令牌,无需额外优化网络。模型采用两阶段训练:先通过扰动专家轨迹进行监督学习,再利用强化学习微调“决策-起草-反思”全流程,将最终驾驶奖励分配给编辑后的轨迹。强化学习使编辑效果的PDMS指标增益从0.3提升至1.9。在NAVSIM测试中,该模型仅使用摄像头输入即达到91.0 PDMS,在最优6次采样下可达94.8 PDMS,平均延迟为31.8毫秒。
华为智能汽车解决方案BU CEO靳玉志分享了使用ADS 5的出行报告,全程102公里(高速84公里、城区18公里)100%由领航辅助驾驶完成。华为乾崑智驾ADS 5已于4月23日正式发布,其核心是面向自动驾驶的AI智能体WEWA 2.0架构。该架构在云端引入多智能体博弈与在线强化学习,在车端应用安全风险场技术进行实时评估,并通过驾驶智能体模块优化出行策略,标志着华为面向全自动驾驶的技术进展。
特斯拉在得克萨斯州奥斯汀的Robotaxi服务取得重要进展,于5月4日首次开启夜间无安全员运营,突破了此前仅限日间的限制。此举使奥斯汀与达拉斯、休斯顿的运营模式同步,并扩大了运行设计域。面对夜间低能见度、车灯眩光等挑战,特斯拉依靠其纯视觉方案和端到端AI技术栈应对。拓展至晚间出行高峰期有助于提升车辆利用率和营收,并收集更多关键数据。此次突破为未来在凤凰城、迈阿密等更多城市推广服务,以及实现全天候、更复杂路况的运营奠定了基础。
英伟达生产成本中亚洲供应商占比已升至90%,其新发布的Jetson Thor机器人平台等实体AI产品,与数据中心GPU共同争夺台积电3纳米晶圆产能,并消耗由三星、SK海力士供应的紧缺LPDDR5X内存,导致旧款模组因LPDDR4断供提前停产。尽管英伟达承诺在美投资,但亚洲供应链的依赖与产能争夺仍在加剧,美国本土产能尚无法承接快速增长的需求。
MolmoAct2 是一个为实际部署设计的全开放动作推理模型,在五个方面取得进展。其核心是专为空间与具身推理训练的 VLM 骨干 MolmoER,基于 330 万样本语料库训练。团队发布了三个新数据集,包括迄今最大开放双手数据集 MolmoAct2-BimanualYAM(720 小时遥操作轨迹),并开源了动作分词器 OpenFAST。模型采用层间 KV 缓存条件化架构,嫁接连续动作专家,还引入自适应深度推理变体 MolmoThink,以极低延迟保持几何基础。在广泛实证研究中,MolmoAct2 在 7 个仿真与真实世界基准上超越 Pi-05 等基线,MolmoER 在 13 个具身推理基准上超过 GPT-5 和 Gemini Robotics ER-1.5。模型权重、训练代码与数据均已公开。
Meta于5月1日完成了对物理AI初创公司Assured Robot Intelligence的收购,具体金额未披露。这家成立仅一年的公司专注于开发能在动态环境中理解、预测和适应人类行为的机器人智能。Meta表示,ARI团队在模型设计、机器人控制及自主学习方面拥有深厚专业知识,其技术将应用于全身人型机器人控制领域。ARI联合创始人称,公司创立目标是实现物理通用人工智能,未来团队将加入Meta Superintelligence Labs,共同推动具有类人形态的智能体从人类经验中学习并进入物理世界。
英特尔宣布重大人事与组织架构调整,任命前高通高管 Alex Katouzian 为执行副总裁兼新成立的客户端计算和物理 AI 事业部总经理。该部门由原客户端计算业务与物理AI业务合并而成,旨在整合资源,抓住边缘计算与物理AI(如机器人、自主机器)的发展机遇。同时,公司正式任命 Pushkar Ranade 为企业首席技术官,负责推进量子计算等新兴技术战略。两位高管均直接向首席执行官陈立武汇报,此举旨在推动AI PC、边缘AI推理及下一代计算体验的创新。
机器人租赁公司Elite Event Robotics近日携带一台重约31.8公斤的宇树人形机器人Bebop,乘坐美国西南航空从奥克兰飞往圣地亚哥的航班。由于机器人包装箱超重,团队为其购买了一个人类座位。但西南航空以电池尺寸超标为由没收了机器人的动力电池,导致航班延误超过一小时。此次事件展示了人形机器人实际乘坐民航客机的尝试,也凸显了航空运输对大型机器人电池的严格限制。
评估人的动作完成质量(熟练度)对教学、康复等领域至关重要,但其挑战在于细微的时空差异分布于多视角视频中。本文针对Ego-Exo4D数据集提出三种创新方法:SkillFormer采用参数高效的判别式架构实现选择性多视角融合;PATS通过保留基础动作的局部密集片段来改进时序采样;ProfVLM则将任务重构为条件语言生成,通过门控跨视角投影器和紧凑语言模型,同时输出熟练度标签与专家风格反馈。这些方法仅需比视频Transformer基线少20倍的可训练参数和少3倍的训练周期,即达到最优准确率,推动了该任务从封闭集分类向可解释反馈生成的范式转变。
为提升视觉-语言-动作模型在复杂现实任务中的功能覆盖,研究团队推出通用机器人策略RLDX-1。该模型基于多流动作变换器架构,整合运动感知、记忆决策与物理传感等异构模态,并辅以合成罕见场景数据、仿人操作学习流程及实时推理优化等系统设计。在仿真与真实测试中,RLDX-1全面超越前沿模型π_{0.5}和GR00T N1.6,尤其在ALLEX人形机器人任务上取得86.8%的成功率,显著高于对照模型的约40%,标志着其在接触密集型动态灵巧操作领域取得关键进展。
中国机器人初创公司灵心巧手计划在下一轮融资中寻求60亿美元估值,较其上周完成的B+轮融资估值翻倍。该公司是全球高灵巧度机械手市场的领先者,占据超过80%份额,并计划将月产能提升至1万台。其核心产品O6型号机械手重量仅370克,却能承载50公斤负载,已能执行拧螺丝、抓取柔软物体等高精度任务。公司拥有包含500多项技能的LinkerSkillNet平台,旨在硬件中复现人类灵巧技能库,目标应用于弹钢琴、牙科操作等高附加值领域。
Firgelli公司发布了专为人形机器人设计的新型执行器系列。该系列执行器在扭矩密度、能效和控制精度方面实现显著提升,旨在更精准地模拟人类关节运动,从而增强机器人的灵活性与适应性。产品信息发布于公司官网,相关讨论在Hacker News上获得100点热度。
特斯拉FSD(监督版)车队行驶总里程已突破100亿英里,达到马斯克设定的关键数据里程碑,且数据收集速度大幅加快。特斯拉宣称其FSD安全性优于人类驾驶,但业内指出其统计口径与官方不一致,存在误导性,其奥斯汀自动驾驶出租车事故率约为人类驾驶员的四倍。马斯克已将无监督版FSD上线时间推迟至2026年第四季度。相比之下,Waymo已在多城运营L4级无人驾驶,并公布其重伤事故率比人类低90%。
苹果机器人团队高级工程经理伯努瓦・兰德里离职,跳槽至谷歌DeepMind。苹果正研发智能家居机器人,包括一款桌面机器人,外观类似加装机械臂的iPad,可执行基础任务并搭载全新Siri系统。苹果员工流失严重,机器人团队负责人去年已跳槽Meta,团队多名高级工程师相继离职,人才被Meta和谷歌以高薪挖走。
苏黎世联邦理工学院等机构研发了一款半自主探测机器人,旨在解决传统火星探测因通讯延迟和数据传输限制导致的效率低下问题。该机器人能自主往返多个目标点,利用小型精密仪器进行探测分析。测试显示,其完成多目标探测仅需12至23分钟,而人工操控需41分钟,且能高精度识别石膏、碳酸盐岩等关键岩石类型。这项技术未来将应用于月球、火星等深空探测任务,显著扩大勘测范围并高效搜寻生命痕迹。
KinDER是一个针对机器人学习与规划中物理推理挑战的基准测试平台。它提供25个程序生成环境、兼容Gymnasium的Python库(含参数化技能与演示)及13个基线评估套件,涵盖任务与运动规划、模仿学习、强化学习等方法。平台聚焦五大核心挑战:基础空间关系、非抓握多物体操控、工具使用、组合几何约束和动态约束,剥离了感知与语言理解等复杂性。实验表明,现有方法在多数环境中表现不佳,揭示物理推理能力显著不足。此外,通过移动机械臂的实-仿-实实验验证了仿真与真实交互的对应性。KinDER已开源,旨在推动物理推理研究的系统化比较。
Figure公司最新组装的F.03人形机器人已能实现自主行走,从生产线直接步行至总部。其核心突破在于仅依靠机载摄像头感知,无需LiDAR或预先地图,即可完成上下楼梯等复杂导航。完整的运动策略完全通过仿真环境中的端到端强化学习训练而成,并零样本迁移至实体机器人。演示中可见其通过神经网络从摄像头数据推断几何环境的深度感知能力,尽管在尺度稳定性和窗户等区域仍存在轻微抖动与伪影。
F.03 can now walk up/down stairs purely using it's onboard camera perception Our robots now walk from manufacturing when...
超维动力发布全球最高115自由度人形机器人KAI。其身高173厘米,体重70公斤,全身覆盖约18000个触觉传感点。该机器人搭载1.7kWh半固态电池,可支持3小时双臂操作,负载近20公斤,手部具备36个自由度。发布会由两台KAI机器人自主对谈完成。技术核心是“KAI World Model”物理世界模型系统,通过自研头戴设备采集第一人称数据,并采用三阶段训练体系提升技能。
华为乾崑智能汽车解决方案发布4月安全出行报告,其累计辅助驾驶里程已达104.7亿公里,跨越百亿里程碑。月度辅助驾驶里程为9.1亿公里,智驾辅助月活用户数达143万,用户占比94.8%,月度人均辅助驾驶里程637公里。具体功能上,车位到车位功能使用956万次,辅助泊车达6548万次。此前,华为已发布乾崑智驾ADS 5.0系统,首发防误打方向盘与车位到车位3.0版本,并推出了乾崑OS与迭代至3.0版本的乾崑XMC车辆控制技术。
Meta 收购了机器人AI初创公司Assured Robot Intelligence,旨在加速其人形机器人研发进程。此次收购的核心目标是打造一个面向全行业的开放平台,其战略定位类似于Android在智能手机领域所扮演的角色。Meta计划通过这一平台,推动人形机器人技术的标准化与普及化发展。
研究团队提出了具身搜索与救援新任务,并发布首个综合性基准ESARBench,用于评估多模态大语言模型驱动的无人机智能体。该基准基于Unreal Engine 5和AirSim构建了四个从真实世界GIS数据映射的高保真、大规模开放环境,包含动态天气、昼夜变化和随机线索布置。基准包含600个基于真实救援案例建模的任务及一套评估指标。实验评估了从传统启发式方法到基于MLLM的导航智能体等多种基线,结果揭示了该任务在空间记忆、空中适应性及搜索效率与飞行安全权衡方面的关键瓶颈。