Genesis AI 发布 Genesis World 1.0 仿真平台。该平台包含物理、渲染、编译、工具四大组件,其仿真与真实机器人部署的相关性达 0.8996。策略评估时间从超过 200 小时缩短至不足 0.5 小时。
Genesis AI 发布 Genesis World 1.0 仿真平台。该平台包含物理、渲染、编译、工具四大组件,其仿真与真实机器人部署的相关性达 0.8996。策略评估时间从超过 200 小时缩短至不足 0.5 小时。
AI训练数据初创公司Shift宣布将免费提供家政清洁服务,以此收集真实家庭环境中的操作数据,用于训练未来的家政服务机器人。Shift通过让人类执行清洁任务并记录动作数据,为机器人学习复杂家庭任务提供高质量训练素材。
英伟达联合香港理工大学、南京大学推出 LocateAnything 模型,专为机器人感知与 AI 智能体设计,可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术,提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上,混合模式速度达 12.7 Boxes Per Second,超过 Qwen3-VL(1.1 BPS)与 Rex-Omni(5.0 BPS)。在 LVIS(IoU=0.95)评测中得分 31.1,高于 Rex-Omni 的 20.7。
RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发,将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估,揭示了特定压力下的失败模式,并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外,研究还引入了一种压力感知智能体求解器,它能在推理前检测视觉压力源并调用视觉编辑技能,以提升模型在复杂场景中的鲁棒性。
AI训练数据初创公司Shift宣布将为纽约人提供免费家庭清洁服务,并计划扩展至伦敦等城市。作为交换,Shift要求拍摄其清洁人员工作的视频,记录洗碗、擦柜台、扫地、拖地等所有家务劳动。这些视频数据正被机器人公司竞相收集,用于训练机器完成家务,最终目的是销售家用服务机器人。
DynaFLIP 是一个动力学感知的多模态预训练框架,旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号,以单纯形体积最小化为核心思想,结合余弦正则化与对比学习目标,优化单一图像编码器在共享超球面空间中的对齐。分析表明,该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络,在多种下游策略(包括视觉语言动作模型)中均优于基线。在分布外场景下,性能提升高达 +22.5%。
一家初创公司正采用一种新方式为机器人训练收集数据:支付费用,让人类佩戴头戴摄像头,上门执行清洁任务,从而获取第一人称视角的操作数据。
通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。
通义实验室提出Qwen-VLA,以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示,将操作、导航与轨迹预测统一在同一框架下,支持11种机器人平台。在5个仿真基准中,单一通用模型在3个上超越最佳专用模型;ALOHA真机in-domain成功率83.6%,OOD泛化76.9%,分别超越π₀.₅超35和40个百分点;DOMINO动态操作零样本达26.6%;VLN-CE导航R2R和RxR分别达57.5%和59.6%,均超越专用模型。
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》宝马集团将从今年夏季开始,在德国莱比锡工厂部署由瑞士 Hexagon Robotics 公司开发的 AEON 人形机器人,参与高压电池组装和零部件制造。这些身高 1.65 米、重约 60 公斤的机器人预计主要用于生产纯电 MINI Countryman E,也可能参与宝马 1 系和 2 系的轻混车型制造。
宇树科技宣布其亚洲首家具身智能体验馆将于5月31日在上海开业。该店位于静安区久光百货,面积超100平方米,将集中展示G1人形机器人、R1人形机器人及Go2机器狗全系列C端产品,顾客可现场互动体验。此前,宇树科技已于4月29日在北京王府井开设全国首家直营店。
AI训练数据初创公司Shift宣布了一项独特的服务:为用户免费提供房屋清洁。条件是,公司会录制清洁工清洁、吸尘、除尘、整理和清洗的全过程,并将这些视频数据用于训练机器人。Shift解释称,由此生成的训练数据价值足以支付整个服务的成本。其宣传语称:“你获得一尘不染的公寓。我们获得训练数据。每个人都赢。”
美国公司 Shift 在纽约市提供免费公寓清洁服务,作为交换,专业清洁人员需全程佩戴设备录制第一视角画面。这些视频将被用于制作数据集,授权给机器人和人工智能训练,以学习人类完成日常任务的操作数据。Shift 声称,所有画面会在使用前进行匿名化处理,模糊所有可识别个人信息,且录像仅用于训练,不会公开分享或出售。目前服务范围限于纽约,未来计划扩展至全球并提供上门维修、跑腿等更多免费服务。
PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示,该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体,物体则通过物质点方法模拟为物理智能体,并以3D高斯作为统一可微表示。交互通过三个耦合机制监督:时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟,以及增强接触保真度的遮罩视频-SDS目标。实验证明,PhyGenHOI能生成物理一致的交互,性能优于基线方法。
Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》旧金山一家初创公司因在未告知房东的情况下,于Airbnb房源内测试机器人并造成损坏而被起诉。诉讼称,该公司秘密安装摄像头和机器人设备进行测试,导致房屋受损。原告要求赔偿损失并停止相关测试活动。
SpatialAct是一个基于模拟器的基准,用于评测视觉语言模型(VLM)智能体在3D场景中的行动条件空间推理。基准从多轮交互改进任务出发,设计了单步错误检测与修复任务及五项基础空间能力任务。实验显示,当前VLM在孤立空间推理任务上表现良好,但在多轮反馈中难以维持一致的空间信念并产生可靠行动,表现显著低于人类。结果表明,即便底层控制被抽象,现有VLM智能体仍缺乏在行动导致环境变化下的鲁棒空间状态跟踪能力。
本文提出StressDream方法,旨在引导基于扩散的视频世界模型(WM)的想象过程。该方法通过优化初始噪声,将模型的想象引向推理时指定的高影响且合理的场景。它采用两个互补目标:一个利用视觉语言模型的语义目标,另一个是防止噪声偏移的可行性目标。在自动驾驶和机器人操作领域的验证表明,StressDream能有效将想象引向指定的文本场景(如任务失败),从而通过识别那些合理未来包含不良结果的动作,实现稳健的策略评估与改进。
为解决视觉-语言-动作(VLA)模型在机器人执行任务时易发生故障的问题,研究提出了Hide-and-Seek框架。该框架将故障检测视为弱监督学习问题,通过结合轨迹间与轨迹内的对比学习目标,仅利用轨迹级标注来定位故障动作并生成时序故障信号,无需步骤级标注。研究在LIBERO、VLABench和真实机器人平台上,对OpenVLA、π_0和π_{0.5}策略进行了评估。该方法在保形预测下取得了先进的多任务故障检测性能,并对已见和未见任务展现出良好的泛化能力。
在第十一届中国(北京)军事智能技术装备博览会上,国产“机器獒”系列地面无人装备首次全谱系亮相。该系列分为“影獒”与“铁獒”两大平台:“影獒”体型紧凑,具备静音机动能力,适用于隐蔽侦察与渗透;“铁獒”采用轮足复合结构,轮式速度约50公里/小时,能跨越1.6米宽战壕和80厘米高垂直障碍,搭载7.62毫米机枪或榴弹发射器及三光侦察系统,支持自主跟随。该装备旨在实现“机器主战、人类主控”的未来地面作战模式。
鸿蒙智行发布全新问界 M9,全系搭载华为乾崑智驾 ADS 5,起售价 47.98 万元。余承东在发布会强调,新车采用的华为途灵龙行平台首创全域融合架构与全链路八大冗余设计,已为 L3 时代做好准备。他直言就等国家 L3 牌照发放,并期待国内 L3、L4 自动驾驶早日到来。
5月21日,2026世界无人机大会上,美团宣布“城市低空物流航网”正式常态化运营,并发布第四代无人机长程索降版M-Drone 4L Winch、智能接驳机场M-Port 3和无人机云枢M-DaaS 3。M-Drone 4L可在-20℃至50℃、大雨、中雪及6级大风下稳定飞行,覆盖国内97%以上城市场景;M-Port 3占地仅1.4平方米,可极简部署;M-DaaS 3能在100毫秒内对异常状况判断,配合三级安全保障体系,已安全完成超90万单配送。同时启动授权服务商招募,首批签约10家,覆盖浙江、湖南、广西等省份,场景从餐饮外卖拓展至医疗、工业等领域。
特斯拉位于得州超级工厂的专属 Optimus 机器人工厂已正式动工,规划年产能最高可达 1000 万台。新厂房长度将超过 4000 英尺,并同步布局 Terafab 晶圆厂。为提前启动生产,加州弗里蒙特工厂已关停部分产线用于 Optimus 初期制造,预计今年 7 月或 8 月投产。得州工厂计划于 2027 年夏季实现大规模量产。马斯克认为,Optimus 的价值未来可能超越特斯拉整个汽车业务。该项目总投资额可能高达数十亿美元,但仍面临制造体系、人工智能系统及供应链等挑战。
小鹏集团董事长何小鹏表示,公司已进行重大战略转向,放弃原有“缝合怪”体系,全面押注“物理AI”架构。新路径有望在18到24个月内(约2027年底前)实现L4级自动驾驶。他同时透露,高等级人形机器人的商业化量产元年很可能在2027年。何小鹏预测,未来10年硬件与软件价值可能各占50%,用户为软件付费的价值占比将大幅提升。
当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。
该综述将工业视觉Sim-to-Real重新框架为基于先验可用性的域差距问题,区分了CAD可用(支持渲染、标定、位姿估计、分割及测试时几何验证)、CAD不可用(依赖法向参考外观、特征分布、教师‑学生残差、合成异常假设、基础特征或视觉‑语言先验)以及边界先验(仅保留部分CAD作用的近似模型、模板、参考视图或语义对应)三种设置。以T‑LESS/BOP、MVTec AD和VisA为实证锚点,发现CAD渲染数量本身并不能弥合迁移差距,源分布设计、检测器容量和小规模真实校准更为关键。测试时CAD通过掩码、姿态和深度一致性提供了独立验证通道,而CAD不可用检测则依赖校准的正常性和特征偏差。该文反对单一跨任务排行榜,主张根据先验可用性来部署决策。
本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。
波士顿动力发布视频,展示其 Atlas 人形机器人通过观看屏幕上的足球比赛录像,学习并复刻推球、庆祝等动作。该公司此前演示过 Atlas 借助强化学习与仿真技术搬运约 45 公斤重物。企业透露,计划让 Atlas 与四足机器人 Spot 亮相 2026 年世界杯,但具体职责未公布。
本月,一名乘客在旧金山乘坐Waymo自动驾驶出租车,距离酒店仅约0.48公里时车辆突然停止并拒绝前进。Waymo客服称前方存在“巨大阻塞”,并建议乘客改用Uber或Lyft。Waymo事后解释,因获悉当地有“计划中的抗议活动”而对车辆设置了限制。该乘客最终步行返回酒店,其妻子因残障步行不便,Waymo退还了车费。乘客认可Waymo技术表现,但此次经历让他怀疑该服务在纽约等更复杂城市的推广能力。此前,Waymo还曾因车辆误入积水区域而发布召回并暂停了部分城市的服务。
生数科技MotuBrain获BEYOND Awards 2026创新大奖,从全球800余项目突围。它统一建模“看懂世界”与“执行动作”,打破感知/规划/执行割裂,具备一脑多能、多型、贯通、预见核心能力,可适配多机器人,端到端完成连续长程任务。未来将赋能全球机器人生态。
Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。
空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。