美国公司 Shift 在纽约市提供免费公寓清洁服务,作为交换,专业清洁人员需全程佩戴设备录制第一视角画面。这些视频将被用于制作数据集,授权给机器人和人工智能训练,以学习人类完成日常任务的操作数据。Shift 声称,所有画面会在使用前进行匿名化处理,模糊所有可识别个人信息,且录像仅用于训练,不会公开分享或出售。目前服务范围限于纽约,未来计划扩展至全球并提供上门维修、跑腿等更多免费服务。
美国公司 Shift 在纽约市提供免费公寓清洁服务,作为交换,专业清洁人员需全程佩戴设备录制第一视角画面。这些视频将被用于制作数据集,授权给机器人和人工智能训练,以学习人类完成日常任务的操作数据。Shift 声称,所有画面会在使用前进行匿名化处理,模糊所有可识别个人信息,且录像仅用于训练,不会公开分享或出售。目前服务范围限于纽约,未来计划扩展至全球并提供上门维修、跑腿等更多免费服务。
PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示,该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体,物体则通过物质点方法模拟为物理智能体,并以3D高斯作为统一可微表示。交互通过三个耦合机制监督:时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟,以及增强接触保真度的遮罩视频-SDS目标。实验证明,PhyGenHOI能生成物理一致的交互,性能优于基线方法。
Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》旧金山一家初创公司因在未告知房东的情况下,于Airbnb房源内测试机器人并造成损坏而被起诉。诉讼称,该公司秘密安装摄像头和机器人设备进行测试,导致房屋受损。原告要求赔偿损失并停止相关测试活动。
Today, we're launching shift. We're starting by cleaning your apartment in New York City, for free. Here's how it works....
SpatialAct是一个基于模拟器的基准,用于评测视觉语言模型(VLM)智能体在3D场景中的行动条件空间推理。基准从多轮交互改进任务出发,设计了单步错误检测与修复任务及五项基础空间能力任务。实验显示,当前VLM在孤立空间推理任务上表现良好,但在多轮反馈中难以维持一致的空间信念并产生可靠行动,表现显著低于人类。结果表明,即便底层控制被抽象,现有VLM智能体仍缺乏在行动导致环境变化下的鲁棒空间状态跟踪能力。
本文提出StressDream方法,旨在引导基于扩散的视频世界模型(WM)的想象过程。该方法通过优化初始噪声,将模型的想象引向推理时指定的高影响且合理的场景。它采用两个互补目标:一个利用视觉语言模型的语义目标,另一个是防止噪声偏移的可行性目标。在自动驾驶和机器人操作领域的验证表明,StressDream能有效将想象引向指定的文本场景(如任务失败),从而通过识别那些合理未来包含不良结果的动作,实现稳健的策略评估与改进。
为解决视觉-语言-动作(VLA)模型在机器人执行任务时易发生故障的问题,研究提出了Hide-and-Seek框架。该框架将故障检测视为弱监督学习问题,通过结合轨迹间与轨迹内的对比学习目标,仅利用轨迹级标注来定位故障动作并生成时序故障信号,无需步骤级标注。研究在LIBERO、VLABench和真实机器人平台上,对OpenVLA、π_0和π_{0.5}策略进行了评估。该方法在保形预测下取得了先进的多任务故障检测性能,并对已见和未见任务展现出良好的泛化能力。
在第十一届中国(北京)军事智能技术装备博览会上,国产“机器獒”系列地面无人装备首次全谱系亮相。该系列分为“影獒”与“铁獒”两大平台:“影獒”体型紧凑,具备静音机动能力,适用于隐蔽侦察与渗透;“铁獒”采用轮足复合结构,轮式速度约50公里/小时,能跨越1.6米宽战壕和80厘米高垂直障碍,搭载7.62毫米机枪或榴弹发射器及三光侦察系统,支持自主跟随。该装备旨在实现“机器主战、人类主控”的未来地面作战模式。
鸿蒙智行发布全新问界 M9,全系搭载华为乾崑智驾 ADS 5,起售价 47.98 万元。余承东在发布会强调,新车采用的华为途灵龙行平台首创全域融合架构与全链路八大冗余设计,已为 L3 时代做好准备。他直言就等国家 L3 牌照发放,并期待国内 L3、L4 自动驾驶早日到来。
中国开始为人形机器人分配29位的身份代码,已发放超过2.8万个。该系统类似机器人护照,记录制造国、厂商、型号及唯一序列号。主要目的是明确责任归属,因为人形机器人正从演示进入工厂、家庭等真实场景,需要清晰追责。当机器人发生故障、损坏财产、泄露数据或被改装时,监管方可借此追溯至制造商、销售商、用户、服务历史及回收商。
5月21日,2026世界无人机大会上,美团宣布“城市低空物流航网”正式常态化运营,并发布第四代无人机长程索降版M-Drone 4L Winch、智能接驳机场M-Port 3和无人机云枢M-DaaS 3。M-Drone 4L可在-20℃至50℃、大雨、中雪及6级大风下稳定飞行,覆盖国内97%以上城市场景;M-Port 3占地仅1.4平方米,可极简部署;M-DaaS 3能在100毫秒内对异常状况判断,配合三级安全保障体系,已安全完成超90万单配送。同时启动授权服务商招募,首批签约10家,覆盖浙江、湖南、广西等省份,场景从餐饮外卖拓展至医疗、工业等领域。
特斯拉位于得州超级工厂的专属 Optimus 机器人工厂已正式动工,规划年产能最高可达 1000 万台。新厂房长度将超过 4000 英尺,并同步布局 Terafab 晶圆厂。为提前启动生产,加州弗里蒙特工厂已关停部分产线用于 Optimus 初期制造,预计今年 7 月或 8 月投产。得州工厂计划于 2027 年夏季实现大规模量产。马斯克认为,Optimus 的价值未来可能超越特斯拉整个汽车业务。该项目总投资额可能高达数十亿美元,但仍面临制造体系、人工智能系统及供应链等挑战。
小鹏集团董事长何小鹏表示,公司已进行重大战略转向,放弃原有“缝合怪”体系,全面押注“物理AI”架构。新路径有望在18到24个月内(约2027年底前)实现L4级自动驾驶。他同时透露,高等级人形机器人的商业化量产元年很可能在2027年。何小鹏预测,未来10年硬件与软件价值可能各占50%,用户为软件付费的价值占比将大幅提升。
当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。
该综述将工业视觉Sim-to-Real重新框架为基于先验可用性的域差距问题,区分了CAD可用(支持渲染、标定、位姿估计、分割及测试时几何验证)、CAD不可用(依赖法向参考外观、特征分布、教师‑学生残差、合成异常假设、基础特征或视觉‑语言先验)以及边界先验(仅保留部分CAD作用的近似模型、模板、参考视图或语义对应)三种设置。以T‑LESS/BOP、MVTec AD和VisA为实证锚点,发现CAD渲染数量本身并不能弥合迁移差距,源分布设计、检测器容量和小规模真实校准更为关键。测试时CAD通过掩码、姿态和深度一致性提供了独立验证通道,而CAD不可用检测则依赖校准的正常性和特征偏差。该文反对单一跨任务排行榜,主张根据先验可用性来部署决策。
本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。
波士顿动力发布视频,展示其 Atlas 人形机器人通过观看屏幕上的足球比赛录像,学习并复刻推球、庆祝等动作。该公司此前演示过 Atlas 借助强化学习与仿真技术搬运约 45 公斤重物。企业透露,计划让 Atlas 与四足机器人 Spot 亮相 2026 年世界杯,但具体职责未公布。
本月,一名乘客在旧金山乘坐Waymo自动驾驶出租车,距离酒店仅约0.48公里时车辆突然停止并拒绝前进。Waymo客服称前方存在“巨大阻塞”,并建议乘客改用Uber或Lyft。Waymo事后解释,因获悉当地有“计划中的抗议活动”而对车辆设置了限制。该乘客最终步行返回酒店,其妻子因残障步行不便,Waymo退还了车费。乘客认可Waymo技术表现,但此次经历让他怀疑该服务在纽约等更复杂城市的推广能力。此前,Waymo还曾因车辆误入积水区域而发布召回并暂停了部分城市的服务。
Meet Xiaomai - the only staff member running a convenience store in Shanghai. From greeting customers and recommending p...
生数科技MotuBrain获BEYOND Awards 2026创新大奖,从全球800余项目突围。它统一建模“看懂世界”与“执行动作”,打破感知/规划/执行割裂,具备一脑多能、多型、贯通、预见核心能力,可适配多机器人,端到端完成连续长程任务。未来将赋能全球机器人生态。
Meet Xiaomai - the only staff member running a convenience store in Shanghai. From greeting customers and recommending p...
Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。
空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。
比亚迪执行副总裁李柯透露,比亚迪正在开发人形机器人。他认为,机器人竞争的关键是最强的制造能力、软件(大脑)和硬件(躯体),比亚迪在汽车领域积累的复杂软件能力可移植至机器人。李柯预测,机器人可能在中国首先实现商业化,届时比亚迪将成为最大买家,例如用于海外4S店担任导购。他同时表示,比亚迪未来或既生产又销售机器人,也可能采取开放平台策略,既自有也合作。
全国首个机器人常态化配送社区在成都落地,10台名为“享递 Ultra”的配送机器人自今年1月试运行以来,累计完成近3万单,平均每单配送时间5分钟以内。该社区通过“骑手放柜、机器人送楼”模式,解决了外卖骑手进楼带来的安全、噪音和电梯占用问题。机器人已与社区门禁、电梯系统打通,单次充电续航12小时,载重20公斤。
本研究系统比较了视觉语言模型与视频生成模型两种预训练范式在空间智能方面的表现。通过冻结特征探测方法,在语义标注、实例分组和三维几何预测三个关键维度上进行评估。结果显示两者具有明确的互补性:视觉语言模型在语义与实例任务上更强,而视频生成模型则在密集几何与相机运动信号上表现更优。研究进一步发现,简单地融合二者特征即可获得在几何与语义任务上均表现出色的表示,为构建更强的空间智能骨干模型指明了有前景的方向。
机器人行为克隆中,人类演示数据固有的高频噪声(如抖动和停顿)会被基于扩散模型的策略继承并放大。为此,研究提出了频率引导算子(FGO)。该算子在扩散策略的生成过程中,引导噪声样本依次通过频带逐步扩展的中间子频率流形,从而实现频域上的隐式操控与平滑动作生成。在5个基准的15项机器人操作任务上验证,该方法显著提升了动作平滑度和时间一致性。