预测性物理AI系统的输出(如状态预测、行动规划)即使误差低,也不一定物理可行。本研究提出了“物理可接受性”评估框架,将解码后的提案视为候选动力学,在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功,但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中,该完整验证门的AUC达0.957,残差过滤器能预防87-89%的无效提案,同时保持99.8%的任务正常进展。
预测性物理AI系统的输出(如状态预测、行动规划)即使误差低,也不一定物理可行。本研究提出了“物理可接受性”评估框架,将解码后的提案视为候选动力学,在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功,但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中,该完整验证门的AUC达0.957,残差过滤器能预防87-89%的无效提案,同时保持99.8%的任务正常进展。
针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置,难以跨设备迁移的挑战,本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真,在身体表面密集采样生成多样合成信号,用于预训练图编码器。随后,将多位置IMU信号转化为全身运动标记,并与大语言模型对齐以理解运动语义。实验表明,AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升,证明了其作为野外可穿戴运动理解通才模型的潜力。
5月20日,全国首次人机协同城市管理执法试点在上海浦东新区张江人工智能创新小镇启动。试点由浦东城管综合执法局主导,无人机智能监管系统率先识别违规商户,信息实时同步至现场执法人员及智元灵犀X2机器人。二者协同抵达现场后,机器人承担普法宣传、政策解释与智能问答等辅助任务。该模式结合了技术及时性与机器人知识广、表达客观的优势,旨在提升执法效率并采用更易被商户接受的沟通方式。
5月22日,松延动力开发的全球首款眼神交互仿生人“小月”(型号X-Head 1)在京东拍卖平台成功拍出,经过49次出价,最终成交价为110790元,高于其9.9万元的官方定价。该仿生人采用人头造型,重7.5公斤,拥有24个自由度,可实现眼神、口型、情绪等多模态交互对话。
众擎机器人宣布其深圳红花岭智能制造基地正式启用,首批T800人形机器人已下线。该基地集制造与研发于一体,产能达到每15分钟下线一台人形机器人。T800人形机器人于2025年12月发布,身高173cm,采用航空级高强度镁铝合金,起售价18万元,提供四款配置。基地建筑面积12000平方米,覆盖从质检到售后的一体化流程。此外,公司全球总部及郑州万台级产线基地也在规划建设中。
5月20日,小鹏 GX 旗舰 SUV 正式上市,限时售价 26.98 万至 34.98 万元,较预售价大幅降低。作为 SEPA 3.0 架构首发车型,新车提供增程与纯电版本,其中增程版综合续航超1585公里,纯电版支持5C超充。小鹏集团 CEO 何小鹏在发布会后坦言“做汽车真的很痛苦”,上游涨价压力直接波及车企。尽管自研创新带来收益,但大部分利润仍流向供应链合作伙伴。他感叹何时汽车涨价消费者仍愿买单,行业才算真正健康。
国家发改委在5月22日新闻发布会上表示,人形机器人在半程马拉松比赛中表现显著提升,速度更快、更灵活、更自主,参赛队伍从20余支增至百余支,完赛队伍从6支增至40余支,反映具身智能创新活力增强和产业规模扩大。下一步,发改委将加快具身智能训练基础设施建设,推动机器人融入工厂、商场、家庭等场景,并建设应用中试基地以加速技术落地。
第四届中国国际供应链促进博览会将于6月22日至26日在北京举行,主题为“链接世界,共创未来”。本届首次设立人工智能专区,集聚多家领军企业。澳大利亚首次担任主宾国。以杭州“六小龙”为代表的浙江企业将展示前沿成果,安徽重点展示“人工智能+制造”,湖北将呈现具身智能产业链。优必选人形机器人成为官方首个“硅基代言人”。雄安新区首次独立参展,预计首发首展首秀超过160项。
全球首款眼神交互仿生人“小月”(型号X-Head 1)于5月22日上架京东拍卖,起拍价1元,需缴纳500元保证金,将于当晚8点开拍。该产品由松延动力推出,重7.5公斤,拥有24个自由度,可实现交互对话,并具备口型、眼神及情绪等多模态交互能力,其核心仿生技术承袭自春晚亮相的同款机器人“蔡明”。官方标价为9.9万元。
SPACENUM 是一个统一框架,考察空间探索中的动态数值转换与空间推理中的静态布局两种设定。通过 Num2Space 和 Space2Num 双向任务,评估视觉语言模型(VLM)在视觉空间结构与语言数值表征之间的映射能力。实验表明,当前 VLM 在两种设定下均接近随机猜测,严重依赖浅层空间线索,无法建立稳定的坐标感知表征。显式推理仅带来边际提升,微调可部分改善空间数值理解。
PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统,能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试,涵盖47个Blender场景和141个基于语言的摄影任务。实验表明,在六轮渲染预算的设置下,PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作,展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中,已能生成高质量摄影作品。
Waymo暂停了在亚特兰大的无人驾驶出租车服务,原因是其车辆多次驶入积水区域,存在安全隐患。该暂停措施于2026年5月21日公布,影响范围限于亚特兰大地区,目前尚未公布服务恢复的具体时间表。
Waymo 因自动驾驶车辆难以稳定应对暴雨及道路积水问题,暂停了亚特兰大和圣安东尼奥两地的 Robotaxi 运营。此前,一辆无人出租车在亚特兰大一处严重积水路段被困约一小时,所幸未载客。公司承认尚未开发出能完全识别并避开积水的最终方案,此前推送的临时措施仍不足以防车辆误入积水区域。此外,Waymo 决策依赖官方气象预警,但事发时暴雨突发,预警前道路已积水,暴露出系统在应对突发恶劣天气时存在滞后性。
蔚来创始人李斌在财报电话会上透露,2026年一季度蔚来品牌平均成交价达39万元,超过宝马5万元,为奥迪的1.5倍。在上海等一线城市,蔚来市场份额已超越传统豪华品牌。李斌表示,随着换电网络向低线城市扩展,纯电产品接受度持续提升。此外,蔚来世界模型最新版本推送后,城区领航辅助行驶里程环比提升92%,使用时长占比提升116%。蔚来与乐道将于六月迎来新版本智驾升级。
Stellantis计划到2030年投资约600亿欧元,推出涵盖内燃机到纯电动在内的60款新车型。其中约70%的资金将投向Jeep、标致等核心品牌,其余品牌将聚焦区域市场。新任CEO安东尼奥·费洛萨将主导这一战略转变,重点转向盈利品牌并外包部分技术研发。作为计划的一部分,240亿欧元将专项用于全球平台、动力总成和新技术开发。
云深处科技于5月21日发布行业级小型轮足机器人山猫S10。该机器人整机自重不足20公斤,便于单人携带与快速部署。它搭载新一代AI运控算法与全向感知系统,可实现自主路径规划和智能避障,平地极限速度达8米/秒,能跨越50厘米高障碍。整机防护等级达IP66,适应-20℃至55℃的复杂环境,续航超过3小时。产品适用于电力巡检、安防巡逻、应急消防等轻量化智能作业场景,目前已开启订购,预算在数万元级别。
特斯拉在FSD 14.3.3版本中,大幅放宽了驾驶员监控机制,减少了系统对驾驶员视线偏离路面的频繁提醒,干预感显著降低。此次更新同时带来多项功能升级,包括智能自动召唤提速至最高时速8英里(约12.9公里)、语音指令更稳定、界面优化、加速更平顺,并新增合规驾驶累计计数机制。这是其迈向无监督全自动驾驶战略的一部分。
Anthropic联合创始人杰克·克拉克在牛津大学演讲中,提出了未来两年AI发展的具体时间表。他形容当前AI演进速度“快到令人眩晕”,是科研、商业与产业的同步跃迁。其预测包括:12个月内AI将协助产生诺贝尔奖级发现;18个月内完全由AI运营的公司将实现数百万美元营收;两年内双足机器人将进入劳动力市场;到2028年底,AI系统可能具备设计自身继任者的能力。克拉克同时指出,激烈的商业与地缘政治竞争使得研发速度难以放缓。
特斯拉公司副总裁陶琳宣布,Model S/X签名版已在美国加州弗里蒙特工厂下线,该产线将很快改造为特斯拉人形机器人的产线,以承担更重要的AI时代任务。Model S与Model X作为特斯拉早期里程碑产品,将于2026年第二季度正式停产。此次产线改造标志着特斯拉将资源转向人形机器人等新兴领域,推动其“秘密宏图”的后续篇章。
小鹏汽车董事长何小鹏在GX上市后的媒体沟通中指出,若国内车企仍采用旧模式销售,将面临类似手机行业的困境,导致用户换车意愿下降。他强调,汽车行业的真正变革在于提升产品品质并实现L4级自动驾驶,需将里程覆盖率从50%提升至90%以上。对于自动驾驶发展,何小鹏认为L4级技术大概率将先在海外落地,物理AI预计会在机器人领域率先突破,进而推动无人驾驶;但短期内相关数据存在水分,全面普及仍需时间。
5月21日小鹏GX上市发布会后,小鹏集团董事长何小鹏表示,激光雷达在汽车领域已不是必需,小鹏坚定采用纯视觉自动驾驶路线。尽管15万以上车型配备激光雷达比例上升,小鹏认为依靠大算力、大模型和高密度传感器即可实现良好效果,无需激光雷达。刘先明补充,自动驾驶核心看实际使用效果,而非传感器配置,小鹏第二代VLA技术在极端工况下表现可靠。
UniT是一个统一几何感知模型,旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer,将传感器观测组作为基本单元,通过改变组大小,在同一过程中自然统一在线(多步单帧组)与离线(单步多帧组)模式。为处理长序列,模型采用队列式KV缓存机制,并利用无锚点关系建模来丢弃过时记忆。此外,模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中,UniT实现了统一几何感知的最先进性能。
EMMA是一个物理信息多模态框架,能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学,并通过物理约束损失确保与微分方程一致。在超过100个场景(包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统)中,EMMA实现了稳健的多参数恢复,显著优于现有单模态和方程发现基线。代码与数据已开源。
针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题,现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架,适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险,实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题,引入了基于扩散模型的场景生成框架,可生成真实且具对抗性的场景。最终,该框架集成了统一风险图的建模与学习,以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明,该方法显著超越现有基线,提升了碰撞时间指标。
5月20日,全国首个面向家庭场景的通用机器人“拾光 S1”在武汉光谷发布。该机器人能够叠衣服、做饭、收拾餐桌及陪伴老人聊天,并支持持续学习新技能。与传统预设程序机器人不同,它通过自研具身智能模型理解任务并自主规划动作。研发公司极佳视界计划于今年三季度发布配套的具身智能大模型GigaBrain 1。机器人还具备柔顺控制机制,遇人或宠物会自动停止。目前,武汉地区的家庭已可申请成为“种子用户”参与试用。
京东在宿迁建成了全国首个具身智能数据采集社区。社区居民在进行擦桌子、叠衣服等日常家务时,只需佩戴京东自研的220克JoyEgoCam设备,即可自然采集上肢轨迹、力度分布等关键数据。此举旨在通过大规模、低成本的真实场景数据采集,解决高质量实操数据不足的产业瓶颈,目标在两年内积累超1000万小时数据,以训练更强大的具身大模型,推动机器人智能化发展。
Google DeepMind 将其 Genie 3 世界模型与多年积累的街景图像数据相结合,推出了一项新功能。用户现在可以在地图上指定一个真实地点,系统便能生成一个基于该地点的、可供行走和探索的 AI 生成世界。这一整合不仅为创意演示提供了强大工具,更重要的是,海量的街景数据成为了训练 AI 代理和机器人的重要战略资源,为人工智能在模拟现实环境中的交互与导航能力开辟了新路径。
Figure AI 正在进行一场全天候直播,实时展示其人形机器人执行包裹分拣任务。这场直播吸引了全球互联网用户的广泛关注与讨论,凸显出公众对人形机器人技术应用场景的浓厚兴趣。目前尚无迹象表明该公司将商业化部署该具体系统,但该现象已清晰展示了人形机器人在物流等领域的潜力预期,引发了关于其实际效能与未来角色的持续探讨。
理想汽车宣布推送OTA 8.5升级,核心新增手机一键遥控泊出功能。车主可通过理想汽车App远程操作,车辆自动驶出侧方或垂直车位。此次升级覆盖理想MEGA、i系列以及22至25款理想L系列车型。此外,新版本还优化了VLA司机大模型,提升绕行、变道及加减速的平顺性,并新增了辅助驾驶中误入非目标车道时的主动重规划能力。
东风奕派与华为乾崑正式签署战略合作升级协议,双方合作从智能驾驶、座舱等技术产品合作,全面升级为覆盖更多车型的深度协同。首款合作车型东风奕派M8将于5月23日全球首秀,搭载华为乾崑智驾ADS 5 Pro、鸿蒙座舱等全套解决方案。年内,包括M8在内的三款全新合作车型将陆续推出,覆盖大六座SUV、大五座SUV及性能轿跑市场。
近日,Waymo 自动驾驶出租车在美国亚特兰大市多处死胡同内出现集体“迷路”现象。据报道,近几周来,数十辆无人车频繁无故驶入并滞留于该区域,有居民反映仅清晨一小时内就有 50 辆车在一条死胡同来回行驶。该异常行为引发当地居民对交通扰民及周边儿童、宠物安全隐患的担忧。Waymo 公司已就此表示着手整改,但未说明问题根源,并强调其服务每周可完成超 50 万趟出行订单。
逐际动力公布了其全尺寸交互人形机器人 LimX Luna,将于5月25日16:00在夏季新品发布会上正式发布。该机器人姿态优雅,具备展示舞蹈动作的能力,但其动作流畅度尚不明确。逐际动力成立于2022年,总部位于深圳,是一家AI驱动的人形机器人公司,此前于2024年2月完成了2亿美元(约合13.64亿元人民币)的B轮融资。
现有室内场景合成方法常生成静态网格,难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括:通过规划-设计-批评循环生成对象资产请求,经五种代码生成策略转化为分部件的Blender Python程序,并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产,并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明,SceneCode提升了场景生成与提示词的一致性,产生了网格结构更清晰、包含可加载关节元数据的资产。
首都医科大学宣武医院宣布,全球首例“北脑1号”脑机接口联合脊髓电刺激治疗项目满一周年,取得重大突破。30岁患者志明在植入侵入式脑机接口与脊髓电刺激系统,并配合外骨骼后,从完全性脊髓损伤(ASIA A级)恢复至不完全性脊髓损伤(ASIA C级),实现神经功能跨级修复。该成果验证了“脑-脊髓-外骨骼”多模态联合调控系统的临床疗效,成功改写了晚期脊髓损伤功能不可逆的传统医学定论,标志着我国自主研发的前沿医疗技术取得重要进展。
针对现有3D生成方法在物理属性与对象类别上的局限,本文提出PhysX-Omni,一个统一的模拟就绪物理3D生成框架,可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法,能够无压缩地直接编码高分辨率3D结构,从而显著提升生成质量。同时,研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse,并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明,PhysX-Omni在3D生成与理解任务上均取得了优异性能,并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。
TechEx北美大会第二天对AI在企业中的应用展开了更具深度与批判性的审视,但整体基调乐观。会议开场提及了“AI墓地”现象,即许多在试点阶段表现良好的AI项目,在实际部署中遭遇困境。讨论聚焦于企业AI实施的障碍、可行路线图、安全性以及物理AI的发展方向,深入探讨了从概念验证到规模化落地过程中面临的核心挑战与应对策略。
研究团队推出了DexHoldem,一个基于ShadowHand机械手和德州扑克的现实世界系统级基准测试平台。平台包含1470个操作演示、物理策略基准和智能体感知基准。测试表明,π0.5模型在操作执行上表现最优,而Opus 4.7与GPT 5.5在感知任务上各有所长,揭示了视觉能力与状态恢复能力之间的差距。闭环案例研究证明感知与策略错误会在实际部署中累积。该平台统一评估了灵巧操作、感知与具身决策能力。
谷歌在2026年I/O开发者大会上宣布,将街景服务与Project Genie世界模型结合。Genie原本能生成可互动的虚拟环境,此次更新后可直接基于真实街景图像构建可探索的3D世界,用于AI智能体或机器人训练。用户可通过Google Maps选择美国地点并指定风格(如“石器时代”),生成定制化想象世界。该能力目前为实验性原型,仅支持美国地点,未来计划逐步扩展。
谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限,并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景,标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐,为用户带来更具现实感的交互与探索可能性。
法国AI公司Mistral AI收购了总部位于维也纳的初创公司Emmi AI。此次收购旨在扩大其服务范围,为欧洲各地的工业客户提供更完整的解决方案。Emmi AI是一家专注于物理AI领域的初创企业。