ADI正在展示其将大型AI模型能力从云端下沉到边缘设备的技术路径,核心是通过模型蒸馏、定制化协同设计芯片等手段实现高效推理。同时,ADI正为机器人社区构建开源的基准测试与物理排行榜,并致力于开发多模态触觉传感器、高保真仿真资产等,以最小化仿真与现实之间的差距。这体现了其从系统层面推动硬件协同创新与数据采集的生态化产品战略。
ADI正在展示其将大型AI模型能力从云端下沉到边缘设备的技术路径,核心是通过模型蒸馏、定制化协同设计芯片等手段实现高效推理。同时,ADI正为机器人社区构建开源的基准测试与物理排行榜,并致力于开发多模态触觉传感器、高保真仿真资产等,以最小化仿真与现实之间的差距。这体现了其从系统层面推动硬件协同创新与数据采集的生态化产品战略。
5月20日,全国首个面向家庭场景的通用机器人“拾光 S1”在武汉光谷发布。该机器人能够叠衣服、做饭、收拾餐桌及陪伴老人聊天,并支持持续学习新技能。与传统预设程序机器人不同,它通过自研具身智能模型理解任务并自主规划动作。研发公司极佳视界计划于今年三季度发布配套的具身智能大模型GigaBrain 1。机器人还具备柔顺控制机制,遇人或宠物会自动停止。目前,武汉地区的家庭已可申请成为“种子用户”参与试用。
京东在宿迁建成了全国首个具身智能数据采集社区。社区居民在进行擦桌子、叠衣服等日常家务时,只需佩戴京东自研的220克JoyEgoCam设备,即可自然采集上肢轨迹、力度分布等关键数据。此举旨在通过大规模、低成本的真实场景数据采集,解决高质量实操数据不足的产业瓶颈,目标在两年内积累超1000万小时数据,以训练更强大的具身大模型,推动机器人智能化发展。
Google DeepMind 将其 Genie 3 世界模型与多年积累的街景图像数据相结合,推出了一项新功能。用户现在可以在地图上指定一个真实地点,系统便能生成一个基于该地点的、可供行走和探索的 AI 生成世界。这一整合不仅为创意演示提供了强大工具,更重要的是,海量的街景数据成为了训练 AI 代理和机器人的重要战略资源,为人工智能在模拟现实环境中的交互与导航能力开辟了新路径。
Figure AI 正在进行一场全天候直播,实时展示其人形机器人执行包裹分拣任务。这场直播吸引了全球互联网用户的广泛关注与讨论,凸显出公众对人形机器人技术应用场景的浓厚兴趣。目前尚无迹象表明该公司将商业化部署该具体系统,但该现象已清晰展示了人形机器人在物流等领域的潜力预期,引发了关于其实际效能与未来角色的持续探讨。
理想汽车宣布推送OTA 8.5升级,核心新增手机一键遥控泊出功能。车主可通过理想汽车App远程操作,车辆自动驶出侧方或垂直车位。此次升级覆盖理想MEGA、i系列以及22至25款理想L系列车型。此外,新版本还优化了VLA司机大模型,提升绕行、变道及加减速的平顺性,并新增了辅助驾驶中误入非目标车道时的主动重规划能力。
东风奕派与华为乾崑正式签署战略合作升级协议,双方合作从智能驾驶、座舱等技术产品合作,全面升级为覆盖更多车型的深度协同。首款合作车型东风奕派M8将于5月23日全球首秀,搭载华为乾崑智驾ADS 5 Pro、鸿蒙座舱等全套解决方案。年内,包括M8在内的三款全新合作车型将陆续推出,覆盖大六座SUV、大五座SUV及性能轿跑市场。
近日,Waymo 自动驾驶出租车在美国亚特兰大市多处死胡同内出现集体“迷路”现象。据报道,近几周来,数十辆无人车频繁无故驶入并滞留于该区域,有居民反映仅清晨一小时内就有 50 辆车在一条死胡同来回行驶。该异常行为引发当地居民对交通扰民及周边儿童、宠物安全隐患的担忧。Waymo 公司已就此表示着手整改,但未说明问题根源,并强调其服务每周可完成超 50 万趟出行订单。
逐际动力公布了其全尺寸交互人形机器人 LimX Luna,将于5月25日16:00在夏季新品发布会上正式发布。该机器人姿态优雅,具备展示舞蹈动作的能力,但其动作流畅度尚不明确。逐际动力成立于2022年,总部位于深圳,是一家AI驱动的人形机器人公司,此前于2024年2月完成了2亿美元(约合13.64亿元人民币)的B轮融资。
现有室内场景合成方法常生成静态网格,难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括:通过规划-设计-批评循环生成对象资产请求,经五种代码生成策略转化为分部件的Blender Python程序,并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产,并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明,SceneCode提升了场景生成与提示词的一致性,产生了网格结构更清晰、包含可加载关节元数据的资产。
首都医科大学宣武医院宣布,全球首例“北脑1号”脑机接口联合脊髓电刺激治疗项目满一周年,取得重大突破。30岁患者志明在植入侵入式脑机接口与脊髓电刺激系统,并配合外骨骼后,从完全性脊髓损伤(ASIA A级)恢复至不完全性脊髓损伤(ASIA C级),实现神经功能跨级修复。该成果验证了“脑-脊髓-外骨骼”多模态联合调控系统的临床疗效,成功改写了晚期脊髓损伤功能不可逆的传统医学定论,标志着我国自主研发的前沿医疗技术取得重要进展。
针对现有3D生成方法在物理属性与对象类别上的局限,本文提出PhysX-Omni,一个统一的模拟就绪物理3D生成框架,可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法,能够无压缩地直接编码高分辨率3D结构,从而显著提升生成质量。同时,研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse,并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明,PhysX-Omni在3D生成与理解任务上均取得了优异性能,并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。
TechEx北美大会第二天对AI在企业中的应用展开了更具深度与批判性的审视,但整体基调乐观。会议开场提及了“AI墓地”现象,即许多在试点阶段表现良好的AI项目,在实际部署中遭遇困境。讨论聚焦于企业AI实施的障碍、可行路线图、安全性以及物理AI的发展方向,深入探讨了从概念验证到规模化落地过程中面临的核心挑战与应对策略。
研究团队推出了DexHoldem,一个基于ShadowHand机械手和德州扑克的现实世界系统级基准测试平台。平台包含1470个操作演示、物理策略基准和智能体感知基准。测试表明,π0.5模型在操作执行上表现最优,而Opus 4.7与GPT 5.5在感知任务上各有所长,揭示了视觉能力与状态恢复能力之间的差距。闭环案例研究证明感知与策略错误会在实际部署中累积。该平台统一评估了灵巧操作、感知与具身决策能力。
谷歌在2026年I/O开发者大会上宣布,将街景服务与Project Genie世界模型结合。Genie原本能生成可互动的虚拟环境,此次更新后可直接基于真实街景图像构建可探索的3D世界,用于AI智能体或机器人训练。用户可通过Google Maps选择美国地点并指定风格(如“石器时代”),生成定制化想象世界。该能力目前为实验性原型,仅支持美国地点,未来计划逐步扩展。
谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限,并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景,标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐,为用户带来更具现实感的交互与探索可能性。
在《福布斯》访谈中,埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”,并计划上诉。其核心预测包括:AI发展呈指数级,5年内数字智能或超全人类智能总和;全球经济规模有望数年内翻倍;人形机器人将达数亿台。SpaceX致力于开发全复用火箭,以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新,能恢复残障人士机能。此外,他还提及了隧道交通、合成医学等机遇,整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。
RADAR正通过融合摄像头与RFID的混合感知技术,打造“实体店的操作系统”。该系统能将实体零售环境转化为机器可读空间,提供精度达10厘米的实时库存地图,解决长期困扰行业的库存可视化难题。公司近期完成1.7亿美元B轮融资,估值突破10亿美元,其Physical AI技术已在超1400家门店部署,实现99%的单品级实时库存准确率,致力于弥补实体零售因库存不透明导致的每年约万亿美元损失。
Today, RADAR announced a $170 million Series B, bringing our valuation to more than $1 billion. We believe Physical AI c...
法国AI公司Mistral AI收购了总部位于维也纳的初创公司Emmi AI。此次收购旨在扩大其服务范围,为欧洲各地的工业客户提供更完整的解决方案。Emmi AI是一家专注于物理AI领域的初创企业。
百度智能云提出给大模型一双手,让AI真正触碰物理世界。该方案旨在让大模型具备物理交互能力,实现与现实世界的直接操作。
特斯拉近期在北京、上海、天津等9个城市公开招聘智驾测试(实车测试)技师,该职位隶属于研发-自动驾驶Autopilot部门。岗位要求候选人在公共道路、测试跑道等场景对车辆进行实地测试,需具备3年以上驾龄、熟悉ADAS/Autopilot系统、掌握车辆应急处理能力,并拥有出色的英语沟通水平。此举被视为特斯拉为推动智能辅助驾驶系统在中国早日落地而开展的人才储备行动。
宇树科技于5月19日发布一镜到底演示视频,展示了其G1人形机器人通过语音指令自主实时生成任意动作的能力。该技术突破在于无需预设动作,由AI系统根据语音直接驱动机器人实时生成动作,实现了真正的语音控制与动作生成闭环。演示过程中存在少量延迟,动作流畅度有待优化。G1机器人于2024年发布,具备23至43个关节电机,体重约35kg,身高约127cm,并配备力控灵巧手。
5月16日,火箭院“智行”膝关节智能助行外骨骼机器人在北京千灵山完成首次实地测试,20位志愿者参与体验。该产品由北京精密机电控制设备研究所自主研发,总重仅2.6千克,可在30秒内穿戴,关节处提供最大7公斤主动动力,续航达4小时。测试数据显示,上坡时能降低使用者约15%的体能消耗,下坡时可减少膝关节冲击力约30%。具备上坡助力、下山缓冲和膝关节防护三大核心功能,旨在为中老年人、户外运动爱好者及康复期患者提供行动辅助。
You can't lift a fridge with just your hands. Your whole body needs to conform to its shape, and bear the load between y...
Figure AI安排旗下人形机器人与一名人类实习生进行10小时分拣包裹对决。最终,人类实习生以12924件的总量,仅以192件的微弱优势险胜机器人。数据显示,人类平均单件用时2.79秒,机器人用时2.83秒。此前,该公司已连续直播机器人分拣作业,CEO宣称这将是人类最后一次赢得此类比拼。但专家指出,目前机器人因精准度问题,尚无法投入商用,相关技术仍有很长的路要走。
地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型,通过 MoE 稀疏激活与 KV-cache 推理机制,在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练,并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。
特斯拉计划为其 Robotaxi 应用推出26.4.5版本重大更新,以应对大规模投放无方向盘 Cybercab 无人出租车的需求。本次更新核心包括:新增远程调度员语音通话功能,乘客可实时联系后台;上线主动远程协助,系统能预判需求并提供建议。针对无方向盘车型,新增了限速2英里/小时以内的人工临时接管与远程启动功能,用于低速维保或移车等场景。此外,约车派单功能升级,支持柔性派单与多目的地行程,并实现手机与车机的深度联动,支持远程调节车内设置。
波士顿动力于5月18日发布视频,展示其Atlas人形机器人通过AI驱动完成搬运任务。机器人能够协调全身抬起一台冰箱,准确走到桌旁并将物体放置于桌上,过程中上半身完成了180度旋转。官方指出,Atlas利用强化学习模拟训练,以适应现实环境中物体的不同位置、质量和抓力。该项目旨在将Atlas打造为通用的实体工作工具,此次演示标志着其在硬件与行为能力上的重要进展。
本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。
研究者提出了WorldString,一种神经架构,能够直接从点云或RGB-D视频流中学习,从而建模真实世界物体的状态流形。该架构旨在作为物理世界模型的基础构建模块,充当通用的数字孪生体。其关键特点是完全可微分,这使其能够与策略学习和神经动力学模型进行无缝集成。WorldString为当前主要通过视频生成或动态场景重建来处理物体行动状态的方法,提供了一种统一且基于原理的建模新思路。
本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限,提出了AtlasVA框架。该框架无需教师监督,将记忆组织为三层互补的视觉结构:空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱,并将其转化为基于势函数的内在奖励,以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中,AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。