追觅S60 Pro旗舰扫地机器人推出限时优惠。关注俞浩社交媒体可享8折,水箱版原价4599元,京东国补后叠加“以旧换新”最低3398元;上下水版最低3869元。该产品具备33000Pa吸力、4700Pa高压活水洗、双目视觉避障(成功率99.2%)、9.75cm超薄机身、4cm越障及仿生机械臂贴边清洁(覆盖率99.9%)等功能。基站支持100℃高温洗拖布、自动集尘等,并接入大模型支持方言控制。
追觅S60 Pro旗舰扫地机器人推出限时优惠。关注俞浩社交媒体可享8折,水箱版原价4599元,京东国补后叠加“以旧换新”最低3398元;上下水版最低3869元。该产品具备33000Pa吸力、4700Pa高压活水洗、双目视觉避障(成功率99.2%)、9.75cm超薄机身、4cm越障及仿生机械臂贴边清洁(覆盖率99.9%)等功能。基站支持100℃高温洗拖布、自动集尘等,并接入大模型支持方言控制。
人形机器人流畅的富交互行为建模是一大挑战。ExoActor提出新框架,利用大规模视频生成模型的泛化能力,将任务指令与场景上下文输入,通过第三人称视频生成技术合成隐含机器人、环境与物体协调交互的合理执行过程,再将其转化为可执行的人形机器人行为序列。实验表明,该端到端系统能泛化至新场景且无需额外真实数据收集,为建模富交互行为提供了可扩展路径,有望推动通用人形智能发展。
具身智能需高保真仿真环境,但现有平台存在数据污染和灵活性限制。本研究提出World2Minecraft系统,基于3D语义占据预测将真实场景转换为结构化Minecraft环境,以支持视觉语言导航等任务。然而,重建质量受限于占据预测模型的数据稀缺和泛化能力不足。为此,团队开发了低成本、自动化数据采集流程,构建大规模定制化数据集MinecraftOcc,包含100,165张图像来自156个精细室内场景。实验表明,该数据集有效补充现有资源并对前沿方法构成显著挑战,提升了占据预测精度,同时凸显World2Minecraft作为可定制、可编辑平台对个性化具身AI研究的价值。
研究团队提出Odysseus框架,利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家,显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习,预训练视觉语言模型提供了强动作先验,减少了对人工动作工程的需求。实验表明,Odysseus在游戏进度上达到前沿模型的至少3倍,并在游戏内与跨游戏泛化中保持性能提升,同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。
研究团队提出了“部署中学习”(LWD)框架,用于对通用视觉-语言-动作(VLA)策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发,利用机器人集群自主运行和人工干预数据,形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据,LWD结合了用于鲁棒价值估计的分布隐式价值学习(DIVL)和用于基于流的动作生成器中策略提取的伴随匹配Q学习(QAM)。在16台双臂机器人集群的八项真实操作任务(包括语义商品补货与长时程任务)验证中,单一通用策略随经验积累平均成功率提升至95%,长时程任务改进尤为显著。
本文提出Map2World,一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界,确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节,在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识,即使在场景生成训练数据有限的情况下,也能实现跨领域的稳健泛化。实验表明,本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。
Neuralink推出专用手术机器人,旨在自动化脑机接口植入流程的关键步骤。该机器人采用五轴系统,配备8个摄像头和OCT扫描仪,可实时识别并避开脑组织,处理比头发更细的柔软植入线。最新演示中,机器人能直接刺穿硬脑膜,无需移除这层保护结构,从而缩短手术时间、降低感染风险。这些改进提升了植入过程的安全性、可靠性与可扩展性,为未来大规模应用奠定基础。
通用汽车在收缩电动车计划的同时,其Super Cruise高级驾驶辅助系统成为业务亮点,累计行驶里程已超16亿公里。公司正利用这些海量真实道路数据,通过每日模拟约100年人类驾驶经验的数字环境,训练下一代系统。通用计划于2028年在凯迪拉克凯雷德IQ上推出L3级脱手脱眼自动驾驶系统。公司CEO透露,近90%的自动驾驶代码由AI生成,并强调该系统未来将同时部署于燃油车和电动车,覆盖多品牌与不同价位车型。
软银集团计划在美国启动并推动其新成立的人工智能与机器人公司Roze进行首次公开募股。据《金融时报》报道,这家新公司的估值可能高达1000亿美元。此举标志着软银在AI和机器人领域的重大战略布局,旨在将相关业务整合并独立上市以获取市场资源与更高估值。
荣耀机器人“闪电”与“元气仔”于五一期间开启全国巡展,首站在深圳、广州、成都、北京四城的指定荣耀门店亮相。此前在2026年4月19日北京亦庄举行的人形机器人半程马拉松中,“闪电”机器人包揽冠、亚、季军,净用时分别为50分26秒、50分56秒和53分01秒。这三台自主导航机器人均打破了56分42秒的人类半马世界纪录。官方预告后续还将扩展至长沙、武汉等更多城市。
小鹏汽车在小鹏商城推出了一款灵感源自其全尺寸通用仿人机器人 IRON 的周边手办,售价 279 元。该手办融合了文艺复兴艺术的比例理念与现代工程视觉语言。IRON 机器人本身拥有高度仿生设计,包括仿人脊椎和 22 个自由度的灵巧手。它搭载 3 颗图灵 AI 芯片,算力达 2250TOPS,并采用全固态电池技术。此外,机器人还配备了自研的物理世界大模型体系,具备视觉语言理解、动作分析和逻辑推理能力,可实现环境实时感知与智能交互。
在第九届数字中国建设峰会上,中国移动发布了“灵犀机器人家族”,包括人形机器人和四足机器狗等形态。人形机器人零售价22.9万元/台,日租5199元;四足机器狗零售价3.99万元/台,两只起租日租699元。产品应用于家庭、养老、园区及展厅等场景,并提供销售、租赁、订阅等多种服务模式。技术方面,中国移动自研了“VLA-RAIL”实时异步推理框架,提升自主执行效率1.5倍,并搭载“韬驭”导航系统,以实现复杂环境下的自主移动。
软银集团正筹备成立名为Roze AI的新公司,专注于通过部署自主机器人自动化建造数据中心,以提升美国数据中心建设的效率。公司计划在2026年下半年进行首次公开募股,目标估值高达1000亿美元(约6848.64亿元人民币)。此举顺应科技企业扩建基础设施的自动化热潮,但软银内部对估值水平和上市时间表存在质疑,其过往投资如Zume的失败也增添了不确定性。
上汽奥迪宣布奥迪E7X将于5月8日开启预售。新车尺寸为5049/1997/1710mm,轴距3060mm。其搭载与Momenta合作的L3级辅助驾驶系统,配备宁德时代109度电池,CLTC续航751公里,并支持900V高压平台,充电10分钟可补能429公里。车辆零百加速3.90秒,配备quattro全时智能四驱及后轮转向等技术。内饰方面,拥有59英寸中控屏、奥迪智慧客厅及BOSE音响系统。
宇树科技全国首家直营旗舰店于北京王府井开业,店内展示多款机器人产品。针对熊猫机器人创意抄袭魔法原子的质疑,宇树科技CMO王其鑫回应称,公司早在去年11月、12月就已发布熊猫外观机器狗视频,早于魔法原子在今年2月春晚的首次亮相。他解释该产品是在四足机器人基础上加装熊猫外观套件实现的。魔法原子曾作为2026年央视春晚战略合作伙伴,派出上百台熊猫造型机器人登台。
宇树科技发布新款双臂人形机器人,起售价2.69万元。该机器人主打上半身双臂操作,配备视觉双目算力模组,支持15至31个自由度,手臂自由度可选5x2或7x2。机身和头部各搭载8核CPU,头部模组算力达10TOPS。下半身可选固定底座或移动底盘,末端执行器可更换为双指、三指或五指灵巧手。产品提供四个不同配置版本。
研究团队提出X-WAM,一个统一4D世界模型,首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界,并采用轻量级结构适配器复制预训练扩散Transformer的末端模块,形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术,在推理时采用异步去噪调度,能以更少步数快速解码动作实现实时执行,同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,其4D重建与生成质量在视觉和几何指标上均超越现有方法。
世界模型作为预测环境动态的表征,是机器人学习的核心,支撑策略学习、规划与仿真。本文从机器人学习视角系统梳理了其研究现状,涵盖模型与策略的耦合方式、作为强化学习仿真器的功能,以及机器人视频世界模型向可控、结构化及基础模型级范式的演进。综述进一步关联了导航与自动驾驶应用,总结了相关数据集、基准与评估方法,旨在厘清关键范式并指出具身智能中预测建模的未来挑战。为追踪进展,作者将同步维护更新的GitHub资源库。
现有驾驶世界模型多专注于未来场景生成,而大语言模型虽具推理能力却无法预测几何演变,导致语义理解与物理模拟之间存在鸿沟。为此,我们提出HERMES++,一个将3D场景理解与未来几何预测集成于单一框架的统一模型。其核心设计包括:利用BEV表征整合多视角空间信息;引入LLM增强的世界查询以促进知识迁移;设计“当前-未来链接”来弥合时序差距,使几何演变基于语义上下文;以及采用联合几何优化策略,整合显式约束与隐式正则化以确保结构完整性。在多个基准测试中,HERMES++在未来的点云预测和3D场景理解任务上均超越专用方法,展现出卓越性能。模型与代码已开源。
美团室内外智能配送机器人“小黄蜂”在重庆江北国际机场T3航站楼投入运营。旅客通过美团App下单机场内商家商品后,可选择该机器人提供登机口直达配送服务,最快10分钟收货。机器人搭载美团自研“星眸”垂域多模态模型,能同时理解视觉、语言及环境信息,并依托“海雀”AIoT物联网平台实现高效协同。据悉,下一代“小黄蜂”将配备机械臂,抓取标准包装成功率超95%,未来接入大语言模型后,还能通过语音指令接收任务,并提供航班查询等便民服务。
生数科技发布通用世界行动模型 MotuBrain,主打“为行动而生”,旨在推动智能体在物理世界中的感知与交互能力。
日本村田制作所、早稻田大学与tmsuk等机构于4月28日公开了国产人形机器人“SEIMEI”的初期验证机。该机器人高140厘米、重49公斤,以阴阳师安倍晴明命名。演示临近时突发故障,未能展示行走,计划修复后于5月底再次亮相。项目目标是在2029年3月底前开发出用于受灾现场等的量产型号,目前已有2所大学和14家企业参与,耗时4个月完成原型机。其身体部件均为日本国产,但控制核心GPU采用了英伟达产品。
华为乾崑与启境汽车发布了新一代面向自动驾驶的全链路冗余架构。该架构具备硬件八大冗余系统,包括供电、转向、制动、通信、定位、算力域控、感知及HMI交互,支持备用系统在主系统失效时即时无感切换,以保障安全。例如采用双路独立供电、双SOC芯片算力协同,并通过触觉、视觉、听觉多模态交互提示接管。搭载此架构的启境GT7智能猎装车计划于6月上市。
宇树科技全国首家直营店在北京王府井银泰in88商场1层开业,消费者可近距离体验机器狗和人形机器人。该店在2025年底已开始装修围挡,近期通过招聘信息透露门店产品顾问岗位薪资为10-15K·13薪,并要求具备一年以上消费电子门店工作经验。
研究团队提出了一种身份感知的人体运动生成框架IAM,旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号(自然语言描述和视觉线索)表征身份,并引入运动与形状联合生成范式,能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行,结果表明该方法在保持高运动质量的同时,显著提升了运动真实感及运动与身份的一致性。
纽约眼科医生埃里克·罗森伯格借助苹果Vision Pro及手术平台ScopeXR,成功完成了首例及后续数百例白内障手术。该平台可将3D手术显微镜画面实时传输至头显,提供立体可视化视角并叠加术前数据,同时支持其他医生远程虚拟参与协作。此举是苹果将Vision Pro重点拓展至医疗等专业应用领域的例证。目前,苹果已暂停新款头显研发,转向轻量化智能眼镜方向。
影石创新发布2025年及2026年第一季度业绩,营收增长显著。其中2025年营收97.41亿元,同比增74.76%;2026年Q1营收24.81亿元,同比增83.11%。因战略投入加大、市场竞争及存储元器件涨价影响,公司利润指标有所下滑。公司正从硬件生产向影像生态构建者加速转型,旗下云台相机、无线领夹麦克风及无人机三大新品预计一年内上市。创始人刘靖康首次阐明打造“摄影机器人”的长期愿景,表示将加速补齐AI能力,并与多家具身智能企业展开合作。
为应对游客增长与劳动力短缺,日本航空将于5月起在羽田机场试点部署宇树科技G1人形机器人。该机器人将协助地勤人员搬运行李和货物,演示中已能完成将货物搬运至飞机传送带等任务。此次试点由GMO Internet Group协助,利用英伟达Isaac Simulator在虚拟环境中训练机器人并创建数字孪生,优化后迁移至实体机器以实现顺畅操作。日本面临老龄化挑战,预计到2040年需要超过650万外国劳动力以维持经济增长。
4月27日新疆科技学院运动会开幕式上,一台参与表演的人形机器人失控,连续跌倒又跳起,并胡乱挥拳踢腿。事发时周围是身穿民族服装跳舞的学生方阵,场面一度混乱。校方和学生确认,机器人在出现异常后很快被工作人员带走,事件未造成人员受伤。该机器人来自信息科学与工程学院、人工智能学院方队,在名为《科技浪潮·智引未来》的节目中表演。
韩国Kakao Mobility公布了其L4自动驾驶技术蓝图,旨在通过自研实现高级别自动驾驶。该公司本月已在首尔江南区启动夜间Robotaxi付费运营。其技术路径包括开发能独立完成感知、判断、控制的全栈ML模型,结合硬件冗余确保安全,并利用车辆验证平台融合虚实数据以提升技术成熟度。同时,公司将通过智能安全管理平台进行3D可视化监控,并计划开发不间断监控中心与基于VLM的异常预警系统。Kakao Mobility还倡导构建开放生态系统,推动行业共享训练数据、高精地图与平台API。
格力电器CMO朱磊表示,公司已具备制造“人形机器人”的能力,所有机器人零部件均可自研自产。格力累计投入使用的自主研制工业机器人超过2000台,生产效率提升80%。公司深耕伺服电机、驱动器等核心技术,机器人产品负载已实现1kg至600kg全系列覆盖,可应用于机械制造、汽车、家电等多个领域。董事长董明珠此前透露,格力做机器人多年,并与多家世界500强企业深度合作,下一步将加速布局人工智能。
元戎启行与高通共同宣布,基于高通Snapdragon Ride平台至尊版(骁龙8797)芯片打造的ADAS方案已开始面向量产项目出货。这是业界首款基于该平台的量产ADAS解决方案,将搭载于中国智能网联汽车品牌的旗舰车型。该方案推动了VLA模型在车端的实际部署,使系统具备理解、推理与决策能力,提升驾驶安全性与体验。双方还正基于同一平台开发舱驾融合方案,以实现驾驶辅助与车内智能交互的协同。
酷态科与中电科机器人有限公司达成独家战略合作,共同研发外骨骼机器人。双方已推出原型机,搭载先进下肢意图识别技术,能适应多种复杂地形。该设备最大扭矩为34N·m,可提供约35%的助力,最高速度达18km/h,并采用“换弹式”快速补能设计。首款原型机将投入苏超联赛南京赛区运营,并于5月2日在“苏超”酷态科公益充电站互动展区首次公开亮相。
教育部发布《普通高等学校本科专业目录(2026年)》,新增38种本科专业,目录现涵盖13个门类、883种专业。为适应新兴交叉学科发展,目录在“交叉学科”门类中首批列入未来机器人、具身智能、脑机科学与技术等15种专业。新增专业精准对接国家战略与产业需求,包括能源科学与工程、深地科学与工程、农业机器人、生物制造、数字文旅、商业人工智能等。其中,具身智能专业获哈尔滨工业大学等9所高校增设。“十四五”期间全国高校专业调整幅度超30%,今年调整比例首次突破10%。
研究团队提出了Zero-to-CAD框架,用于大规模合成可执行的CAD构造序列。该方法将大型语言模型嵌入一个反馈驱动的CAD环境中,通过智能体搜索的方式迭代生成、执行和验证代码,以提升几何有效性和操作多样性。该框架成功合成了约一百万个可执行、可读且可编辑的CAD序列,其操作词汇远超基础的草图拉伸流程。团队同时发布了一个包含10万个高质量模型的精选子集。基于此合成数据微调的视觉语言模型,能够从多视角图像重建可编辑的CAD程序,其性能超越了包括GPT-5.2在内的强基线,实现了无需真实构造历史数据即可引导序列生成能力。Zero-to-CAD弥合了几何规模与参数化可解释性之间的鸿沟。
在2026北京车展期间,小马智行CEO彭军批评现行自动驾驶分级体系“极其无厘头”,主张以事故责任归属为核心重新定义标准。他强调,只要司机仍是事故第一责任人,无论功能多强都属辅助驾驶(L2),所谓L3本质上仍是L2;只有当车辆完全承担驾驶责任时,才是真正的自动驾驶(L4)。他明确表示“世界上不存在L3”。同时,小马智行与丰田合作研发的L4级无人驾驶Robotaxi(铂智4X)已量产下线,计划2026年在一线城市部署千台。
红旗与Unity中国签署深化合作协议,联合首发下一代AIOS前瞻设计。该设计以AI驱动的粒子化表达为核心,打通语音助手、桌面、应用等全场景交互,实现视觉与逻辑体验的连贯。双方将构建从设计到研发的闭环,共同打造AI+3D开发工具平台与AIGC资产管道,提升研发效率。合作还涵盖数智生态探索,包括行业首发的车载游戏合作。
NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型,专门用于自适应超声成像。该模型能够直接处理原始超声射频数据,实时生成高质量的诊断图像。它通过结合物理定律与深度学习,显著提升了图像分辨率和对比度,同时将传统处理流程中的多个步骤整合为单一前向传播,大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。
RADIO-ViPE 是一个在线语义SLAM系统,能够在动态环境中实现几何感知的开放词汇关联,将任意自然语言查询与定位的3D区域和物体进行匹配。该系统直接处理原始单目RGB视频流,无需预先获取相机内参、深度传感器或位姿初始化。它通过将来自聚合基础模型的多模态嵌入与几何场景信息在初始化、优化和因子图连接中进行紧耦合,提升了多模态地图的一致性。优化过程采用了自适应鲁棒核函数,以同时处理主动移动的物体和因智能体移动而改变位置的场景元素。实验表明,RADIO-ViPE 在动态TUM-RGBD基准测试中取得了最先进的结果,其性能可与依赖标定数据和静态场景假设的离线开放词汇方法相竞争。该系统为自主机器人和无约束野外视频流提供了鲁棒的开放词汇语义基础。