Meta Platforms Inc. has acquired Assured Robot Intelligence, a startup developing artificial intelligence models for rob...
Meta Platforms Inc. has acquired Assured Robot Intelligence, a startup developing artificial intelligence models for rob...
起亚与韩国警察厅合作推出基于PV5车型的高科技AI警车。该车集成车顶无人机自动起降系统,无人机配备热成像仪和90倍变焦摄像头,可进入狭窄危险区域执行巡逻、追踪与搜救任务,并利用车辆V2L系统自动充电。车顶三台AI摄像头实现360度无盲区监控,能通过衣着配饰实时识别嫌疑人,并可检测携带武器人员、倒地市民及人群密度风险。该警车计划于2026年6月在首都圈启动试点,用于犯罪预防与快速响应。
全国首个交通管理机器人中队“杭警智行”于“五一”假期首日在杭州正式上岗。首批15台机器人部署在西湖景区周边、湖滨商圈及延安路、西湖大道等主干道沿线,覆盖多个重要交通节点。它们主要承担非机动车和行人违法劝导、交通指挥、游客问路指引等任务,与路面警力协同作战以提升管理效能。机器人已全面接入大语言模型,在断桥、动物园等景区路口可通过语音提问提供路线规划,在钱江路、延安路等路段则重点监控违法行为。
全国首部具身智能机器人领域地方性法规《杭州市促进具身智能机器人产业发展条例》于5月1日正式施行。该条例率先对“具身智能机器人”作出明确定义,填补了概念空白,并明确了产业与监管边界,旨在推动创新资源向算法、感知等核心技术集聚。条例同时支持关键部件研发与平台建设,并推动机器人在应急救援、医疗康养等公共场景落地。目前杭州已集聚机器人相关企业700余家,2025年该产业集群产值达1068亿元。
追觅S60 Pro旗舰扫地机器人推出限时优惠。关注俞浩社交媒体可享8折,水箱版原价4599元,京东国补后叠加“以旧换新”最低3398元;上下水版最低3869元。该产品具备33000Pa吸力、4700Pa高压活水洗、双目视觉避障(成功率99.2%)、9.75cm超薄机身、4cm越障及仿生机械臂贴边清洁(覆盖率99.9%)等功能。基站支持100℃高温洗拖布、自动集尘等,并接入大模型支持方言控制。
LongCat团队推出LARYBench基准,旨在评估AI模型是否从视频中真正学习动作,而非仅在后端机器人策略中表现良好。该基准聚焦模型从视频提取的潜在动作表示,通过超过120万视频片段等数据,将评估拆分为动作分类与控制回归两个清晰测试。关键发现是,通用自监督视觉模型(如V-JEPA 2和DINOv3)表现优于专用具身模型,表明强大视觉表示已蕴含丰富动作知识,且潜在特征空间比像素重建更利于机器人控制映射。这为利用丰富视频数据解决机器人训练数据稀缺问题提供了新方向。
人形机器人流畅的富交互行为建模是一大挑战。ExoActor提出新框架,利用大规模视频生成模型的泛化能力,将任务指令与场景上下文输入,通过第三人称视频生成技术合成隐含机器人、环境与物体协调交互的合理执行过程,再将其转化为可执行的人形机器人行为序列。实验表明,该端到端系统能泛化至新场景且无需额外真实数据收集,为建模富交互行为提供了可扩展路径,有望推动通用人形智能发展。
具身智能需高保真仿真环境,但现有平台存在数据污染和灵活性限制。本研究提出World2Minecraft系统,基于3D语义占据预测将真实场景转换为结构化Minecraft环境,以支持视觉语言导航等任务。然而,重建质量受限于占据预测模型的数据稀缺和泛化能力不足。为此,团队开发了低成本、自动化数据采集流程,构建大规模定制化数据集MinecraftOcc,包含100,165张图像来自156个精细室内场景。实验表明,该数据集有效补充现有资源并对前沿方法构成显著挑战,提升了占据预测精度,同时凸显World2Minecraft作为可定制、可编辑平台对个性化具身AI研究的价值。
研究团队提出Odysseus框架,利用强化学习训练视觉语言模型在《超级马里奥大陆》中执行超过100轮的长序列决策。该方法采用改进的PPO算法与轻量级轮次评论家,显著提升了训练稳定性和样本效率。相比从零开始的深度强化学习,预训练视觉语言模型提供了强动作先验,减少了对人工动作工程的需求。实验表明,Odysseus在游戏进度上达到前沿模型的至少3倍,并在游戏内与跨游戏泛化中保持性能提升,同时未损害模型的通用领域能力。该研究为在多模态长序列任务中稳定应用强化学习提供了关键要素与实践指导。
研究团队提出了“部署中学习”(LWD)框架,用于对通用视觉-语言-动作(VLA)策略进行持续的集群规模离线到在线强化学习。该系统从预训练策略出发,利用机器人集群自主运行和人工干预数据,形成部署、经验共享、策略改进与再部署的闭环。为稳定处理异构稀疏奖励数据,LWD结合了用于鲁棒价值估计的分布隐式价值学习(DIVL)和用于基于流的动作生成器中策略提取的伴随匹配Q学习(QAM)。在16台双臂机器人集群的八项真实操作任务(包括语义商品补货与长时程任务)验证中,单一通用策略随经验积累平均成功率提升至95%,长时程任务改进尤为显著。
本文提出Map2World,一个创新的3D世界生成框架。它允许用户根据任意形状与尺度的自定义分割地图来生成3D世界,确保了全局尺度一致性与大范围环境的布局灵活性。该方法通过一个细节增强器网络来生成精细场景细节,在融入全局结构信息的同时保持整体场景连贯性。整个流程利用资产生成器的强先验知识,即使在场景生成训练数据有限的情况下,也能实现跨领域的稳健泛化。实验表明,本方法在用户可控性、尺度一致性和内容连贯性上显著优于现有方法。
Unitree正式推出双臂人形机器人,售价为4290美元,标志着人形机器人进入“平民化”新阶段。该机器人高123厘米,具备15-31个自由度,集成了双目立体视觉、阵列麦克风和扬声器,支持自然语言交互。其双臂灵活,末端执行器可快速更换,并支持拖拽示教和底层全开放SDK,便于开发。设计轻量紧凑,目标应用场景涵盖工业装配、实验室操作乃至未来家务,旨在为科研、教育及创业等领域提供可及的人形机器人平台。
Unitree Launch | Dual-Arm Humanoid Robot, from $4290🤩 Powered by high-performance motors and sensors, with integrated b...
Neuralink推出专用手术机器人,旨在自动化脑机接口植入流程的关键步骤。该机器人采用五轴系统,配备8个摄像头和OCT扫描仪,可实时识别并避开脑组织,处理比头发更细的柔软植入线。最新演示中,机器人能直接刺穿硬脑膜,无需移除这层保护结构,从而缩短手术时间、降低感染风险。这些改进提升了植入过程的安全性、可靠性与可扩展性,为未来大规模应用奠定基础。
通用汽车在收缩电动车计划的同时,其Super Cruise高级驾驶辅助系统成为业务亮点,累计行驶里程已超16亿公里。公司正利用这些海量真实道路数据,通过每日模拟约100年人类驾驶经验的数字环境,训练下一代系统。通用计划于2028年在凯迪拉克凯雷德IQ上推出L3级脱手脱眼自动驾驶系统。公司CEO透露,近90%的自动驾驶代码由AI生成,并强调该系统未来将同时部署于燃油车和电动车,覆盖多品牌与不同价位车型。
Unitree Launch | Dual-Arm Humanoid Robot, from $4290🤩 Powered by high-performance motors and sensors, with integrated b...
软银集团计划在美国启动并推动其新成立的人工智能与机器人公司Roze进行首次公开募股。据《金融时报》报道,这家新公司的估值可能高达1000亿美元。此举标志着软银在AI和机器人领域的重大战略布局,旨在将相关业务整合并独立上市以获取市场资源与更高估值。
荣耀机器人“闪电”与“元气仔”于五一期间开启全国巡展,首站在深圳、广州、成都、北京四城的指定荣耀门店亮相。此前在2026年4月19日北京亦庄举行的人形机器人半程马拉松中,“闪电”机器人包揽冠、亚、季军,净用时分别为50分26秒、50分56秒和53分01秒。这三台自主导航机器人均打破了56分42秒的人类半马世界纪录。官方预告后续还将扩展至长沙、武汉等更多城市。
小鹏汽车在小鹏商城推出了一款灵感源自其全尺寸通用仿人机器人 IRON 的周边手办,售价 279 元。该手办融合了文艺复兴艺术的比例理念与现代工程视觉语言。IRON 机器人本身拥有高度仿生设计,包括仿人脊椎和 22 个自由度的灵巧手。它搭载 3 颗图灵 AI 芯片,算力达 2250TOPS,并采用全固态电池技术。此外,机器人还配备了自研的物理世界大模型体系,具备视觉语言理解、动作分析和逻辑推理能力,可实现环境实时感知与智能交互。
在第九届数字中国建设峰会上,中国移动发布了“灵犀机器人家族”,包括人形机器人和四足机器狗等形态。人形机器人零售价22.9万元/台,日租5199元;四足机器狗零售价3.99万元/台,两只起租日租699元。产品应用于家庭、养老、园区及展厅等场景,并提供销售、租赁、订阅等多种服务模式。技术方面,中国移动自研了“VLA-RAIL”实时异步推理框架,提升自主执行效率1.5倍,并搭载“韬驭”导航系统,以实现复杂环境下的自主移动。
软银集团正筹备成立名为Roze AI的新公司,专注于通过部署自主机器人自动化建造数据中心,以提升美国数据中心建设的效率。公司计划在2026年下半年进行首次公开募股,目标估值高达1000亿美元(约6848.64亿元人民币)。此举顺应科技企业扩建基础设施的自动化热潮,但软银内部对估值水平和上市时间表存在质疑,其过往投资如Zume的失败也增添了不确定性。
上汽奥迪宣布奥迪E7X将于5月8日开启预售。新车尺寸为5049/1997/1710mm,轴距3060mm。其搭载与Momenta合作的L3级辅助驾驶系统,配备宁德时代109度电池,CLTC续航751公里,并支持900V高压平台,充电10分钟可补能429公里。车辆零百加速3.90秒,配备quattro全时智能四驱及后轮转向等技术。内饰方面,拥有59英寸中控屏、奥迪智慧客厅及BOSE音响系统。
宇树科技全国首家直营旗舰店于北京王府井开业,店内展示多款机器人产品。针对熊猫机器人创意抄袭魔法原子的质疑,宇树科技CMO王其鑫回应称,公司早在去年11月、12月就已发布熊猫外观机器狗视频,早于魔法原子在今年2月春晚的首次亮相。他解释该产品是在四足机器人基础上加装熊猫外观套件实现的。魔法原子曾作为2026年央视春晚战略合作伙伴,派出上百台熊猫造型机器人登台。
宇树科技发布新款双臂人形机器人,起售价2.69万元。该机器人主打上半身双臂操作,配备视觉双目算力模组,支持15至31个自由度,手臂自由度可选5x2或7x2。机身和头部各搭载8核CPU,头部模组算力达10TOPS。下半身可选固定底座或移动底盘,末端执行器可更换为双指、三指或五指灵巧手。产品提供四个不同配置版本。
研究团队提出X-WAM,一个统一4D世界模型,首次在单一框架内整合了实时机器人动作执行与高保真4D世界合成。该模型通过预测多视角RGB-D视频来想象未来世界,并采用轻量级结构适配器复制预训练扩散Transformer的末端模块,形成专用深度预测分支以高效获取空间信息。其核心创新异步噪声采样技术,在推理时采用异步去噪调度,能以更少步数快速解码动作实现实时执行,同时保留完整步数生成高保真视频。模型在超过5800小时机器人数据上预训练,在RoboCasa和RoboTwin 2.0基准测试中分别达到79.2%和90.7%的平均成功率,其4D重建与生成质量在视觉和几何指标上均超越现有方法。
世界模型作为预测环境动态的表征,是机器人学习的核心,支撑策略学习、规划与仿真。本文从机器人学习视角系统梳理了其研究现状,涵盖模型与策略的耦合方式、作为强化学习仿真器的功能,以及机器人视频世界模型向可控、结构化及基础模型级范式的演进。综述进一步关联了导航与自动驾驶应用,总结了相关数据集、基准与评估方法,旨在厘清关键范式并指出具身智能中预测建模的未来挑战。为追踪进展,作者将同步维护更新的GitHub资源库。
现有驾驶世界模型多专注于未来场景生成,而大语言模型虽具推理能力却无法预测几何演变,导致语义理解与物理模拟之间存在鸿沟。为此,我们提出HERMES++,一个将3D场景理解与未来几何预测集成于单一框架的统一模型。其核心设计包括:利用BEV表征整合多视角空间信息;引入LLM增强的世界查询以促进知识迁移;设计“当前-未来链接”来弥合时序差距,使几何演变基于语义上下文;以及采用联合几何优化策略,整合显式约束与隐式正则化以确保结构完整性。在多个基准测试中,HERMES++在未来的点云预测和3D场景理解任务上均超越专用方法,展现出卓越性能。模型与代码已开源。
美团室内外智能配送机器人“小黄蜂”在重庆江北国际机场T3航站楼投入运营。旅客通过美团App下单机场内商家商品后,可选择该机器人提供登机口直达配送服务,最快10分钟收货。机器人搭载美团自研“星眸”垂域多模态模型,能同时理解视觉、语言及环境信息,并依托“海雀”AIoT物联网平台实现高效协同。据悉,下一代“小黄蜂”将配备机械臂,抓取标准包装成功率超95%,未来接入大语言模型后,还能通过语音指令接收任务,并提供航班查询等便民服务。
生数科技发布通用世界行动模型 MotuBrain,主打“为行动而生”,旨在推动智能体在物理世界中的感知与交互能力。
日本村田制作所、早稻田大学与tmsuk等机构于4月28日公开了国产人形机器人“SEIMEI”的初期验证机。该机器人高140厘米、重49公斤,以阴阳师安倍晴明命名。演示临近时突发故障,未能展示行走,计划修复后于5月底再次亮相。项目目标是在2029年3月底前开发出用于受灾现场等的量产型号,目前已有2所大学和14家企业参与,耗时4个月完成原型机。其身体部件均为日本国产,但控制核心GPU采用了英伟达产品。
华为乾崑与启境汽车发布了新一代面向自动驾驶的全链路冗余架构。该架构具备硬件八大冗余系统,包括供电、转向、制动、通信、定位、算力域控、感知及HMI交互,支持备用系统在主系统失效时即时无感切换,以保障安全。例如采用双路独立供电、双SOC芯片算力协同,并通过触觉、视觉、听觉多模态交互提示接管。搭载此架构的启境GT7智能猎装车计划于6月上市。
宇树科技全国首家直营店在北京王府井银泰in88商场1层开业,消费者可近距离体验机器狗和人形机器人。该店在2025年底已开始装修围挡,近期通过招聘信息透露门店产品顾问岗位薪资为10-15K·13薪,并要求具备一年以上消费电子门店工作经验。
研究团队提出了一种身份感知的人体运动生成框架IAM,旨在解决现有文本驱动运动生成模型忽略身体形态对运动动态影响的问题。该框架通过多模态信号(自然语言描述和视觉线索)表征身份,并引入运动与形状联合生成范式,能同时合成运动序列和身体形状参数。实验在运动捕捉数据集和大规模真实世界视频上进行,结果表明该方法在保持高运动质量的同时,显著提升了运动真实感及运动与身份的一致性。
针对“世界模型”概念在强化学习、视频生成等不同社区含义割裂的问题,一篇由港科大、新加坡国立、牛津等多所高校联合发表的综述提出了“能力等级×领域法则”的二维统一框架。能力分为L1预测器、L2模拟器和L3进化器;领域涵盖物理、数字、社会和科学世界。综述发现,当前视频生成模型物理一致性差,LLM社会模拟存在行为偏差,而L3能力在自动化科学实验中最成熟。论文最后指出,神经网络隐式表示的规则在需要自我修正的L3阶段可能成为障碍,并引发了对世界模型终局形态的思考。
🚀 Our new preprint is out: Agentic World Modeling: Foundations, Capabilities, Laws, and Beyond It also reached #1 on Hu...
为应对因游客激增和年轻劳动力不足引发的航空业人力危机,日本在东京羽田机场测试人形机器人。测试机型包括Unitree G1和UBTECH Walker E,旨在承担装载货物、搬运行李等繁重体力劳动。日本航空希望借此减轻约4000名地勤人员的工作负担,并计划未来将机器人用于清洁客舱和操作其他辅助设备。