小米机器人团队在CVPR 2026 Workshops和ICRA 2026 WBC两项国际赛事中夺得冠军。在CVPR 2026 RoboChallenge中,匿名参赛模型「my16」(自研WAM世界动作模型)以40.89%成功率位列总榜第一,是本届唯一突破40%的模型。在ICRA 2026 WBC超市场景挑战中,综合得分99.2分(接近满分),整体成功率94%,领先第二名10个百分点;简单任务成功率100%,复杂任务成功率90%。该模型采用“S1/S2双系统+长短期记忆+跨本体预训练”架构。
小米机器人团队在CVPR 2026 Workshops和ICRA 2026 WBC两项国际赛事中夺得冠军。在CVPR 2026 RoboChallenge中,匿名参赛模型「my16」(自研WAM世界动作模型)以40.89%成功率位列总榜第一,是本届唯一突破40%的模型。在ICRA 2026 WBC超市场景挑战中,综合得分99.2分(接近满分),整体成功率94%,领先第二名10个百分点;简单任务成功率100%,复杂任务成功率90%。该模型采用“S1/S2双系统+长短期记忆+跨本体预训练”架构。
孙正义6月1日在巴黎接受CNBC专访时预测,Physical AI(物理AI)和机器人是下一个万亿美元机会,AI革命规模将是互联网泡沫时代的50倍。他近期已投资75亿欧元在法国建设AI数据中心。Physical AI定义为“AI大脑+物理身体”,能看见、思考、动手并与真实世界交互,应用包括工厂机械臂、仓库人形机器人和未来家庭助手。孙正义认为Tesla、Figure、宇树、智元等将成为下一阶段主角。
看了新晋亚洲首富孙正义 这个最新访谈睡不着了, 6 月 1 号他在巴黎接受CNBC 专访时透漏了很多未来的财富密码, 明确表示下一个万亿美元机会,是 Physical AI 和机器人。 以及这一波 AI 革命的规模, 大概率是互联网泡沫时代...
英伟达CEO黄仁勋6月5日抵达韩国金浦机场后对记者表示,机器人将成为韩国下一个重要产业,并计划与现代、LG、SK、三星和Naver等企业合作推进机器人与AI领域。他认为韩国为Physical AI提供充足空间,半导体制造将越来越依赖机器人和AI。英伟达或将其计算平台、AI软件和机器人系统引入三星、SK等芯片生产流程。
英伟达创始人兼CEO黄仁勋今天抵达韩国金浦国际机场,首站前往首尔麻浦区T1基地会见战队队长Faker及Doran、Oner、Peyz、Keria等队员,讨论推动电竞产业发展。当晚他还在弘益大学附近餐厅与SK集团会长崔泰源、现代汽车执行会长郑义宣、LG集团会长具光谟、Naver CEO李海珍等举行闭门晚宴,议题涵盖机器人技术、AI半导体供应链协同、物理AI和下一代数据中心建设。
孙正义6月1日在巴黎CNBC专访中指出,下一个万亿美元机会是Physical AI和机器人,AI革命规模可能是互联网泡沫的50倍。当前人形机器人市场约20-30亿美元,机构预测2035年达2000亿美元,乐观估计10年内破万亿。中国已将单台成本压至5万美元。作者将AI分三层:软件智能、具身智能、超级智能,认为纯软件Agent红利窗口正在成熟,建议关注具身智能项目的量产时间表、成本曲线和实际部署场景。
看了新晋亚洲首富孙正义 这个最新访谈睡不着了, 6 月 1 号他在巴黎接受CNBC 专访时透漏了很多未来的财富密码, 明确表示下一个万亿美元机会,是 Physical AI 和机器人。 以及这一波 AI 革命的规模, 大概率是互联网泡沫时代...
自动驾驶需推理自车动作如何影响世界演化,现有端到端方法依赖直接状态-动作映射,缺乏对动作条件动力学的显式建模;连续潜空间世界模型缺乏组合因果推理。Discrete-WAM提出统一潜视觉-动作世界策略,将未来视觉状态与自车动作表示为对齐的离散token,在离散扩散框架内联合实现世界建模、世界-动作策略和层级决策策略,支持跨替代未来的组合因果推理与可控生成。在大规模自动驾驶基准上取得有竞争力的性能。
WLA模型以文本指令、图像和机器人状态为输入,联合预测文本子任务、子目标图像和动作。其核心为自回归Transformer(非双向扩散Transformer),通过World Expert监督物理动态,并利用元查询使世界预测隐式影响动作生成(推理时可禁用,也可激活以支持测试时缩放)。原型WLA-0拥有2B活跃参数,在RTX 5090上单次推理40ms。在模拟与真实环境评估中,WLA-0在RoboTwin2.0 Clean上达92.94%成功率,在RMBench上达56.5%,并可直接从跨具身机器人视频学习新任务(无需动作标注)。
6月5日,海尔在2026上海老博会上通过新品牌Haier care推出行业首套AI未来智慧养老方案,首次展出三大AI陪伴机器人:具身服务机器人(自主开关冰箱、洗衣)、家务机器人(AI视觉识别收纳清洁)、陪伴机器人(跌倒监测、服药提醒、联系家人)。失能人群方案包括天悦超低电动护理床(离地15cm)、体征监测护理床、步入式浴缸、下肢运动康复机及AI智驾轮椅机器人(自动定速巡航、避障、跟随)。同步推出九大AI健康管理方案,覆盖心血管、按摩、渐冻症呼吸护理等。现场展示海尔关爱智能床S1、双助扶手马桶、电动助行器、微高压氧舱等产品。
VoLoAgent是一个基于VLM的物理编排智能体,将异构机器人能力(VLA/WAM、视觉模型、动作原语)作为可中断工具,实现规划、监控与恢复。同时提出RoboVoLo基准,专为开放词汇长时程操作设计,涵盖常识、记忆/状态跟踪、复杂指代与世界知识,并提供任务级成功率和失败诊断。实验表明VoLoAgent显著优于单VLA/VLM或基于工具的系统,并在真实机器人上验证。
针对视觉-语言-动作(VLA)模型部署成本高的问题,WIZARD提出权重空间元学习框架,仅需语言指令和简短演示视频,在一轮前向传播中为冻结的VLA策略生成任务特定LoRA参数,无需动作标签或测试时优化。在LIBERO上,WIZARD在未见过数据集集合上性能提升最高约2倍,在未见过任务上最高约14倍;在Franka Emika Panda真实机器人上,WIZARD持续优于域适应基线。
TBD-VLA是一种基于离散token的视觉-语言-动作(VLA)框架,通过引入块扩散(block diffusion)实现时序动作生成。该方法将动作序列划分为时间块,在块内进行掩码离散扩散,块间保持自回归生成,统一了时序自回归与并行动作解码,兼顾时序连贯性与推理速度。此外,显式时序建模支持通过时间修复实现动作块的异步执行(如实时分块)。TBD-VLA在模拟和真实操控任务中显著优于此前VLA方法。
AnchorWorld 提出一种具身自我中心世界模拟框架,通过增强交互完整性与灵活的世界定制机制提升实际场景可控性。该框架以 3D 人体运动为主要交互模态,引入与第一人称传感器解耦的外部视角辅助监督,使模型能观察全身相对环境的定位,从而稳健建模人-世界交互。此外,在世界坐标系内定义锚定视图并配合描述局部场景演变的文本,实现简单有效的世界自我演进定制。实验结果显示,AnchorWorld 显著优于现有基线,消融研究验证了关键设计的有效性,定制方案展现出良好的时空几何一致性并严格遵循预设演化规则。
LIMMT 提出首个以数据为中心的人形运动跟踪框架,从物理可行性、多样性和复杂度三个维度定义运动数据质量。实验表明,仅用不到 3% 的 AMASS 数据集训练,跟踪性能即优于使用完整数据集。该研究还对网络估算的动捕数据进行了清洗,验证了数据质量驱动的有效性。
Stream3D-VLM 是一种在线3D视觉语言模型,能从流式视频中实时进行空间理解。它基于LLM的下一token预测目标采用自回归流控制建模决定何时响应,通过轻量级Visual-Spatial Feature Integration(VSFI)模块逐步注入时序对齐的几何先验,并提出Geometry-Adaptive Voxel Compression(GAVC)模块用于视觉token的高效压缩。为缓解流式3D语言数据稀缺,构建了超过1M在线时空3D问答对的数据生成流程,并建立涵盖29个任务的benchmark。实验显示,该模型在在线和离线3D空间理解、推理与定位任务上均显著优于闭源及开源模型。
Robotic fingers are progressing faster than we think. Here, motors embedded in the fingers, onboard actuators inside eac...
孙正义在6月1日CNBC专访中称,下一个万亿美元机会是Physical AI和机器人,AI革命规模将是互联网泡沫时代的50倍,是人类经历的最大技术变革。他预测未来十年AI将从屏幕走进现实,拥有身体并动手做事。当前AI仍停留在无身体层面(提示词、Agent编排、内容生成),真正决定生产力的是有身体的一层。该推文还提供了普通人认知与财富进阶地图。
澳大利亚Luyten公司发布全球首款机器人塔吊式起重机平台Ascend,将塔吊结构、机器人技术、3D混凝土打印及AI整合。系统工作半径45米,支撑结构最高100米,安装调试仅需1-2天。通过AI生成打印路径、优化流程并实时监控,配合专用Ultimatecrete打印混凝土,旨在减少人工依赖和模板需求,提升材料利用率。
李飞飞(Fei-Fei Li)指出,大语言模型(LLM)仅学习文本模式,能描述房间但无法理解椅子移动、玻璃破碎、阳光变化或机器人推杯子等物理变化。世界模型则试图学习视觉背后隐藏的结构,能预测相机未捕捉的视角、建模物体行为、支持真实或虚拟环境中行动的智能体。理解新视角、预测推动结果、决定下一步行动,都需要一个共同的内在模型,涵盖空间、因果与后果。
http://x.com/i/article/2062244283940544512
亚马逊宣布了新版本的完全自主仓库机器人 Proteus,新增语言交互能力。借助 AI 升级,人类员工可以像与同事交谈一样向 Proteus 分配任务,无需再使用专用软件指挥这款用于搬运重物和大推车的地面机器人。此前工人必须通过代码操作该乌龟型系统。
亚马逊发布新版完全自主仓储机器人 Proteus,员工可通过自然语言直接向其分配任务,无需代码或专门软件。Proteus 贴近地面、形似乌龟,负责重物搬运和移动大型推车,能自行判断优先级、路线和时间安排。其活动范围从装卸区大幅扩展至任何需移动物品的地方。新系统目前在亚马逊实验室试点,计划 2027 年上半年部署到欧洲。此外,亚马逊还计划将触觉机器人 Vulcan 及协作式周转箱处理系统推广至更多站点。
GRAIL是一个全虚拟数字生成管线,利用3D资产、仿真就绪场景和视频基础模型先验,合成人形机器人交互数据,无需物理环境重建或遥操作。管线在视频生成前已知物体几何、相机参数、度量尺度、环境深度和机器人比例角色,从而更好地约束4D重建,通过基于模型的物体跟踪、人体运动估计和交互感知优化,恢复度量4D人-物交互轨迹。GRAIL生成超过20,000个序列,涵盖拾取、物体操作、坐着和地形穿越。仅使用GRAIL数据训练的自我中心视觉策略,通过仿真到真实迁移部署到宇树G1人形机器人,实现了84%物体拾取成功率和90%爬楼梯成功率。
26岁四川小伙吴宇飞带着八台宇树机器人登上当地时间6月2日晚播出的《美国达人秀》舞台,与机器人共同起舞,获得评委全票通过,晋级下一轮。评委惊叹“太了不起,太壮观了”。
6月4日,特斯拉在得克萨斯州奥斯汀都会区正式推出无安全员自动驾驶出租车服务。马斯克将此项业务视为公司增长战略的关键一环。该服务已试运行近一年,用户时常面临超30分钟的候车时长。目前特斯拉在当地投入约50辆运营车辆,而Waymo在同一区域部署了超250辆。马斯克预计无安全员全自动驾驶车型将于今年晚些时候在美国大范围普及。
ActiveMimic 是一个预训练框架,从单个人体佩戴的 RGB 摄像头中恢复同步的相机和手腕轨迹,将相机运动建模为视角动作,从而在野外第一人称人类视频上联合学习主动感知和操作能力,再迁移至目标机器人。跨任务真实世界实验表明,ActiveMimic 持续超越基于人类视频预训练的基线,并达到与基于机器人数据预训练的 SOTA 模型相当的性能。进一步分析确认主动感知能力源自第一人称视频预训练,而非机器人微调。
针对视觉语言模型(VLM)难以处理连续值输出(如事件时间边界定位、机器人控制动作生成)的问题,研究者提出DRIFT框架。该框架通过基础预测器提供粗略估计,并结合基于流匹配的生成式精化模块迭代优化预测结果。残差公式将生成建模从学习全局输出分布简化为在强先验附近拟合局部残差分布,显著降低优化难度。在视觉定位和机器人控制等任务上,DRIFT在多种架构(MLLM、VLA、WAM)中均持续优于强回归与生成基线方法。
本文认为通用机器人智能常被简化为策略缩放问题,但核心瓶颈并非策略学习,而是缺乏将人类运动、互联网视频等非结构化行为数据转化为具身监督信号的机制。研究者识别出四个缺失接口:自动标注非结构化行为的数据接口、重定向人类运动至机器人动作的具身接口、基于物理的3D推理世界模型接口,以及从视频和语言推断任务进度与成功的奖励接口。文章梳理了机器人基础模型、视频学习等进展,并提出构建能从更广泛物理世界学习的机器人系统研究议程。
视觉-语言模型(VLM)在空间推理中受限于观测图像和文本链式推理。Astra框架将Astra-VL(基于强化学习的VLM策略)与Astra-WM(基于Bagel的世界模拟器)耦合,后者从上下文图像和自然语言相机运动生成新视角观测。Astra-WM通过视角一致性训练提升跨视角一致性。RL阶段采用包含世界模拟器的两阶段课程学习,训练模型仅在想象观测优于直接回答时调用模拟器。实验显示,Astra-WM使Gemini-3-Flash在MMSI-Bench上从45.1提升至49.5;Astra-VL将Qwen3-VL在MMSI-Bench上从29.8提升至38.8,在MindCube上从36.8提升至42.7。
World Labs团队与李飞飞发文,梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计,世界模型学习空间与时间统计(如光照、物理规律)。基于部分可观马尔可夫决策过程(POMDP)框架,智能体通过动作影响世界状态,观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影:第一类为渲染器,输出给人眼看的像素,以视觉保真度为核心。文章着重于概念分层,未给出具体模型名、参数或基准分数。
AURA-Mem是一种恒定大小的递归记忆机制,专为机器人策略设计。它包装了一个冻结的视觉-语言-动作主干(7B参数),通过学习门控仅在当前观测会改变下一步动作时写入记忆。推理状态固定为4,224字节,而KV-cache在100,000步时大6,061倍。在LIBERO-Long上,门控策略未降低成功率(0.233),略优于始终写入的KV臂(0.217),同时写入次数减少7.0倍。在合成基准上,AURA-Mem匹配最佳O(1)基线精度,写入次数减少5.19–6.13倍,而随机或周期调度无法复现该增益。
Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 reachy-mini-conversation-app tool-spaces add 命令即可从 Hugging Face Spaces 安装远程工具(如搜索、天气),并自动启用至当前 profile 的 tools.txt 中。内置工具(头部动作、跳舞、表情、摄像头等)仍为本地 Python 代码,远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用,不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力,便于发布、共享和迭代,无需修改应用本身。支持 install、list、remove 等子命令。
华为联合天津港发布新一代港口智能水平运输系统解决方案,围绕“感、联、算、控”四大核心能力,融合多维感知、混行动态路径规划、虚拟红绿灯智能管控、AI全域交通态势研判等技术,实现ART(人工智能运输机器人)与人工集卡安全高效混行作业。该方案无需大规模土建改造,可适配全球绝大多数传统集装箱码头。截至目前,华为已服务全球100多个港口。
比亚迪集团执行副总裁李柯透露,比亚迪正在开发人形机器人,强调机器人的竞争在于制造能力、软件和硬件的整合,汽车相关 AI 能力与机器人具有同源性。若未来认为机器人可走向家庭,比亚迪将利用其经销商网络进行销售。此外,比亚迪计划打造开放平台,既可以自行研发,也可以与其他企业合作。接近比亚迪的人士也确认该公司确实已在研发人形机器人。
小鹏集团董事长何小鹏在GX智造工厂直播中透露,小鹏GX未公布海外定价即获中东等海外市场1000笔盲订。国内上市12小时大定超2.4万辆,限时起售价26.98万元,提供纯电和超级增程动力。何小鹏判断全球L3级自动驾驶将于明年Q1实施,小鹏第二代VLA正海外测试。针对热销致提车周期延长,他否认“加价2万插队”传言,并称已成立专项督战小组加速提产。
Wow. This is crazy. A developer trained an AI agent in simulation and deployed it onto a real robotic air hockey table u...
浙江人形机器人创新中心与百度智能云合作,推动人形机器人产业落地。浙江人形推出国内首个全尺寸双足人形机器人NAVIAI-I2(41个自由度,亚毫米级操作精度)及面向超精密装配的NAVIAI-WA1;“领航者2号”在2025国际人形机器人技能大赛获商用场景冠军,单次抓取平均12秒、准确率100%。百度智能云通过百舸平台提供GPU算力调度与模型训推加速,并搭建Real2Sim2Real仿真通道,支持数据标注。已实现与杰克科技签约2000台订单、联合方太发布机器人总厨,以及康养场景喂饭喂水陪护服务验证。
Momenta 已获无锡市智能网联汽车道路测试与示范应用许可,今年 1 月启动当地测试。计划 2026 年在全球多新城市及区域落地高阶自动驾驶,此前已在上海、苏州、慕尼黑、阿布扎比等地运营 Robotaxi,并拓展欧洲、新加坡、日本等市场。技术方面,上半年发布 R7 强化学习世界模型,应用于 L4 级实践。生态上与 Uber、Grab、梅赛德斯-奔驰等合作。量产智驾方案搭载量超 80 万台,交付车型超 70 款,定点车型超 200 款,覆盖十余个国家和地区。