Orca通过下一状态预测(Next-State-Prediction)统一建模多模态世界信号,学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注,包含无意识学习(连续视频中的密集自然状态转换)和有意识学习(语言描述事件和VQA监督下的稀疏状态转换)。冻结主干后,仅训练轻量级模态特定解码器,即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。
Orca通过下一状态预测(Next-State-Prediction)统一建模多模态世界信号,学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注,包含无意识学习(连续视频中的密集自然状态转换)和有意识学习(语言描述事件和VQA监督下的稀疏状态转换)。冻结主干后,仅训练轻量级模态特定解码器,即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。
具身智能数据采集员以日薪200-250元招兼职,无需学历经验。面试先测量身高体重以适配采集手套,并询问是否晕VR。工作分两种:遥操作采集——穿戴设备控制双臂机器人完成分拣积木、叠纸杯等动作;无机器人示教采集——徒手重复动作(如叠衣服),设备记录轨迹。全球高质量物理交互数据截至2026年初仅约50万小时,不足大语言模型训练数据的两万分之一,需大量人力从零采集。
韩国政府与三星、SK海力士、现代汽车等企业承诺投资1万亿美元,用于建设芯片制造厂、AI数据中心及类人机器人制造设施。其中5850亿美元投向半导体工厂,目标五年内将DRAM产量翻倍;3570亿美元用于建设大规模AI数据中心;现代汽车投资58亿美元,计划到2028年实现旗下波士顿动力Atlas人形机器人年产3万台。但现代汽车工会因担忧岗位流失已投票批准罢工,社会也对芯片业高利润分配产生争议。
ASPIRE是一个持续学习系统,在代码即策略范式下自主编写和优化机器人控制程序,并累积经验为可复用的技能库。其三个组件为:闭环执行引擎(提供细粒度多模态轨迹,支持故障诊断、修复验证)、持续扩展的技能库(将修复蒸馏为可迁移知识)、进化搜索(生成多样化任务序列与控制程序)。在LIBERO-Pro扰动测试中比先前方法提升77%,Robosuite双臂交接提升72%,BEHAVIOR-1K长周期家务提升32%。其技能库实现零样本泛化:在LIBERO-Pro Long上ASPIRE成功率31%,对比方法仅4%。模拟发现的技能初步验证了仿真到真实迁移,减少了不同机器人与API上的编程工作量。
韩国政府与三星、SK海力士等承诺1万亿美元实施三大旗舰项目。三星和SK海力士投资5850亿美元新建芯片工厂,目标五年内将DRAM产量翻倍;SK集团、GS集团和Naver投资3570亿美元在偏远省份建设AI数据中心;物理AI被指定为国家战略产业,现代汽车投资58亿美元建设机器人工厂和AI数据中心,计划到2028年每年生产3万台Atlas人形机器人,并在10大行业实现商业化。但现代汽车工会已批准罢工谈判,要求利润分享和岗位保护。
同一事件,精选展示《三星和SK海力士计划投资5900亿美元扩产芯片,AI需求推高内存价格》Figure 公司 CEO Brett Adcock 表示,若能获得大量数据,就能解决通用机器人问题。他认为物理 AI / 机器人领域的真正瓶颈不是更好的模型,而是更好的机器人数据基础设施。CyberOrigin 推出的 CyberCode 正是为解决该问题构建:将真实的人类操作数据转化为可搜索、可检查、可追溯、多模态信号精准同步、质量检查、评估就绪的运营层。机器人策略、世界模型和视觉-语言-动作模型只能从数据系统暴露的结构、覆盖范围、时序和质量中学习,因此更好的数据基础设施与更好的模型架构同等重要。
前特斯拉Optimus技术负责人Jay Li创立的机器人手公司Proception已与特斯拉就商业秘密诉讼达成和解,特斯拉本月撤诉。公司周一宣布完成1100万美元种子轮融资,由First Round Capital领投,Y Combinator和BoxGroup跟投。同时开始向研究者和机器人公司交付首批高灵巧度机器人手,该手拥有22个自由度、每指多关节,通过内置传感器的数据手套收集人类手部交互数据,无需机器人参与。Li认为硬件与可扩展数据结合是解决灵巧操作难题的关键,目标成为顶级机器人手供应商。
小鹏集团发布 X-Mind 技术框架,内嵌预测性世界模型,采用循环块扩散机制在单次前向传播中生成紧凑抽象草图,并实例化视觉思维链(Visual CoT)进行显式时空推演。模型构建融合鸟瞰图与驾驶先验的“认知画布”,借助深度压缩自编码器(DC-AE)将12帧未来推演压缩至仅96个 Token。相比传统 VLA 模型,X-Mind 在轨迹预测误差上显著降低,推理延迟极低,具备车规级芯片量产可行性。小鹏 CEO 何小鹏透露,2026年底自动驾驶可合法进入全球。
6月23日至28日,智元精灵G2机器人在龙旗科技南昌工厂产线进行平板量产质检全工序直播,总时长64小时,机器人累计作业64828件,任务成功率99.99%,产线总产量17625件。精灵G2在高速流水线上抓取平板、与测试装备实时通信,完成合格品与NG品分类。智元昨日宣布,第15000台通用具身机器人“精灵G2”正式量产下线,创全球量产新纪录。
央视财经报道,我国开源生态版图进一步扩容,新增人工智能、具身智能等7个项目。开放原子开源基金会称,2026年将引入相关前沿项目,抢占大模型和RISC-V新架构先机。2025年国内活跃开源项目超425万个,开发者达263万。工信部副部长熊继军表示将提升开源供给能力,支持基础软件、工业软件、AI等领域开源发展。《2025中国开源年度报告》显示,GitHub中国活跃开发者超210万全球第三,整体开发者规模预计超350万全球第二;中国OpenRank贡献度254,963全球第二,增速差超10%,预计7年后将超越美国。
贾跃亭宣布,法拉第未来(FF)EAI 机器人 6 月出货 105 台,3-6 月累计 242 台,超额完成原定 220 台目标。全年出货目标从 4 月上调后的 1500 台再次提升至 2000 台。FF 旗下具身智能机器人产品包括全尺寸职业型人形机器人 Futurist 系列、运动型人形机器人 Master 系列,以及安防陪伴型四足机器人 Aegis 系列(可选四轮版本),轮臂系列计划二季度发布。
据鸿蒙智行近日披露,华为途灵平台自2023年11月推出已完成三轮结构性技术升级,技术成果已应用于智界S7、问界M9(2023年)、尊界S800、享界S9/S9T(2025年)以及全新问界M9、尊界S800 Grand Design(2026年)。该平台让底盘具备感知与思考能力,实现“看-想-动”。余承东在5月全新问界M9发布会上表示,全新华为途灵龙行平台首创全域融合架构与全链路八大冗余设计,为L3时代做好准备。
6月28日,法拉第未来在芝加哥Automate展会上推出“全美首款工业级轮臂机器人”Faber系列(U/T/S三款),应用于工业上下料与物流转运等场景。同时发布全新Futurist人形机器人标准版:身高173cm、重55kg(减重14%)、全身31自由度、膝关节峰值扭矩320N·m、1152Wh双电池续航6小时(上代3倍),支持7×24小时商用部署,定价89900美元(约61.2万元)。Ultra版年内发布,搭载Jetson Thor芯片,支持自主充电,面向高强度场景。
智元今日宣布第15000台通用具身机器人精灵G2正式量产下线。该机器人搭载NVIDIA Jetson Thor芯片,配备19自由度灵巧手、3D触觉感知、高精度力控双臂及5自由度腰腿全向底盘,引入真机RL工具链。支持多人连续语音对话与知识库问答,采用双电池热插拔换电,配备360环视鱼眼和前后双激光雷达实现主动避障,并优化超视距遥操作。可覆盖工业作业、巡检巡逻、安检引导、讲解导览、家庭服务等场景。
深圳开鸿数字产业发展有限公司 CEO 王成录宣布,全国首个开源鸿蒙机器人操作系统 M-Robots OS 正式完整捐献至开放原子开源基金会,专属一级根社区同步启动运营。该系统 1.0 版本于 2025 年 4 月发布,今年 5 月升级至 2.0 版本。2.0 版本具备积木式框架、混合部署、自研 M-DDS 分布式通信、硬件能力及算法共享、AI 原生及中间件生态兼容等核心能力,其中本体间音视频时延低至 4 毫秒,应用迁移成本降低 80%。
一项前馈式3D场景重建框架,直接从无姿态多视图图像将场景分解为实例结构化3D token组。每组包含一个捕获实体级身份的实例token和多个编码局部几何与外观的锚点token,解码为一组3D高斯。通过可微渲染联合重建与分割监督学习,无需3D标注。该模型在类无关实例分割上超越逐场景优化基线,在新视图合成上具有竞争力。token组可直接实现实例级场景编辑(移除、平移、插入对象)以及高效开放词汇3D实例检索,检索复杂度随实例数而非基元数增长。
研究提出A2World,一个多视图交互基础扩散世界模型。通过在大规模机器人操作数据上预训练,学习将动作驱动的视觉演变建模为可迁移的动力学先验。预训练权重可适配两类模型:A2World-sim作为任务/场景专用模拟器,用于策略评估与假设分析;A2World-policy作为视频-动作联合预测模型,在视觉和指令条件下预测动作。实验表明,该预训练能为模拟器中心和策略中心的机器人学习提供可迁移的动力学先验。
特斯拉就2023年11月一起FSD模式致行人死亡事故达成和解,事故中一辆Model Y撞击了下车疏导交通的71岁行人,和解条款未披露。特斯拉面临约145亿美元相关诉讼。联邦调查仍在进行:NHTSA于2024年10月启动评估,2026年3月升级为工程分析,覆盖约320万辆FSD车辆。NHTSA指出FSD在低能见度时存在缺陷,未检测影响摄像头的路况且未给驾驶员足够反应时间。特斯拉称已更新摄像头和软件。此外,NHTSA于2025年10月对FSD启动另一项调查。
物理AI的门槛已被大幅降低。SO-ARM101 ACT控制策略可直接在浏览器中运行仿真,无需购买任何硬件。此前接触物理AI至少需要数千元的机械臂入门设备,现在只需打开网页即可上手调参并观察效果。这种门槛的下沉速度意味着,当人们能以零成本接触前沿方案时,该领域的迭代速度将远超预期。
京东在欧洲推出 JoyRobocare 机器人维修服务,已在英国贝德福德和德国杜伊斯堡建立维修中心,提供“机器人救护车”上门服务,覆盖英国、德国、法国、荷兰等国主要城市。该服务针对具身智能机器人和四足机器人,提供上门送货、调试配置及使用辅导,使机器人无需跨国返厂即可解决大部分故障,降低售后成本。京东已与部分机器人企业合作全球供应链物流,并计划未来5年培养10万名工程师,覆盖机器人及智能家居维修。
市场监管总局正加快智能体、具身智能、世界模型等前沿技术标准制定,同步推进算力基础设施、高质量数据集等底座类标准,并推动企业智能化成熟度评估等重点标准出台。通过优化全流程压缩研制周期,对前沿赛道推行敏捷标准化。近日,《人工智能智能体互联》系列国家标准(7部分)发布,旨在解决智能体通信接口不统一、身份管理缺失等问题。
摩根士丹利将2025年中国类人机器人出货量预测上调至5万台,较1月预测几乎翻倍;2030年年度出货量预计达44.6万台(此前26.2万),其中全尺寸机器人占比从2025年的30%升至2028年的70%。中国优势在于规模:小鹏、宇树、优必选、银河通用等厂商可在工厂、仓库、医院等场景采集真实任务数据。小鹏计划于2026年底量产其Iron机器人,宇树称2025年已交付超5500台类人机器人。
优必选 Cruzr Y1 轮式工业人形机器人在 OPPO 技术发布会首秀,演示料箱拆垛、码垛流程。机器人搭载地瓜 S100P 和 S600 系列国产算力芯片,配备 360° 全向轮与垂直升降模组,可在狭窄车间穿梭;手臂采用一体化谐波关节模组,集成抱闸制动与力矩传感器。配备高容量锂电池,满载续航 4 小时以上,支持自动充电和快速换电,实现 24 小时轮班作业。官方称开放全套 SDK、视觉识别、手臂运动控制开发接口与多机调度平台,可对接工厂系统进行二次开发。
在 MWC26 上海人形机器人点球大战中,中国移动灵犀 CM-H2-A 从 8 支战队胜出夺冠,并包揽金手套、金靴、最佳庆祝等奖项。其基于 ROS2 搭建足球主控系统,融合激光雷达、广角相机和深度相机,通过端侧量化与 TensorRT 推理实现毫秒级感知延迟。进攻时自主完成导航、追球、精对位、射门;守门时依足球轨迹调整站位并设防抖阈值。依托“灵枢全身运控系统”复刻推射、抽射、捅射等踢球姿态,兼顾动态平衡与射门精度。
小鹏机器人中心近日新设九个二级部门,包括产品部、具身系统工程部、通用基座部(虚拟)、品牌营销部、操控及安全开发部、具身智能部、数据闭环部、产品矩阵部(虚拟)和项目管理部。何小鹏亲自兼任机器人中心负责人及产品部负责人,直接听取产品部汇报。其内部信称机器人业务进入量产和商业化前夜,相当于8年前小鹏G3发布阶段。新一代IRON人形机器人即将进入ET2软硬件合围阶段,计划三季度亮相,年底实现高阶量产,先在小鹏门店试商用,明年起面向中国及海外商业客户交付。
小鹏汽车 CEO 何小鹏微博透露,VLA 2.0 走向全球进入确定模式。联合国 WP29 缔约国会议批准了 DCAS UNR 171 series 02(对应城区 NGP 法规)与 UNR ADS(对应 L3-L5 自动驾驶法规)。DCAS 将在六个月后成为欧盟强制法规,即 2026 年底自动驾驶可合法进入全球;UNR ADS 为框架性法规,加速 L4 级 Robotaxi 落地。何小鹏称 2027 年海外小鹏汽车将搭载 VLA 和 VLM,支持中英文混合语音对话。
阿里通义实验室视频指出,具身智能核心难点在于AI在虚拟世界强,但物理世界抓取鸡蛋等任务因传感器噪声、环境变化易失败。引用指出Physical AI瓶颈不在模型规模,当前VLA/LLM路线只学统计相关性而非因果律(如桌子高2cm即失败)。UCSD黄碧薇教授在CVPR 2026提出Causal World Models框架,让AI从模仿进化到理解因果,并宣布Aether AI融资2000万美元,成为全球首个因果世界模型公司。世界模型赛道火热,但Aether AI不卷规模,卷因果结构。
兄弟们!这个研究有点牛逼啊! Physical AI 的瓶颈根本不是「模型不够大」,是一开始范式就错了。 先说一个真实场景:桌子高了 2cm,当前最强的 VLA 模型直接失败。 为什么? 因为它只学到了「手伸到某个位置」的相关性,根本不知道...
清华团队展示人形机器人Demo,无需遥控或预设剧本,机器人完全现场发挥,能与人争论、吐槽、抱怨。据现场参加发布会的人反馈,效果令人震惊。该团队据称融资规模不大,但技术表现亮眼。
视觉-语言-动作(VLA)模型继承预训练VLM中过大的语言骨干,引发冗余质疑。Drop-Then-Recovery(DTR)协议通过删除Transformer块并微调恢复,结合单次虚拟门控敏感度指标GateProbe评测容量必要性。在LIBERO上,删除半数LLM块后OpenVLA-OFT在相同微调预算下从95.0%升至98.3%,仅保留两个语言块仍恢复基线性能;但视觉与动作路径对删除耐受性显著更低。结果表明现有VLA基准对深层语言理解压力不足,未来架构应更均衡分配语言、视觉、动作容量。代码已开源。
研究从人类动作数据向双臂平行夹爪机器人转移操作技能的方法。针对6DoF人体姿态估计噪声大、接触模式差异大的问题,提出桥接动作表示——初始头部相机帧内的相对手腕平移,作为人类与机器人共有的动作空间。构建π_0-like视觉-语言-动作模型,通过交错动作token和注意力掩码处理不同形态间动作分量的缺失。在双臂操作任务上,该方法比噪声6DoF动作更有效地转移人类操作知识,且效果随人类数据量增加而提升。
视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征,重点监督物理信息区域来强化物理一致性,包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上,PhysisForcing 一致提升基线模型:Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%(优于普通微调的 7.1% 和 3.7%),Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型,闭环成功率从 16.0% 提升至 24.0%,并改善下游策略。
SimFoundry是一个模块化自动化系统,能从视频零样本构建真实到仿真的场景,生成可用的数字孪生,并支持对象、场景和任务的编辑,自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务;数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上,SimFoundry仿真评估与真实性能高度相关(平均Pearson相关系数0.911,最大排序违反0.018)。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中,任务成功率分别提升17%、21%和40%。
General Intuition 周四以23亿美元估值完成3.2亿美元融资,累计融资4.54亿美元。其AI智能体通过分析数亿小时游戏视频中的动作标签(玩家按键记录)训练,掌握时空推理能力,能从游戏泛化到仿真和现实世界。仅用8分钟真实机器人数据微调即可控制四足机器人自主导航。公司计划夏季末开放API。本轮由Khosla Ventures领投,General Catalyst、Jeff Bezos、Eric Schmidt、Nico Rosberg及Google DeepMind、MIT研究人员参投。
General Intuition 以 23 亿美元估值完成 3.2 亿美元融资,累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据,训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中,AI 智能体在游戏中连续运行 100 小时,机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投,General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型,计划夏末前开放 API。