理想创始人、董事长兼 CEO 李想在 Livis Day 发布会上提出具身智能汽车应是“四位一体”:一辆电动汽车、一位职业司机、一台 AI 计算机、一位生活助手。其中电动汽车和 AI 计算机是“具身”,职业司机和生活助手是“智能”。李想指出,传统智能汽车仍是功能驱动,而非真正智能体,在安全、能力和效率三个维度与具身智能汽车存在本质区别。
理想创始人、董事长兼 CEO 李想在 Livis Day 发布会上提出具身智能汽车应是“四位一体”:一辆电动汽车、一位职业司机、一台 AI 计算机、一位生活助手。其中电动汽车和 AI 计算机是“具身”,职业司机和生活助手是“智能”。李想指出,传统智能汽车仍是功能驱动,而非真正智能体,在安全、能力和效率三个维度与具身智能汽车存在本质区别。
John Deere的See & Spray系统搭载36台相机,每秒扫描2100平方英尺,AI用200毫秒区分作物与杂草,对应喷头单独触发,非残留除草剂用量减少三分之二,效果与传统持平。此外,TRIC Robotics的Luna机器人在夜间用紫外线破坏害虫DNA,减少30-70%化学农药,已在加州草莓田部署上千英亩,按服务付费,成本接近传统喷药。农业正从粗放经验转向精准可控系统,降低化学残留。
打农药的时代要过去了咯, 未来农业已经悄悄落地了, 不用喷一滴农药,机器人夜里自己开进田里,靠紫外线就把害虫病菌全杀光了。 晚上,加州一片漆黑的草莓田里,一台拖拉机大小的机器人自己开进来。 它身上亮着蓝绿光,对着植株冠层一排排照过去。 不喷...
理想汽车CEO李想在Livis Day发布会上指出,当前智能手机和智能汽车并非真正的智能,本质仍是功能驱动。他认为真正的具身智能需聚焦三个维度:安全上以保护人类为核心并比人更安全;能力上全面学习人类技能并独立完成任务;效率上必须超越人类。同时理想将带来同级最大最流畅的CarPlay,支持HUD联动显示地图、方向盘控制及Apple Music杜比全景声空间音频,并兼容所有主流旗舰手机互联。
理想汽车在 Livis Day 发布会上宣布,第三季度 AD Max 推送全新马赫 VLA,第四季度对齐特斯拉 FSD V14 能力。双马赫 M100 芯片算力 2560TOPS,模仿学习规模提升 50%、强化学习提升 15 倍、模型参数量提升 10 倍、计算量提升 15 倍。自研马赫 Mind-4 系列基座大模型包括 Mind-Pro 和 Mind-Edge;Mind-Pro 在多项基准及 Agent 评测中领先,Mind-Edge 为端侧原生具身智能体,数据不上传。
今日理想汽车在 Livis Day 发布会上推出全球首款动态数据流 AI 芯片——理想马赫 M100。该芯片采用 5nm 车规级工艺,单芯片算力 1280 TOPS,是目前量产最强大的车规级推理芯片。因数据流架构设计,实际运行效率超过 82%。
赛力斯集团董事、副总裁康波今日通过视频展示人形机器人“小赛”,该机器人具备视觉识别、主动打招呼和语音互动能力。康波透露,更多种类具身智能机器人在筹备,今年内亮相。赛力斯超级工厂已配备地空一体物流、具身智能AI检测机器人“小赛01”“小赛02”等多款机器人,拥有1600+台智能化设备、3000+台工业机器人及完整数字生态系统。去年10月,赛力斯凤凰与字节火山引擎签署具身智能合作协议,重庆凤凰技术有限公司于去年3月成立。
智元远征 A3 成功实现自主打乒乓球,成为全球首个全程自主决策、完成乒乓球对抗的全尺寸双足人形机器人。在无遥控、无脚本、无人工干预下,机器人自主完成视觉感知、轨迹预测、全身运动规划与精准击球的全闭环控制。该技术基于智元与北大合作,依托人形机器人乒乓运动控制算法 SpikePingpong 及 20kHz 高频脉冲相机,视觉响应速度提升 10 倍,实现毫米级预判。智元已累计出货超 10000 台,部署于导览导购、工业制造等场景。
松延动力在华为开发者大会 HDC 2026 上展出 OpenHarmony 版 N2 人形机器人,定位行业首款开源鸿蒙消费级产品。针对生态孤岛、跨设备开发繁琐、系统占用率高等痛点,N2 凭借开源鸿蒙微内核及 AI 智能体实现语音交互和长程任务自规划,可与手机、智慧屏、智能家居等终端联动,充当家庭管家或教育陪伴角色。同步启动“百人百机”计划,为 100 位开发者提供 N2 及原生 SDK,支持 Ubuntu 与开源鸿蒙生态。
视觉-语言-动作(VLA)模型受限于机器人轨迹数据采集的高昂成本。ACE-EGO-0提出统一预训练框架,构建可扩展的第一人称视频到动作流水线,将原始人类视频转化为机器人格式伪动作轨迹。框架采用基于相机空间动作的统一表示、形态条件化和时间对齐动作分块,使伪标签与机器人演示可比。针对人类视频中的噪声伪动作,设计可靠性感知训练目标并引入人类辅助损失。模型在4.53K小时机器人/仿真数据和1.48K小时伪动作人类数据上训练,在RoboCasa GR1 TableTop和RoboTwin 2.0上达到最优,并展现对真实世界双臂操作的强迁移能力。
LaWAM是一种潜在世界动作模型,通过在预训练视觉基础模型的特征空间中训练潜在动作模型,并利用其前向解码器预测未来观察特征,从而将预测动力学引入机器人策略,而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率,在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒,比像素空间WAMs降低24倍壁钟延迟。
通用汽车关停自动驾驶出租车子公司后,首席产品官斯特林·安德森表示,公司目前主攻乘用车自动驾驶,先攻克高速路段,再拓展至城市区域;未来技术也可用于无人驾驶网约车服务。
小马智行第七代 Robotaxi 及无人驾驶科技展区于 6 月 13 日至 16 日在 2026 重庆国际车展首次亮相。今年 4 月北京车展期间,官方宣布 2027 版 Robotaxi 整车总成本下探至 23 万元以内,将推出海外版本,目标部署千台以上。2026 年第一季度财报显示,总营收 2.36 亿元,同比增长 145.0%;Robotaxi 业务收入 5912 万元,同比增长 395.4%;乘客车费收入同比增长 456.5%。
我国首批自主研发的海洋工程柔性制造智能焊接机器人设备系统近日在天津投用。该系统专为油气平台组块节点等高难度焊接场景研发,设计寿命20年,最大承载30吨,核心软件与工艺库实现100%国产化。项目团队攻克多项技术难题,实现焊缝AI视觉识别、多层多道智能排道等10余项创新。机器人可一键启动自动完成焊接,具备智能纠偏、智能封底等功能。
马斯克在 X 上透露,特斯拉 AI6 芯片工程评审进展顺利,综合良率下有望创下单块晶圆可用算力纪录。AI6 仍处设计阶段,AI5 已完成流片,计划 2027 下半年量产,AI6 预计 2028 下半年投产。性能上,AI5 算力可达两块 AI4 总和的五倍,AI6 再翻倍。AI6 配备近半数 TRIP 加速器搭配 SRAM,主存采用 LPDDR6。特斯拉与三星合作由德州工厂代工,金额 165 亿美元。新一代芯片先用于 Optimus 机器人及超级计算机集群,再下放民用乘用车。
在2026中国汽车重庆论坛上,小鹏集团副总裁余鹏指出物理AI时代已到来,汽车智能的本质根基在于底盘,而非仅停留在智能座舱。小鹏去年7月发布“太极AI底盘”,具备AI智能识别减速带、颠簸路段、路面凹凸、障碍物以及6D防晕车功能共5项AI底盘能力。小鹏未来将持续加大原生AI架构研发投入。
提出检索增强的视觉-语言-动作(VLA)策略,训练一次后冻结,新任务通过在检索池中追加演示数据来适应,无需逐任务微调。在基于视频生成的世界动作模型(WAM)Cosmos Policy上效果尤其显著,检索提供粗粒度任务推进,未来图像目标补充视觉一致性信号。在PushT和RoboTwin 2.0上超越跨体现基线,并在真实机器人上完成验证。
Nvidia发布Cosmos 3——一种全模态世界模型,将语言、图像、视频、音频和动作整合到同一系统,使物理AI能跨越“理解、模拟、行动”三大任务。它把动作视为世界的第一类语言,通过动作token设计,让模型可基于视频推断动作,或同时生成未来场景及对应运动。这使机器人从“识别物体”升级为预测“移动、抓取、滑动”等交互后果。相关论文《Cosmos 3: Omnimodal World Models for Physical AI》已发布于arXiv。
面壁智能李大海在智源大会上表示,端侧智能是实现物理世界AGI的必由之路。MiniCPM端侧模型已落地汽车(长安马自达、吉利等)、手机、AIPC、具身智能、智能家居等领域。公司开源发布周展示全栈技术:UltraData数据治理体系、MiniCPM5-1B模型以1/200参数逼近两年前GPT-4o、ForgeTrain框架对比英伟达Megatron节省10%资源、BitCPM-CANN在国产算力跑通三值训练(推理节省6倍内存)、开源PilotDeck多智能体操作系统。面壁选择全栈开源,共建端侧生态。
6月12日,面壁智能在2026北京智源大会上展示端侧AI全栈技术。MiniCPM5-1B以1B参数在AA-Index上超越所有2B以下模型,相比Qwen3.5-2B效果更优且参数量减半,由全球首个完全AI编写的预训练框架ForgeTrain完成,训练速度比英伟达Megatron快10%。BitCPM-CANN是国内首个基于华为昇腾端到端训练并开源的三值(1.58-bit)大模型,推理阶段释放约6倍显存红利。面壁智能联合北京智源人工智能研究院、OpenBMB发起「智能体+硬件创新加速孵化器」,单项目最高500万综合投资。
小鹏集团副总裁余鹏在2026中国汽车重庆论坛上明确小鹏定位为“面向全球的具身智能公司”。飞行汽车并非孤立业务,而是与芯片、机器人共同构成AI技术协同矩阵。汽车上验证的AI底盘能力、全栈自研技术可复用至飞行汽车等终端,机器人操作经验也反哺汽车。今年3月,小鹏分体式飞行汽车批量试产下线,计划2026年内规模化量产。该产品采用分体式设计,陆行体为三轴六轮六驱全地形大空间车型,搭载航空级增程系统;飞行器可完全收纳进后备箱,具备垂直起降能力。
当前视频生成模型仅学到“手靠近→杯子动”的相关性,而非因果机制,导致抓杯子时杯子提前飞起。Aether AI 创始人黄碧薇教授提出因果世界模型(Causal World Model),旨在让 AI 理解物理运行机制而非仅预测表象。其 benchmark 显示,引入因果结构可使机器人成功率提升 25-50%,样本需求降低 5-10 倍。这标志着下一代 AI 需从“知道是什么”进化到“知道为什么”,尤其在机器人、自动驾驶等真实物理场景中。
当前的 AI,连一个杯子都还没"真懂"。 极客公园「今夜科技谈」这期,Aether AI 创始人黄碧薇教授(@huang_biwei)举了个特别戳的例子: 让今天的视频生成模型去"抓一个杯子" 手还没真碰到,杯子自己就飞起来了。 画面看着挺...
DragMesh-2提出接触驱动框架,将铰接物体交互从以物体为中心扩展为由手驱动的灵巧手交互,铰接运动必须通过物理接触产生。同时提出PICA——一种物理感知接触感知训练机制,无需触觉或力反馈即可注入物理信号,提升接触负载变化下的鲁棒性和任务成功率。在七个GAPartNet物体上的评估显示,DragMesh-2在多种阻尼条件下相比对比方法鲁棒性更强,同时保持高任务成功率。
RL4IL是一种强化学习引导的模仿学习方法,通过近端策略优化对广度优先搜索候选集排序,并利用软交叉注意力融合头部聚合
MotionVLA 基于 Qwen3.5,采用 DSFT 双流频率分词器将运动分解为 Base 流和 Physical 流,通过 DCT 截断和 BPE 独立压缩,并在统一序列中按 Base → Physical 顺序预测。在 HumanML3D 和 MBench 上,仅 2B 参数轻量级骨干即实现:HumanML3D 多样性差距降低超 50%,MBench 运动条件一致性提升 3.8%,证明频率感知双流解耦对自回归运动生成的有效性。
特斯拉全自动驾驶功能(Full Self Driving)在丹麦官方认证视频中被发现使用了自行车道。该视频由丹麦媒体politiken.dk报道,时长01:49,在Hacker News上获得100个点赞。
Jeff Bezos 创立的新公司 Prometheus 瞄准物理 AI 领域。尽管并非唯一涉足该赛道的初创企业,Prometheus 是资金最充足的公司之一。
Shenzhen humanoid startup EngineAI @engineairobot filed confidentially for a HK IPO today. This is the 3rd major Chinese...
科学实验室的机器人操作需要VLA模型,但现有模型多训练于家居场景,缺少实验室专用数据和多形态机器人支持。研究者构建仿真数据引擎RoboGenesis,从原子技能组合生成结构化演示;并提出LabVLA模型,采用两阶段训练:先用FAST动作token预训练使Qwen3-VL-4B-Instruct骨干具备动作感知能力,再通过流匹配后训练附加知识隔离的DiT动作专家。在LabUtopia基准上,LabVLA在分布内和分布外设置下均取得所有基线中最高的平均成功率。
WEAVER是一种多视图世界模型架构,通过流匹配损失训练预测未来潜变量和奖励值,满足保真度、一致性和效率三个要求。在机器人操作任务上,WEAVER在政策评估中与真实成功率的相关系数ρ=0.870,在π₀.₅基础模型基础上实现政策改进成功率提升38%,测试时规划成功率提升14%,且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。
RepWAM是一种表征中心的世界动作模型(WAM),构建在表征视觉-动作tokenizer上。现有WAM沿用重建导向视频tokenizer,但像素重建对学习指令跟随动力学帮助有限。为此,研究训练表征视觉-动作tokenizer将视觉输入映射为对齐的视觉和潜在动作token,预训练WAM联合建模未来视觉状态及连接它们的潜在动作,再适配真实机器人轨迹实现闭环操作。实验表明RepWAM在多种操控场景表现强劲,消融实验凸显语义视觉-动作tokenizer的优势。代码与权重将开源。
Theker 完成 8500 万美元融资。其工厂机器人采用可重新配置设计,不同于波士顿动力等固定形态人形机器人,不专精于任何特定任务。
物理 AI 初创公司 Prometheus 完成 120 亿美元新一轮融资,估值达 410 亿美元。该公司旨在通过 AI 自动化重型工程和药物设计,构建所谓的“人工通用工程师”。
同一事件,精选展示《Prometheus 融资120亿美元,估值410亿美元,定位"人工通用工程师"》Hy-Embodied-0.5-VLA(HyVLA-0.5)是一个端到端系统,完整覆盖机器人学习栈:数据收集、模型设计、继续预训练与监督微调、强化学习后训练,以及真实世界部署。每个组件在栈中扮演独立角色。
Jeff Bezos 在 CNBC 披露其新公司 Prometheus 的愿景:构建人工通用工程师,设计制造喷气发动机、芯片、医疗设备等硬物理产品,将传统数年设计周期缩短 10 倍以上。公司宣布完成 120 亿美元融资,估值 410 亿美元。初始启动资金 62 亿美元,新一轮融资表明公司需要更多算力、人才和工业数据才能验证产品。410 亿美元估值表明,前沿 AI 已从软件竞赛变为计算采购竞赛——投资者实质在为可能实现模型所需的机器预付费。
同一事件,精选展示《Prometheus 融资120亿美元,估值410亿美元,定位"人工通用工程师"》