6月1日,新疆一景区的人形机器人在表演时踢中一名围观儿童腹部,致其捂腹坐地。孩子母亲称已报警处理,但对负责人态度不满,所幸孩子无大碍。涉事机器人由园区人员遥控操作,表演区域无围挡或警戒线。相关话题一度登上微博热搜第一,网友就景区、家长及操控方责任归属展开激烈讨论。
6月1日,新疆一景区的人形机器人在表演时踢中一名围观儿童腹部,致其捂腹坐地。孩子母亲称已报警处理,但对负责人态度不满,所幸孩子无大碍。涉事机器人由园区人员遥控操作,表演区域无围挡或警戒线。相关话题一度登上微博热搜第一,网友就景区、家长及操控方责任归属展开激烈讨论。
NVIDIA发布Cosmos 3,这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构,统一了物理推理、世界生成与动作生成能力,结合了自回归VLM推理器与扩散生成器,旨在赋能物理AI。
据报道,赛力斯与字节跳动合作的新车品牌“赛豆”,预计其智能驾驶方案将由元戎启行提供。元戎启行已与长城汽车、零跑等多家车企合作,搭载其方案的车辆达30万辆。该公司已完成8轮融资,累计金额超10亿美元。“赛豆科技”首款跨界车型预计今年内推出,提供纯电与增程双动力,新品牌计划于6月发布。知情人士表示,该车智驾方案预计不会采用华为乾崑。
智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互(Rich Interaction)”。这是行业首个聚焦物理交互的开源具身数据集,系统记录机器人与真实物理世界之间复杂、高密度的交互过程,面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”,目前已在 Hugging Face 平台开放下载。
Humanoid-GPT是一个基于GPT架构的Transformer模型,专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练,该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量,Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer,并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明,该模型在零样本泛化至新任务的同时,能稳健地追踪复杂动态动作,建立了新的性能前沿。
OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型,使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作,自回归地实时生成动作条件化的逼真传感器视频,可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中,作为高响应性环境。初步结果显示,基于OmniDreams后训练的世界-动作模型(WAM)在Physical AI自动驾驶NuRec数据集上,仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。
微软在 Build 2026 发布专为 AI 智能体打造的操作系统“Project Solara”。该系统基于 Android 定制,旨在运行于小型低功耗设备。现场同步展示了桌面终端和可穿戴智能胸牌两款概念设备,作为硬件厂商的参考设计。
世界动作模型(WAMs)通过迭代扩散联合生成未来视频与机器人动作,但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏:为动作流低噪声区采用线性梯度缩放参数化,为视频流高噪声区采用方差保持参数化,将推理压缩至单步。在 LingBot-VA 上实例化后,RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms(NVIDIA L40S),23 倍加速。仿真基准成功率保持(RoboTwin 2.0 85.5%,LIBERO 95.7%),真实世界 Unitree G1 人形机器人平均 60%,而朴素一致性蒸馏仅 24%。
AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发,能同时预测任务条件的功能掩码(where)和3D接触后运动曲线(how)。为实现开放世界泛化,该研究构建了一个大规模标准化数据管道,整合了机器人、人类、仿真与真实扫描数据。评估结果显示,AFUN在可供性分割任务上,于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3;在接触点预测上,命中率比最佳基线高出12.7%–61.3%;在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。
宇树科技与英伟达合作推出新一代人形机器人参考设计“H2 Plus”,预计于今年下半年上市。该产品的核心特点是搭载了英伟达高性能算力平台,旨在为人形机器人提供更强大的“智能大脑”。此外,英伟达Isaac GR00T开发者平台也将支持宇树G1人形机器人。
中国人形机器人公司宇树科技(Unitree)于2024年实现净利润7750万元人民币,2025年利润增至约6亿元,净利润率约35%,在行业普遍亏损的背景下实现盈利。该公司已通过上海证券交易所上市委员会审核,拟融资约42亿人民币,目标成为首家在A股上市的专业人形机器人公司。其H2 Plus人形机器人预计年底出货,已被Nvidia纳入Isaac GR00T参考设计,将与Jetson Thor整合。宇树以低成本、高可靠性的产品路线实现商业化,基础版G1机器人售价约1200美元。
强脑科技预计,随着中国人形机器人产业扩张,其机械手销量今年将大幅增长。公司合伙人何熙昱锦表示,宇树科技、乐聚机器人等数十家中国内地机器人公司正在采购其五指灵巧手,行业重心正转向真实应用场景。强脑科技最初为残障人士开发仿生手,如今利用脑机接口技术,致力于开发更接近人手灵巧度的机械手。该公司还在开发一种脑机接口治疗方案,预计2027年底或2028年上市,并认为脑机接口与具身智能的结合是未来重点。
东风天元智驾T200辅助驾驶系统发布城市NOA功能,已在奕派007+汽车OTA升级中上线。该系统首次采用依托国产地平线J6M芯片(128 TOPS算力)的端到端无图方案,配备4颗环视摄像头和12颗超声波雷达,支持拨杆变道、路口通行、环岛通行等八大能力,探测距离达200米,精度±5cm。系统终身免费使用。
上交所官网显示,宇树科技的科创板IPO审核状态已更新为“提交注册”,有望成为国内“人形机器人第一股”。其IPO进程高效,从受理到过会仅用时73天,刷新了2026年以来科创板的审核纪录。根据招股书,公司本次拟募集资金总额为42.02亿元,将用于智能机器人模型研发等四大项目。招股书数据显示,公司已实现规模化盈利,2025年营业收入达16.99亿元,净利润2.78亿元。美团、腾讯等公司参与了战略投资。
北京人形机器人创新中心与百度智能云发起具身智能黑客松大赛,设运动控制与VLA模型微调双赛道,面向全球征集真机可部署方案。提供百万奖金、天工3.0本体及世界人形机器人运动会直通名额。天工Ultra曾夺半马冠军(2:40:42)及百米冠军(21.50秒)。
截至2026年5月,宇树科技单款双足人形机器人累计生产下线约11000台。该公司于2026年6月1日科创板IPO上会,拟募资42.02亿元用于智能机器人模型研发等项目。财报显示,宇树科技2025年实现营收约17亿元,主营业务毛利率达60.13%,核心部组件自研自产率超过90%。
星海图发布双足人形机器人 Kengo,拥有三款配色,搭载“运动小脑+具身大脑”,仅用两款核心模组覆盖全身关节,单关节扭矩超 130N·m。演示视频显示,Kengo 可完成空翻踢腿、鲤鱼打挺等高难度动作,并能在家庭场景中执行清洁、搬运物品等任务。官方暂未公布具体参数和价格。
本文提出了RoboSemanticBench,一个用于诊断视觉-语言-动作模型在动作预测中是否具备语义对齐能力的具身基准测试。在该测试中,机器人需要解决多选题,并根据语义理解抓取对应正确答案的方块。测试覆盖了算术、数学理解和常识理解等多种任务。评估发现,在控制抓取成功率后,许多模型选择语义正确方块的能力接近或低于随机水平,揭示了模型骨干网络的语义能力与最终动作预测之间存在持续差距。
SEAOTTER提出一种结合学习型潜在空间与标准JPEG格式的压缩框架,用于云机器人系统。相比AVIF,在200:1压缩比下编码速度快7倍、解码快3.5倍,ImageNet top-1准确率提升8%,同时保持与JPEG基础设施的兼容性。框架通过可学习的JPEG色彩与量化变换,提升全局、密集及视觉语言感知任务的精度,并支持通用与任务感知的转码流水线。代码已开源。
RobotValues 是一个包含1万个价值观冲突场景的基准,用于评估家庭机器人规划器在任务成功与自主性、效率、社会恰当性等人类价值观冲突时的行为选择。该基准通过LLM辅助场景生成、利益相关者导向的价值提取、图像生成和自动质量控制构建。使用RobotValues评估视觉语言模型(VLM)发现,模型默认偏向安全和包容,较少优先隐私保护。当指令要求优先与自身偏好冲突的特定价值观时,模型在80%的情况下无法覆盖默认动作,选择了错误行为。这表明家庭机器人评估应衡量价值观冲突中选择合理动作的能力。
英伟达发布了 Cosmos 3,这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客,发布日期为 2026 年 6 月 1 日。
同一事件,精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》100 FREE LUMOS NIX: LUMOS Robotics Officially Launches Project EDGE! LUMOS Robotics Founder & CEO Yu Chao officially int...
Nvidia在GTC台北大会上发布了一系列面向机器人、自动驾驶和视频系统的模型。核心发布包括升级版世界模型Cosmos 3、显著扩展规模的驾驶模型Alpamayo 2 Super,以及一个开源的人形机器人参考平台。这些产品共同推进了其在物理AI领域的布局。
Introducing Cosmos 3: Our latest frontier model for Physical AI Cosmos 3 is the world's first fully open omnimodel with ...
关联讨论 8 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)优步(Uber)与以色列AI出行公司Autobrains达成战略合作,计划在德国慕尼黑推出自动驾驶出租车服务。该项目整合了Uber的网约车平台与英伟达的Hyperion平台,并将采用无OEM限制的模式,允许不同车辆平台加入服务。Autobrains的战略投资者包括BMW i Ventures等。
宇树科技IPO首发过会,拟募资42.02亿元,资金将用于智能机器人模型研发、机器人本体研发、新产品开发及制造基地建设四个项目。公司2025年营收约17亿元,主营业务毛利率达60.13%,核心部组件自研自产率超过90%。此外,宇树科技于5月12日发布了全球首款量产版载人变形机甲GD01,官方指导价390万元起。
OpenAI重新组建了机器人团队,该项目脱胎于其世界模拟研究计划。团队重启距离五年前部门解散已过去五年。首席执行官Sam Altman的长期愿景是让每个人都拥有一个能完成任何需求的个人机器人。在近期,机器人的应用将首先聚焦于帮助建设基础设施。
Nvidia在Computex上发布了首个面向研究者的机器人系统Isaac GR00T。该系统硬件采用Unitree H2 Plus(身高180cm,体重70kg),配备Sharpa Wave 5指触觉手;软件大脑基于Nvidia Jetson Thor(Blackwell GPU)与Isaac GR00T软件栈。该系统已捐赠给斯坦福大学、苏黎世联邦理工学院、加州大学圣地亚哥分校和Ai2。Unitree H2计划于2026年底交付。Unitree CEO王星星此前表示,破解“机器人LLM”的公司将成为顶级AI与机器人企业,其贡献“完全值得诺贝尔奖”。
英伟达CEO黄仁勋预计将于本周四晚抵达首尔,与SK集团会长崔泰源、LG集团会长具光谟、Naver创始人李海珍等韩国主要企业负责人举行会谈,旨在推进AI与机器人等领域的合作。现代汽车集团执行会长郑义宣也可能参与。三星会长李在镕预计不会出席。此外,Naver正与英伟达协商安排黄仁勋于下周一访问其第二办公大楼。
该推文介绍了一种新型“持久化、多人协作的世界模型”,明确强调其并非传统的视频生成模型。其核心突破在于将“世界状态”与“视觉渲染”彻底解耦。这使得世界不再是一系列连续画面,而是一个可持续运行、允许用户修改、并可从任意视角进行稳定观测的结构化环境。作者认为,这可能是目前最接近实现“可交互持久世界”的技术尝试。
英伟达推出 NVIDIA Isaac GR00T 人形机器人参考设计,整合了宇树 H2 Plus 人形机器人、Sharpa Wave 触觉五指灵巧手及 Jetson AGX Thor T5000 计算平台。机器人身高约1.8米,重68千克,全身拥有75个自由度。其计算核心为 Blackwell GPU,AI性能达2070 FP4 teraflops。该参考设计由宇树推出,预计2026年底发布,并将扩展支持宇树 G1 机器人。
英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。
关联讨论 8 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。
关联讨论 8 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)