6月3日

17:09

IT之家（RSS）

6月1日，新疆一景区的人形机器人在表演时踢中一名围观儿童腹部，致其捂腹坐地。孩子母亲称已报警处理，但对负责人态度不满，所幸孩子无大碍。涉事机器人由园区人员遥控操作，表演区域无围挡或警戒线。相关话题一度登上微博热搜第一，网友就景区、家长及操控方责任归属展开激烈讨论。

具身智能行业动态

16:47

MarkTechPost（RSS）

NVIDIA发布Cosmos 3：统一物理推理、世界生成与动作生成的双塔混合Transformer基础模型

NVIDIA发布Cosmos 3，这是一款开放的全模态世界模型。该模型采用双塔混合Transformer架构，统一了物理推理、世界生成与动作生成能力，结合了自回归VLM推理器与扩散生成器，旨在赋能物理AI。

具身智能多模态开源生态模型发布

15:09

IT之家（RSS）

消息称元戎启行或成赛力斯、字节合作新车品牌"赛豆"智驾方案商

据报道，赛力斯与字节跳动合作的新车品牌“赛豆”，预计其智能驾驶方案将由元戎启行提供。元戎启行已与长城汽车、零跑等多家车企合作，搭载其方案的车辆达30万辆。该公司已完成8轮融资，累计金额超10亿美元。“赛豆科技”首款跨界车型预计今年内推出，提供纯电与增程双动力，新品牌计划于6月发布。知情人士表示，该车智驾方案预计不会采用华为乾崑。

具身智能行业动态

13:09

IT之家（RSS）

智元开源行业首个聚焦物理交互的具身数据集

智元正式开源 AGIBOT WORLD 2026 数据集第二期“多样交互（Rich Interaction）”。这是行业首个聚焦物理交互的开源具身数据集，系统记录机器人与真实物理世界之间复杂、高密度的交互过程，面向世界模型、神经仿真器等具身智能研究。该数据集将数据范式从“学习成功动作”推进到“理解完整的物理分布”，目前已在 Hugging Face 平台开放下载。

Hugging Face 具身智能开源/仓库数据/训练

10:41

HuggingFace Daily Papers（社区热门论文）

Humanoid-GPT：通过规模化数据与结构实现零样本动作追踪

Humanoid-GPT是一个基于GPT架构的Transformer模型，专为人形机器人全身控制设计。它在一个包含20亿帧的重定向运动语料库上进行预训练，该语料库统一了主要的动作捕捉数据集与大规模内部录制数据。通过扩展数据规模和模型容量，Humanoid-GPT成为了能够追踪高动态行为的单一生成式Transformer，并对未见过的运动和控制任务展现出前所未有的零样本泛化能力。实验证明，该模型在零样本泛化至新任务的同时，能稳健地追踪复杂动态动作，建立了新的性能前沿。

具身智能数据/训练论文/研究

10:41

HuggingFace Daily Papers（社区热门论文）

NVIDIA OmniDreams：用于闭环自动驾驶模拟的实时生成式世界模型

OmniDreams是一个基于Cosmos扩散模型进行中后期训练的基础生成式世界模型，使用21k小时驾驶场景数据训练。它能根据过去帧、当前仿真器状态和即时驾驶动作，自回归地实时生成动作条件化的逼真传感器视频，可合成极端天气和不可预测的动态智能体行为等复杂现象。该模型部署于包含Alpamayo 1策略模型和AlpaSim协调器的闭环系统中，作为高响应性环境。初步结果显示，基于OmniDreams后训练的世界-动作模型（WAM）在Physical AI自动驾驶NuRec数据集上，仅用Alpamayo 1.5研究策略模型1/5的总参数就取得了优异性能。

具身智能论文/研究

08:09

IT之家（RSS）

微软发布基于安卓的"Project Solara"智能体操作系统

微软在 Build 2026 发布专为 AI 智能体打造的操作系统“Project Solara”。该系统基于 Android 定制，旨在运行于小型低功耗设备。现场同步展示了桌面终端和可穿戴智能胸牌两款概念设备，作为硬件厂商的参考设计。

智能体 DeepSeek Microsoft 具身智能

08:00

HuggingFace Daily Papers（社区热门论文）

Flash-WAM：面向世界动作模型的模态感知蒸馏

世界动作模型（WAMs）通过迭代扩散联合生成未来视频与机器人动作，但数十步去噪成本阻碍实时控制。Flash-WAM 提出模态感知步蒸馏：为动作流低噪声区采用线性梯度缩放参数化，为视频流高噪声区采用方差保持参数化，将推理压缩至单步。在 LingBot-VA 上实例化后，RoboTwin 2.0 每块延迟从 8.1 秒降至 348 ms（NVIDIA L40S），23 倍加速。仿真基准成功率保持（RoboTwin 2.0 85.5%，LIBERO 95.7%），真实世界 Unitree G1 人形机器人平均 60%，而朴素一致性蒸馏仅 24%。

具身智能推理论文/研究部署/工程

01:45

Rohan Paul@rohanpaul_ai

波士顿动力的Spot机器人正在达拉斯的世界杯场馆巡逻，使用360度摄像头、热成像和化学传感器来检测可疑包裹、扫描周围环境，并实时支持安保团队。不具备面部识别能力。

具身智能行业动态

01:40

HuggingFace Daily Papers（社区热门论文）

精选71

AFUN：迈向功能理解的可供性基础模型

AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发，能同时预测任务条件的功能掩码（where）和3D接触后运动曲线（how）。为实现开放世界泛化，该研究构建了一个大规模标准化数据管道，整合了机器人、人类、仿真与真实扫描数据。评估结果显示，AFUN在可供性分割任务上，于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3；在接触点预测上，命中率比最佳基线高出12.7%–61.3%；在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。

具身智能数据/训练论文/研究

推荐理由：在 affordance 基础模型方向做出一步，跨 8 个测试集大幅超越基线，并可直接部署到真实机器人，对具身智能的通用化是个值得关注的信号。

6月2日

23:08

IT之家（RSS）

宇树科技回应与英伟达合作机器人：新产品"H2 Plus"下半年上市

宇树科技与英伟达合作推出新一代人形机器人参考设计“H2 Plus”，预计于今年下半年上市。该产品的核心特点是搭载了英伟达高性能算力平台，旨在为人形机器人提供更强大的“智能大脑”。此外，英伟达Isaac GR00T开发者平台也将支持宇树G1人形机器人。

具身智能行业动态

22:32

X.PIN@thexpin

人形机器人公司宇树科技（Unitree）在行业亏损中实现盈利

中国人形机器人公司宇树科技（Unitree）于2024年实现净利润7750万元人民币，2025年利润增至约6亿元，净利润率约35%，在行业普遍亏损的背景下实现盈利。该公司已通过上海证券交易所上市委员会审核，拟融资约42亿人民币，目标成为首家在A股上市的专业人形机器人公司。其H2 Plus人形机器人预计年底出货，已被Nvidia纳入Isaac GR00T参考设计，将与Jetson Thor整合。宇树以低成本、高可靠性的产品路线实现商业化，基础版G1机器人售价约1200美元。

具身智能现象/趋势

21:08

IT之家（RSS）

强脑科技预计今年机械手销量大涨：宇树、乐聚都是我们的客户

强脑科技预计，随着中国人形机器人产业扩张，其机械手销量今年将大幅增长。公司合伙人何熙昱锦表示，宇树科技、乐聚机器人等数十家中国内地机器人公司正在采购其五指灵巧手，行业重心正转向真实应用场景。强脑科技最初为残障人士开发仿生手，如今利用脑机接口技术，致力于开发更接近人手灵巧度的机械手。该公司还在开发一种脑机接口治疗方案，预计2027年底或2028年上市，并认为脑机接口与具身智能的结合是未来重点。

具身智能行业动态

20:08

IT之家（RSS）

东风天元智驾 T200 辅助驾驶城市 NOA 发布：首次采用国产芯片端到端无图方案

东风天元智驾T200辅助驾驶系统发布城市NOA功能，已在奕派007+汽车OTA升级中上线。该系统首次采用依托国产地平线J6M芯片（128 TOPS算力）的端到端无图方案，配备4颗环视摄像头和12颗超声波雷达，支持拨杆变道、路口通行、环岛通行等八大能力，探测距离达200米，精度±5cm。系统终身免费使用。

产品更新具身智能

19:08

IT之家（RSS）

宇树科技科创板 IPO 审核状态更新为"提交注册"：拟募资 42.02 亿元，冲刺 A 股人形机器人第一股

上交所官网显示，宇树科技的科创板IPO审核状态已更新为“提交注册”，有望成为国内“人形机器人第一股”。其IPO进程高效，从受理到过会仅用时73天，刷新了2026年以来科创板的审核纪录。根据招股书，公司本次拟募集资金总额为42.02亿元，将用于智能机器人模型研发等四大项目。招股书数据显示，公司已实现规模化盈利，2025年营业收入达16.99亿元，净利润2.78亿元。美团、腾讯等公司参与了战略投资。

具身智能行业动态

18:00

公众号：百度智能云（文心）

北京人形机器人创新中心联合百度智能云发起具身智能黑客松大赛

北京人形机器人创新中心与百度智能云发起具身智能黑客松大赛，设运动控制与VLA模型微调双赛道，面向全球征集真机可部署方案。提供百万奖金、天工3.0本体及世界人形机器人运动会直通名额。天工Ultra曾夺半马冠军（2:40:42）及百米冠军（21.50秒）。

具身智能开源生态行业动态

16:07

IT之家（RSS）

宇树单款人形机器人累计生产下线约 11000 台

截至2026年5月，宇树科技单款双足人形机器人累计生产下线约11000台。该公司于2026年6月1日科创板IPO上会，拟募资42.02亿元用于智能机器人模型研发等项目。财报显示，宇树科技2025年实现营收约17亿元，主营业务毛利率达60.13%，核心部组件自研自产率超过90%。

具身智能行业动态

13:07

IT之家（RSS）

星海图双足人形机器人 Kengo 发布：既能鲤鱼打挺，也能擦桌子

星海图发布双足人形机器人 Kengo，拥有三款配色，搭载“运动小脑+具身大脑”，仅用两款核心模组覆盖全身关节，单关节扭矩超 130N·m。演示视频显示，Kengo 可完成空翻踢腿、鲤鱼打挺等高难度动作，并能在家庭场景中执行清洁、搬运物品等任务。官方暂未公布具体参数和价格。

产品更新具身智能

11:40

HuggingFace Daily Papers（社区热门论文）

RoboSemanticBench：诊断VLA模型动作预测中的语义对齐

本文提出了RoboSemanticBench，一个用于诊断视觉-语言-动作模型在动作预测中是否具备语义对齐能力的具身基准测试。在该测试中，机器人需要解决多选题，并根据语义理解抓取对应正确答案的方块。测试覆盖了算术、数学理解和常识理解等多种任务。评估发现，在控制抓取成功率后，许多模型选择语义正确方块的能力接近或低于随机水平，揭示了模型骨干网络的语义能力与最终动作预测之间存在持续差距。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SEAOTTER：面向云机器人的传感器嵌入式自编码器与一次性转码压缩框架

SEAOTTER提出一种结合学习型潜在空间与标准JPEG格式的压缩框架，用于云机器人系统。相比AVIF，在200:1压缩比下编码速度快7倍、解码快3.5倍，ImageNet top-1准确率提升8%，同时保持与JPEG基础设施的兼容性。框架通过可学习的JPEG色彩与量化变换，提升全局、密集及视觉语言感知任务的精度，并支持通用与任务感知的转码流水线。代码已开源。

具身智能端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RobotValues：家庭机器人价值观冲突评估基准

RobotValues 是一个包含1万个价值观冲突场景的基准，用于评估家庭机器人规划器在任务成功与自主性、效率、社会恰当性等人类价值观冲突时的行为选择。该基准通过LLM辅助场景生成、利益相关者导向的价值提取、图像生成和自动质量控制构建。使用RobotValues评估视觉语言模型（VLM）发现，模型默认偏向安全和包容，较少优先隐私保护。当指令要求优先与自身偏好冲突的特定价值观时，模型在80%的情况下无法覆盖默认动作，选择了错误行为。这表明家庭机器人评估应衡量价值观冲突中选择合理动作的能力。

arXiv 具身智能安全/对齐论文/研究

01:03

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选75

英伟达 Cosmos 3

英伟达发布了 Cosmos 3，这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客，发布日期为 2026 年 6 月 1 日。

具身智能多模态模型发布

同一事件，精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》

推荐理由：Cosmos 3 把物理推理、世界生成和行动生成塞进一个开源模型，从机器人到自动驾驶都能用，英伟达这次是真的想定义物理 AI 的训练范式。

6月1日

23:39

Rohan Paul@rohanpaul_ai

LUMOS Robotics 启动 Project EDGE 计划，旨在构建开发者生态。由于仿真难以复现摩擦力、平衡误差、传感器噪声和真实人类环境，人形机器人的运动、感知与交互能力必须在真实硬件上进行测试。项目将向全球开发者、高校、机器人实验室及创意团队免费提供 100 台 LUMOS NIX 人形机器人。获选合作伙伴将获得机器人设备、开放的 SDK 访问权限及直接技术支持，以探索从动态运动控制到具身 AI 应用的广泛场景。项目现已开放申请。

lumos robotics: 100 FREE LUMOS NIX: LUMOS Robotics Officially Launches Project EDGE! LUMOS Robotics Founder & CEO Yu Chao officially int...

产品更新具身智能

23:15

Luma@LumaLabsAI

为改善人类生活，AI系统必须能帮助我们改善物理世界。阻碍我们迈向这一繁荣未来的是物理AI的泛化问题。为解决此问题，我们在Luma建立了一个新的开放科学物理AI实验室。阅读更多 → https://lumalabs.ai/news/luma-open-physical-ai-lab

具身智能行业动态

21:35

The Decoder：AI News（RSS）

Nvidia在GTC台北大会押注物理AI：发布新世界模型、驾驶大脑及开源人形机器人

Nvidia在GTC台北大会上发布了一系列面向机器人、自动驾驶和视频系统的模型。核心发布包括升级版世界模型Cosmos 3、显著扩展规模的驾驶模型Alpamayo 2 Super，以及一个开源的人形机器人参考平台。这些产品共同推进了其在物理AI领域的布局。

具身智能开源/仓库模型发布

21:09

Chubby♨️@kimmonismus

NVIDIA在GTC Taipei上宣布完全开源Cosmos 3。这是首个针对物理AI的"全能模型"，具备原生视觉推理能力，可理解真实世界、预测未来并生成机器人应采取的行动。本次发布包含两个变体：Super（32B）和Nano（8B）。模型权重、代码及数据集均已完全开放。

NVIDIA AI: Introducing Cosmos 3: Our latest frontier model for Physical AI Cosmos 3 is the world's first fully open omnimodel with ...

具身智能开源/仓库模型发布

关联讨论 8 条

19:05

IT之家（RSS）

普渡机器人新一代 PUDU D7 发布：最高 14kg 承重，支持边工作边学习

产品更新具身智能

18:05

IT之家（RSS）

结合英伟达技术，优步将与 Autobrains 在德国慕尼黑推出自动驾驶出租车服务

优步（Uber）与以色列AI出行公司Autobrains达成战略合作，计划在德国慕尼黑推出自动驾驶出租车服务。该项目整合了Uber的网约车平台与英伟达的Hyperion平台，并将采用无OEM限制的模式，允许不同车辆平台加入服务。Autobrains的战略投资者包括BMW i Ventures等。

具身智能行业动态

18:05

IT之家（RSS）

宇树科技 IPO 首发过会：拟募资 42.02 亿元，主要用于 4 大项目

宇树科技IPO首发过会，拟募资42.02亿元，资金将用于智能机器人模型研发、机器人本体研发、新产品开发及制造基地建设四个项目。公司2025年营收约17亿元，主营业务毛利率达60.13%，核心部组件自研自产率超过90%。此外，宇树科技于5月12日发布了全球首款量产版载人变形机甲GD01，官方指导价390万元起。

具身智能行业动态

17:57

X.PIN@thexpin

突发：宇树科技刚刚通过了上海证券交易所科创板的IPO审核！上市审核委员会今日（6月1日）确认，宇树科技完全符合所有发行、上市和信息披露要求。这是公司的一个重要里程碑！

具身智能行业动态

17:05

IT之家（RSS）

消息称理想汽车基座模型部门组织再调整，新增 3 个具身智能相关二级部门

具身智能行业动态

17:05

IT之家（RSS）

段永平谈特斯拉 FSD：很好用，有一次还不小心睡着了 40 分钟

具身智能大佬观点

17:04

The Decoder：AI News（RSS）

OpenAI重启机器人团队，初期聚焦基建，终局瞄准"人人拥有无所不能的个人机器人"

OpenAI重新组建了机器人团队，该项目脱胎于其世界模拟研究计划。团队重启距离五年前部门解散已过去五年。首席执行官Sam Altman的长期愿景是让每个人都拥有一个能完成任何需求的个人机器人。在近期，机器人的应用将首先聚焦于帮助建设基础设施。

OpenAI 具身智能行业动态

16:57

X.PIN@thexpin

Nvidia在Computex推出Isaac GR00T机器人系统

Nvidia在Computex上发布了首个面向研究者的机器人系统Isaac GR00T。该系统硬件采用Unitree H2 Plus（身高180cm，体重70kg），配备Sharpa Wave 5指触觉手；软件大脑基于Nvidia Jetson Thor（Blackwell GPU）与Isaac GR00T软件栈。该系统已捐赠给斯坦福大学、苏黎世联邦理工学院、加州大学圣地亚哥分校和Ai2。Unitree H2计划于2026年底交付。Unitree CEO王星星此前表示，破解“机器人LLM”的公司将成为顶级AI与机器人企业，其贡献“完全值得诺贝尔奖”。

产品更新具身智能

16:04

IT之家（RSS）

消息称英伟达 CEO 黄仁勋本周访韩，与本土巨头洽谈 AI、机器人合作

英伟达CEO黄仁勋预计将于本周四晚抵达首尔，与SK集团会长崔泰源、LG集团会长具光谟、Naver创始人李海珍等韩国主要企业负责人举行会谈，旨在推进AI与机器人等领域的合作。现代汽车集团执行会长郑义宣也可能参与。三星会长李在镕预计不会出席。此外，Naver正与英伟达协商安排黄仁勋于下周一访问其第二办公大楼。

具身智能行业动态

15:04

IT之家（RSS）

OpenAI 发招聘宣布进军机器人赛道，短期内专注研发协助型机器人

OpenAI 具身智能行业动态

关联讨论 2 条

14:42

Berryxia.AI@berryxia

多人协作持久世界模型：解耦状态与渲染

该推文介绍了一种新型“持久化、多人协作的世界模型”，明确强调其并非传统的视频生成模型。其核心突破在于将“世界状态”与“视觉渲染”彻底解耦。这使得世界不再是一系列连续画面，而是一个可持续运行、允许用户修改、并可从任意视角进行稳定观测的结构化环境。作者认为，这可能是目前最接近实现“可交互持久世界”的技术尝试。

具身智能多模态现象/趋势

14:04

IT之家（RSS）

英伟达 Isaac GR00T 人形机器人发布：基于宇树 H2 打造，年底推出

英伟达推出 NVIDIA Isaac GR00T 人形机器人参考设计，整合了宇树 H2 Plus 人形机器人、Sharpa Wave 触觉五指灵巧手及 Jetson AGX Thor T5000 计算平台。机器人身高约1.8米，重68千克，全身拥有75个自由度。其计算核心为 Blackwell GPU，AI性能达2070 FP4 teraflops。该参考设计由宇树推出，预计2026年底发布，并将扩展支持宇树 G1 机器人。

产品更新具身智能端侧

14:04

IT之家（RSS）

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构，可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成，将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一，提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理，Edge版本即将推出。

具身智能多模态开源生态模型发布

关联讨论 8 条

13:36

Hugging Face：Blog（RSS）

NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3，基于 Mixture-of-Transformers（MoT）架构的开源全能模型，统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力，在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本：Cosmos 3 Nano（16B 参数，8B 推理器 + 8B 生成器，面向工作站级 GPU）和 Cosmos 3 Super（64B 参数，32B + 32B，面向 Hopper 和 Blackwell GPU，用于大规模合成数据生成与研究）。两者均已上架 Hugging Face，并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布

关联讨论 8 条