6月2日

19:08

IT之家（RSS）

宇树科技科创板 IPO 审核状态更新为"提交注册"：拟募资 42.02 亿元，冲刺 A 股人形机器人第一股

上交所官网显示，宇树科技的科创板IPO审核状态已更新为“提交注册”，有望成为国内“人形机器人第一股”。其IPO进程高效，从受理到过会仅用时73天，刷新了2026年以来科创板的审核纪录。根据招股书，公司本次拟募集资金总额为42.02亿元，将用于智能机器人模型研发等四大项目。招股书数据显示，公司已实现规模化盈利，2025年营业收入达16.99亿元，净利润2.78亿元。美团、腾讯等公司参与了战略投资。

具身智能行业动态

18:00

公众号：百度智能云（文心）

北京人形机器人创新中心联合百度智能云发起具身智能黑客松大赛

北京人形机器人创新中心与百度智能云发起具身智能黑客松大赛，设运动控制与VLA模型微调双赛道，面向全球征集真机可部署方案。提供百万奖金、天工3.0本体及世界人形机器人运动会直通名额。天工Ultra曾夺半马冠军（2:40:42）及百米冠军（21.50秒）。

具身智能开源生态行业动态

16:07

IT之家（RSS）

宇树单款人形机器人累计生产下线约 11000 台

截至2026年5月，宇树科技单款双足人形机器人累计生产下线约11000台。该公司于2026年6月1日科创板IPO上会，拟募资42.02亿元用于智能机器人模型研发等项目。财报显示，宇树科技2025年实现营收约17亿元，主营业务毛利率达60.13%，核心部组件自研自产率超过90%。

具身智能行业动态

13:07

IT之家（RSS）

星海图双足人形机器人 Kengo 发布：既能鲤鱼打挺，也能擦桌子

星海图发布双足人形机器人 Kengo，拥有三款配色，搭载“运动小脑+具身大脑”，仅用两款核心模组覆盖全身关节，单关节扭矩超 130N·m。演示视频显示，Kengo 可完成空翻踢腿、鲤鱼打挺等高难度动作，并能在家庭场景中执行清洁、搬运物品等任务。官方暂未公布具体参数和价格。

产品更新具身智能

11:40

HuggingFace Daily Papers（社区热门论文）

RoboSemanticBench：诊断VLA模型动作预测中的语义对齐

本文提出了RoboSemanticBench，一个用于诊断视觉-语言-动作模型在动作预测中是否具备语义对齐能力的具身基准测试。在该测试中，机器人需要解决多选题，并根据语义理解抓取对应正确答案的方块。测试覆盖了算术、数学理解和常识理解等多种任务。评估发现，在控制抓取成功率后，许多模型选择语义正确方块的能力接近或低于随机水平，揭示了模型骨干网络的语义能力与最终动作预测之间存在持续差距。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SEAOTTER：面向云机器人的传感器嵌入式自编码器与一次性转码压缩框架

SEAOTTER提出一种结合学习型潜在空间与标准JPEG格式的压缩框架，用于云机器人系统。相比AVIF，在200:1压缩比下编码速度快7倍、解码快3.5倍，ImageNet top-1准确率提升8%，同时保持与JPEG基础设施的兼容性。框架通过可学习的JPEG色彩与量化变换，提升全局、密集及视觉语言感知任务的精度，并支持通用与任务感知的转码流水线。代码已开源。

具身智能端侧论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

RobotValues：家庭机器人价值观冲突评估基准

RobotValues 是一个包含1万个价值观冲突场景的基准，用于评估家庭机器人规划器在任务成功与自主性、效率、社会恰当性等人类价值观冲突时的行为选择。该基准通过LLM辅助场景生成、利益相关者导向的价值提取、图像生成和自动质量控制构建。使用RobotValues评估视觉语言模型（VLM）发现，模型默认偏向安全和包容，较少优先隐私保护。当指令要求优先与自身偏好冲突的特定价值观时，模型在80%的情况下无法覆盖默认动作，选择了错误行为。这表明家庭机器人评估应衡量价值观冲突中选择合理动作的能力。

arXiv 具身智能安全/对齐论文/研究

01:03

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选75

英伟达 Cosmos 3

英伟达发布了 Cosmos 3，这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客，发布日期为 2026 年 6 月 1 日。

具身智能多模态模型发布

同一事件，精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》

推荐理由：Cosmos 3 把物理推理、世界生成和行动生成塞进一个开源模型，从机器人到自动驾驶都能用，英伟达这次是真的想定义物理 AI 的训练范式。

6月1日

21:35

The Decoder：AI News（RSS）

Nvidia在GTC台北大会押注物理AI：发布新世界模型、驾驶大脑及开源人形机器人

Nvidia在GTC台北大会上发布了一系列面向机器人、自动驾驶和视频系统的模型。核心发布包括升级版世界模型Cosmos 3、显著扩展规模的驾驶模型Alpamayo 2 Super，以及一个开源的人形机器人参考平台。这些产品共同推进了其在物理AI领域的布局。

具身智能开源/仓库模型发布

19:05

IT之家（RSS）

普渡机器人新一代 PUDU D7 发布：最高 14kg 承重，支持边工作边学习

产品更新具身智能

18:05

IT之家（RSS）

结合英伟达技术，优步将与 Autobrains 在德国慕尼黑推出自动驾驶出租车服务

优步（Uber）与以色列AI出行公司Autobrains达成战略合作，计划在德国慕尼黑推出自动驾驶出租车服务。该项目整合了Uber的网约车平台与英伟达的Hyperion平台，并将采用无OEM限制的模式，允许不同车辆平台加入服务。Autobrains的战略投资者包括BMW i Ventures等。

具身智能行业动态

18:05

IT之家（RSS）

宇树科技 IPO 首发过会：拟募资 42.02 亿元，主要用于 4 大项目

宇树科技IPO首发过会，拟募资42.02亿元，资金将用于智能机器人模型研发、机器人本体研发、新产品开发及制造基地建设四个项目。公司2025年营收约17亿元，主营业务毛利率达60.13%，核心部组件自研自产率超过90%。此外，宇树科技于5月12日发布了全球首款量产版载人变形机甲GD01，官方指导价390万元起。

具身智能行业动态

17:05

IT之家（RSS）

消息称理想汽车基座模型部门组织再调整，新增 3 个具身智能相关二级部门

具身智能行业动态

17:05

IT之家（RSS）

段永平谈特斯拉 FSD：很好用，有一次还不小心睡着了 40 分钟

具身智能大佬观点

17:04

The Decoder：AI News（RSS）

OpenAI重启机器人团队，初期聚焦基建，终局瞄准"人人拥有无所不能的个人机器人"

OpenAI重新组建了机器人团队，该项目脱胎于其世界模拟研究计划。团队重启距离五年前部门解散已过去五年。首席执行官Sam Altman的长期愿景是让每个人都拥有一个能完成任何需求的个人机器人。在近期，机器人的应用将首先聚焦于帮助建设基础设施。

OpenAI 具身智能行业动态

16:04

IT之家（RSS）

消息称英伟达 CEO 黄仁勋本周访韩，与本土巨头洽谈 AI、机器人合作

英伟达CEO黄仁勋预计将于本周四晚抵达首尔，与SK集团会长崔泰源、LG集团会长具光谟、Naver创始人李海珍等韩国主要企业负责人举行会谈，旨在推进AI与机器人等领域的合作。现代汽车集团执行会长郑义宣也可能参与。三星会长李在镕预计不会出席。此外，Naver正与英伟达协商安排黄仁勋于下周一访问其第二办公大楼。

具身智能行业动态

15:04

IT之家（RSS）

OpenAI 发招聘宣布进军机器人赛道，短期内专注研发协助型机器人

OpenAI 具身智能行业动态

关联讨论 2 条

14:04

IT之家（RSS）

英伟达 Isaac GR00T 人形机器人发布：基于宇树 H2 打造，年底推出

英伟达推出 NVIDIA Isaac GR00T 人形机器人参考设计，整合了宇树 H2 Plus 人形机器人、Sharpa Wave 触觉五指灵巧手及 Jetson AGX Thor T5000 计算平台。机器人身高约1.8米，重68千克，全身拥有75个自由度。其计算核心为 Blackwell GPU，AI性能达2070 FP4 teraflops。该参考设计由宇树推出，预计2026年底发布，并将扩展支持宇树 G1 机器人。

产品更新具身智能端侧

14:04

IT之家（RSS）

让机器人看懂世界：英伟达推出全球首款全开源全模态物理 AI 大模型 Cosmos 3

英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构，可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成，将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一，提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理，Edge版本即将推出。

具身智能多模态开源生态模型发布

关联讨论 7 条

13:36

Hugging Face：Blog（RSS）

NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3，基于 Mixture-of-Transformers（MoT）架构的开源全能模型，统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力，在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本：Cosmos 3 Nano（16B 参数，8B 推理器 + 8B 生成器，面向工作站级 GPU）和 Cosmos 3 Super（64B 参数，32B + 32B，面向 Hopper 和 Blackwell GPU，用于大规模合成数据生成与研究）。两者均已上架 Hugging Face，并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布

关联讨论 7 条

13:04

IT之家（RSS）

小鹏集团：5 月交付新车 32158 辆，环比增长 4%

小鹏集团5月交付新车32158辆，环比增长4%。5月20日上市的GX车型上市12小时大定达24863辆，Ultra旗舰版订单占比超八成。同月，其全球首款全栈自研L4级Robotaxi基于GX原型车量产下线，搭载4颗自研图灵AI芯片，算力达3000TOPS，计划三季度在广州示范运营。此外，一季度财报显示毛利率为20.6%，研发投入29.1亿元，二季度交付量指引为10万至10.6万台。截至5月底，其自营充电站已覆盖430+座城市，累计超3600站。

具身智能端侧行业动态

13:04

IT之家（RSS）

英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

英伟达开源了 Alpamayo 2 Super 视觉-语言-动作（VLA）模型，参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注，专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩，部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。

具身智能多模态推理模型发布

12:03

IT之家（RSS）

小鹏 P7+ 迎来 OTA 6.2.0 更新：VLA2.0 全场景辅助驾驶上线

产品更新具身智能端侧

11:28

IT之家（RSS）

深圳文旅将在深中通道西人工岛打造"全流程机器人服务"智能酒店，明年初开启试运营

深圳市文旅产业发展有限公司与一家机器人公司达成战略合作，将在深中通道西人工岛联合打造全流程机器人服务的智慧酒店，计划于2027年初试运营。酒店将提供覆盖宾客接待、行李引导等七大核心场景的全天候智能服务，并将与西岛整体文旅生态打通。

具身智能行业动态

10:28

IT之家（RSS）

宇树科技科创板 IPO 今日上会，拟募资 42.02 亿元用于机器人研发等项目

宇树科技科创板IPO于6月1日上会，拟募资42.02亿元，用于智能机器人模型研发等四大项目。公司2025年营收约17亿元，主营业务毛利率达60.13%，核心部组件自研自产率超过90%。此外，宇树科技于5月12日发布了全球首款量产版载人变形机甲GD01，官方指导价390万元起。

具身智能行业动态

09:28

IT之家（RSS）

精选72

全球首次：MWC26 上海将举办"人形机器人点球大战"，宇树科技等 8 支队伍参赛、参演

全球首次“人形机器人点球大战”将于2026年6月在MWC上海举行。8支中国顶尖具身智能战队将进行自主对抗，无需人工操控或预设脚本。赛事旨在集中展示人形机器人在动态平衡、精准控制与自主决策等方面的技术突破。

具身智能行业动态

推荐理由：全球首次人形机器人点球大赛，不再是论文指标或仿真跑分，而是把动态平衡、自主决策塞进一场体育规则，具身智能的进展此刻比任何展台都诚实。

08:28

IT之家（RSS）

贾跃亭：FF 机器人五月出货 69 台，超三四月总和

FF创始人贾跃亭透露，5月EAI机器人终端销售出货量达69台，超过3、4月总和。公司计划首个交付季出货200台，全年目标1500台。FF同时向SEC提交线索函，持续打击非法做空行为。公司旗下产品包括Futurist、Master、Aegis等系列的具身智能机器人。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

自动驾驶的未来：KITScenes多模态数据集

KITScenes Multimodal是一个欧洲自动驾驶多模态数据集，传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素（含红绿灯）以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市，补充地理多样性。同时推出四个基准：在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。

arXiv 具身智能多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

Cosmos 3：面向物理AI的全模态世界模型

NVIDIA 发布 Cosmos 3 全模态世界模型家族，基于统一混合 Transformer 架构，联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架，在多项理解与生成任务上达到新 SOTA。技术报告撰写时，后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型，被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源（Linux Foundation OpenMDW-1.1 许可）。

具身智能多模态开源生态论文/研究

关联讨论 7 条

08:00

HuggingFace Daily Papers（社区热门论文）

WALL-WM：沿事件节点雕刻世界动作建模

WALL-WM 是一种世界动作模型，将视频-动作学习从固定长度块优化转向基于语义事件的视觉-语言-动作（VLA）预训练。它把语义一致的动作事件作为基本学习单元，解决了语言、视觉与动作在时间粒度上的不匹配。WALL-WM 结合事件级描述与聚类平衡采样构建数据生态，并从同一预训练主干支持两种推理模式：事件模式（变长执行块）和统一模式（使用 VLM 与阶梯解码）。依托 Muon 优化器的大规模预训练基础设施，WALL-WM 在跨语言、场景与任务的真实世界泛化评估中达到当前最优性能。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口，并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图，融合自监督视觉编码器的几何与语义节点距离，并通过盲目匹配来定位语言目标，无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明，PlatonicNav在无需显式跨模态训练的情况下，实现了跨任务、跨模态和跨具身的泛化能力。

具身智能多模态论文/研究

5月31日

18:24

IT之家（RSS）

中国科学家开发出无人机蜂群新算法：通信中断、视野受限条件下仍能作战，为首个达到 100% 杀伤率且保持足够响应速度的算法

智能体具身智能论文/研究

11:24

IT之家（RSS）

20亿美元机器人独角兽将民宿当实验室：多套Airbnb房源受损，房东发起诉讼

旧金山机器人初创企业The Bot Company（估值20亿美元）被指控秘密租用多处爱彼迎（Airbnb）房源作为机器人测试场地，导致房屋严重损坏。房东肖恩·多诺万索赔12383.50美元并起诉该公司。该公司由前Cruise首席执行官凯尔·沃格特于2024年创立，首轮种子轮融资1.5亿美元。其原型机器人具备机械臂和双夹爪，可自主整理物品。公司尚未推出正式产品，租用短租房源模拟居家环境进行测试，但未告知房东真实用途。

具身智能行业动态

10:24

IT之家（RSS）

特斯拉 FSD（监督版）获爱沙尼亚批准，即将推送

特斯拉FSD（监督版）系统已获得爱沙尼亚批准，使其成为欧洲第三个允许该系统上路的国家。爱沙尼亚交通局直接采信了荷兰道路运输管理局的车型认证数据。软件即将推送，但初期仅限搭载AI4硬件的新款车型，使用3.0版旧硬件的车主需等待特斯拉计划于夏末推出的FSD 14精简版。欧洲用户将使用针对当地法规定制的版本。由于特斯拉已在欧洲终止一次性买断，该功能今后将采用按月订阅模式提供。

具身智能行业动态

09:24

IT之家（RSS）

马斯克发视频展示 Cybercab 自动驶出工厂，即将开启商业化运营

产品更新具身智能

08:00

HuggingFace Daily Papers（社区热门论文）

CARVE：交互驾驶中被否决操作的认证可负担修复

CARVE是一个无预测的交互驾驶认证层，基于有限格点上的合作包络B_j(s)=β(π_j)α_j^max(s)，对被否决操作进行修复认证。在589个INTERACTION回放片段中，CARVE-Greedy接受了98.64%的初始否决动作，恢复了370/378个人工假否决，同时保持了589/589路权尊重、零优先级智能体假阳性与400/400负应力否决。CARVE不依赖预测或要求其他驾驶员合规，仅认证提议交互是否有界、可归因且符合规范。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建，提供两个接口：一个联合预测未来视觉潜在表示与连续动作块的视频动作模型，以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练，包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时，模型通过测试时计算采样动作候选，并利用去噪一致性和基于模拟器的修正来筛选低质量动作，在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由：机器人操作领域的大一统尝试，把视频预测和动作生成放在一个扩散模型里，还用27万小时数据训练，做具身智能的可以看看这个架构。

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

定位何处：基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务（TVR）与模拟基准TVRBench，评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%，瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架，视觉动作SFT将9B开源模型成功率提升至50.8%，多轮GRPO进一步达到51.4%，为训练主动感知与行动的模型提供了基准。代码与模型已开源。

arXiv 具身智能多模态论文/研究

推荐理由：主动探索视角是具身智能的关键短板，这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码，做空间智能的可以直接拿来跑。

5月30日

23:24

IT之家（RSS）

2B 参数"四两拨千斤"，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

具身智能模型发布

17:48

MarkTechPost（RSS）

Genesis AI 发布 Nyx、Quadrants 和 Genesis World 1.0 物理平台，用于可扩展的机器人基础模型评估

Genesis AI 发布 Genesis World 1.0 仿真平台。该平台包含物理、渲染、编译、工具四大组件，其仿真与真实机器人部署的相关性达 0.8996。策略评估时间从超过 200 小时缩短至不足 0.5 小时。

产品更新具身智能