上交所官网显示,宇树科技的科创板IPO审核状态已更新为“提交注册”,有望成为国内“人形机器人第一股”。其IPO进程高效,从受理到过会仅用时73天,刷新了2026年以来科创板的审核纪录。根据招股书,公司本次拟募集资金总额为42.02亿元,将用于智能机器人模型研发等四大项目。招股书数据显示,公司已实现规模化盈利,2025年营业收入达16.99亿元,净利润2.78亿元。美团、腾讯等公司参与了战略投资。
上交所官网显示,宇树科技的科创板IPO审核状态已更新为“提交注册”,有望成为国内“人形机器人第一股”。其IPO进程高效,从受理到过会仅用时73天,刷新了2026年以来科创板的审核纪录。根据招股书,公司本次拟募集资金总额为42.02亿元,将用于智能机器人模型研发等四大项目。招股书数据显示,公司已实现规模化盈利,2025年营业收入达16.99亿元,净利润2.78亿元。美团、腾讯等公司参与了战略投资。
北京人形机器人创新中心与百度智能云发起具身智能黑客松大赛,设运动控制与VLA模型微调双赛道,面向全球征集真机可部署方案。提供百万奖金、天工3.0本体及世界人形机器人运动会直通名额。天工Ultra曾夺半马冠军(2:40:42)及百米冠军(21.50秒)。
截至2026年5月,宇树科技单款双足人形机器人累计生产下线约11000台。该公司于2026年6月1日科创板IPO上会,拟募资42.02亿元用于智能机器人模型研发等项目。财报显示,宇树科技2025年实现营收约17亿元,主营业务毛利率达60.13%,核心部组件自研自产率超过90%。
星海图发布双足人形机器人 Kengo,拥有三款配色,搭载“运动小脑+具身大脑”,仅用两款核心模组覆盖全身关节,单关节扭矩超 130N·m。演示视频显示,Kengo 可完成空翻踢腿、鲤鱼打挺等高难度动作,并能在家庭场景中执行清洁、搬运物品等任务。官方暂未公布具体参数和价格。
本文提出了RoboSemanticBench,一个用于诊断视觉-语言-动作模型在动作预测中是否具备语义对齐能力的具身基准测试。在该测试中,机器人需要解决多选题,并根据语义理解抓取对应正确答案的方块。测试覆盖了算术、数学理解和常识理解等多种任务。评估发现,在控制抓取成功率后,许多模型选择语义正确方块的能力接近或低于随机水平,揭示了模型骨干网络的语义能力与最终动作预测之间存在持续差距。
SEAOTTER提出一种结合学习型潜在空间与标准JPEG格式的压缩框架,用于云机器人系统。相比AVIF,在200:1压缩比下编码速度快7倍、解码快3.5倍,ImageNet top-1准确率提升8%,同时保持与JPEG基础设施的兼容性。框架通过可学习的JPEG色彩与量化变换,提升全局、密集及视觉语言感知任务的精度,并支持通用与任务感知的转码流水线。代码已开源。
RobotValues 是一个包含1万个价值观冲突场景的基准,用于评估家庭机器人规划器在任务成功与自主性、效率、社会恰当性等人类价值观冲突时的行为选择。该基准通过LLM辅助场景生成、利益相关者导向的价值提取、图像生成和自动质量控制构建。使用RobotValues评估视觉语言模型(VLM)发现,模型默认偏向安全和包容,较少优先隐私保护。当指令要求优先与自身偏好冲突的特定价值观时,模型在80%的情况下无法覆盖默认动作,选择了错误行为。这表明家庭机器人评估应衡量价值观冲突中选择合理动作的能力。
英伟达发布了 Cosmos 3,这是一个用于物理 AI 推理的世界和行动模型。该信息来源于英伟达开发者博客,发布日期为 2026 年 6 月 1 日。
同一事件,精选展示《NVIDIA 发布 RTX Spark 及本地 AI 智能体安全与性能更新》Nvidia在GTC台北大会上发布了一系列面向机器人、自动驾驶和视频系统的模型。核心发布包括升级版世界模型Cosmos 3、显著扩展规模的驾驶模型Alpamayo 2 Super,以及一个开源的人形机器人参考平台。这些产品共同推进了其在物理AI领域的布局。
优步(Uber)与以色列AI出行公司Autobrains达成战略合作,计划在德国慕尼黑推出自动驾驶出租车服务。该项目整合了Uber的网约车平台与英伟达的Hyperion平台,并将采用无OEM限制的模式,允许不同车辆平台加入服务。Autobrains的战略投资者包括BMW i Ventures等。
宇树科技IPO首发过会,拟募资42.02亿元,资金将用于智能机器人模型研发、机器人本体研发、新产品开发及制造基地建设四个项目。公司2025年营收约17亿元,主营业务毛利率达60.13%,核心部组件自研自产率超过90%。此外,宇树科技于5月12日发布了全球首款量产版载人变形机甲GD01,官方指导价390万元起。
OpenAI重新组建了机器人团队,该项目脱胎于其世界模拟研究计划。团队重启距离五年前部门解散已过去五年。首席执行官Sam Altman的长期愿景是让每个人都拥有一个能完成任何需求的个人机器人。在近期,机器人的应用将首先聚焦于帮助建设基础设施。
英伟达CEO黄仁勋预计将于本周四晚抵达首尔,与SK集团会长崔泰源、LG集团会长具光谟、Naver创始人李海珍等韩国主要企业负责人举行会谈,旨在推进AI与机器人等领域的合作。现代汽车集团执行会长郑义宣也可能参与。三星会长李在镕预计不会出席。此外,Naver正与英伟达协商安排黄仁勋于下周一访问其第二办公大楼。
英伟达推出 NVIDIA Isaac GR00T 人形机器人参考设计,整合了宇树 H2 Plus 人形机器人、Sharpa Wave 触觉五指灵巧手及 Jetson AGX Thor T5000 计算平台。机器人身高约1.8米,重68千克,全身拥有75个自由度。其计算核心为 Blackwell GPU,AI性能达2070 FP4 teraflops。该参考设计由宇树推出,预计2026年底发布,并将扩展支持宇树 G1 机器人。
英伟达推出全球首款全开源全模态物理AI大模型Cosmos 3。该模型基于混合Transformer架构,可在单一系统中融合文本、图像、视频、音效及动作内容的理解与生成,将物理AI的训练与评估周期从数月缩短至数日。Cosmos 3在Artificial Analysis、Physics-IQ等多个评测基准上排名第一,提供Super和Nano版本用于机器人与自动驾驶的训练与实时推理,Edge版本即将推出。
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)小鹏集团5月交付新车32158辆,环比增长4%。5月20日上市的GX车型上市12小时大定达24863辆,Ultra旗舰版订单占比超八成。同月,其全球首款全栈自研L4级Robotaxi基于GX原型车量产下线,搭载4颗自研图灵AI芯片,算力达3000TOPS,计划三季度在广州示范运营。此外,一季度财报显示毛利率为20.6%,研发投入29.1亿元,二季度交付量指引为10万至10.6万台。截至5月底,其自营充电站已覆盖430+座城市,累计超3600站。
英伟达开源了 Alpamayo 2 Super 视觉-语言-动作(VLA)模型,参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注,专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩,部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。
深圳市文旅产业发展有限公司与一家机器人公司达成战略合作,将在深中通道西人工岛联合打造全流程机器人服务的智慧酒店,计划于2027年初试运营。酒店将提供覆盖宾客接待、行李引导等七大核心场景的全天候智能服务,并将与西岛整体文旅生态打通。
宇树科技科创板IPO于6月1日上会,拟募资42.02亿元,用于智能机器人模型研发等四大项目。公司2025年营收约17亿元,主营业务毛利率达60.13%,核心部组件自研自产率超过90%。此外,宇树科技于5月12日发布了全球首款量产版载人变形机甲GD01,官方指导价390万元起。
全球首次“人形机器人点球大战”将于2026年6月在MWC上海举行。8支中国顶尖具身智能战队将进行自主对抗,无需人工操控或预设脚本。赛事旨在集中展示人形机器人在动态平衡、精准控制与自主决策等方面的技术突破。
FF创始人贾跃亭透露,5月EAI机器人终端销售出货量达69台,超过3、4月总和。公司计划首个交付季出货200台,全年目标1500台。FF同时向SEC提交线索函,持续打击非法做空行为。公司旗下产品包括Futurist、Master、Aegis等系列的具身智能机器人。
KITScenes Multimodal是一个欧洲自动驾驶多模态数据集,传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素(含红绿灯)以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市,补充地理多样性。同时推出四个基准:在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。
NVIDIA 发布 Cosmos 3 全模态世界模型家族,基于统一混合 Transformer 架构,联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架,在多项理解与生成任务上达到新 SOTA。技术报告撰写时,后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型,被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源(Linux Foundation OpenMDW-1.1 许可)。
关联讨论 7 条X:Kim (@kimmonismus)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)IT之家(RSS)LMSYS:Blog(Chatbot Arena 团队)WALL-WM 是一种世界动作模型,将视频-动作学习从固定长度块优化转向基于语义事件的视觉-语言-动作(VLA)预训练。它把语义一致的动作事件作为基本学习单元,解决了语言、视觉与动作在时间粒度上的不匹配。WALL-WM 结合事件级描述与聚类平衡采样构建数据生态,并从同一预训练主干支持两种推理模式:事件模式(变长执行块)和统一模式(使用 VLM 与阶梯解码)。依托 Muon 优化器的大规模预训练基础设施,WALL-WM 在跨语言、场景与任务的真实世界泛化评估中达到当前最优性能。
本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口,并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图,融合自监督视觉编码器的几何与语义节点距离,并通过盲目匹配来定位语言目标,无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明,PlatonicNav在无需显式跨模态训练的情况下,实现了跨任务、跨模态和跨具身的泛化能力。
旧金山机器人初创企业The Bot Company(估值20亿美元)被指控秘密租用多处爱彼迎(Airbnb)房源作为机器人测试场地,导致房屋严重损坏。房东肖恩·多诺万索赔12383.50美元并起诉该公司。该公司由前Cruise首席执行官凯尔·沃格特于2024年创立,首轮种子轮融资1.5亿美元。其原型机器人具备机械臂和双夹爪,可自主整理物品。公司尚未推出正式产品,租用短租房源模拟居家环境进行测试,但未告知房东真实用途。
特斯拉FSD(监督版)系统已获得爱沙尼亚批准,使其成为欧洲第三个允许该系统上路的国家。爱沙尼亚交通局直接采信了荷兰道路运输管理局的车型认证数据。软件即将推送,但初期仅限搭载AI4硬件的新款车型,使用3.0版旧硬件的车主需等待特斯拉计划于夏末推出的FSD 14精简版。欧洲用户将使用针对当地法规定制的版本。由于特斯拉已在欧洲终止一次性买断,该功能今后将采用按月订阅模式提供。
CARVE是一个无预测的交互驾驶认证层,基于有限格点上的合作包络B_j(s)=β(π_j)α_j^max(s),对被否决操作进行修复认证。在589个INTERACTION回放片段中,CARVE-Greedy接受了98.64%的初始否决动作,恢复了370/378个人工假否决,同时保持了589/589路权尊重、零优先级智能体假阳性与400/400负应力否决。CARVE不依赖预测或要求其他驾驶员合规,仅认证提议交互是否有界、可归因且符合规范。
τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型,旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建,提供两个接口:一个联合预测未来视觉潜在表示与连续动作块的视频动作模型,以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练,包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时,模型通过测试时计算采样动作候选,并利用去噪一致性和基于模拟器的修正来筛选低质量动作,在长时程和精细机器人操控任务上表现出优于相关基准的性能。
研究提出目标视角复现任务(TVR)与模拟基准TVRBench,评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%,瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架,视觉动作SFT将9B开源模型成功率提升至50.8%,多轮GRPO进一步达到51.4%,为训练主动感知与行动的模型提供了基准。代码与模型已开源。
Genesis AI 发布 Genesis World 1.0 仿真平台。该平台包含物理、渲染、编译、工具四大组件,其仿真与真实机器人部署的相关性达 0.8996。策略评估时间从超过 200 小时缩短至不足 0.5 小时。