全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「具身智能」清除

6月1日周一

13:36Hugging Face：Blog（RSS）75NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

13:31Runway69NVIDIA联合AI实验室开源物理AI世界模型

13:04IT之家（RSS）54小鹏集团：5 月交付新车 32158 辆，环比增长 4%

13:04IT之家（RSS）66英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

12:03IT之家（RSS）38小鹏 P7+ 迎来 OTA 6.2.0 更新：VLA2.0 全场景辅助驾驶上线

11:28IT之家（RSS）46深圳文旅将在深中通道西人工岛打造"全流程机器人服务"智能酒店，明年初开启试运营

10:28IT之家（RSS）54宇树科技科创板 IPO 今日上会，拟募资 42.02 亿元用于机器人研发等项目

09:28IT之家（RSS）72精选全球首次：MWC26 上海将举办"人形机器人点球大战"，宇树科技等 8 支队伍参赛、参演

08:28IT之家（RSS）29贾跃亭：FF 机器人五月出货 69 台，超三四月总和

08:00HuggingFace Daily Papers（社区热门论文）69自动驾驶的未来：KITScenes多模态数据集

08:00HuggingFace Daily Papers（社区热门论文）75Cosmos 3：面向物理AI的全模态世界模型

08:00HuggingFace Daily Papers（社区热门论文）64WALL-WM：沿事件节点雕刻世界动作建模

08:00HuggingFace Daily Papers（社区热门论文）57PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

02:23Greg Brockman57OpenAI Robotics团队快速进展，启动社会应用机器人招聘

01:36Emad78OpenAI机器人团队成立，聚焦硬件与ML协同研发

00:13Sam Altman83精选OpenAI正式进军机器人领域并启动招聘

5月31日周日

18:24IT之家（RSS）61中国科学家开发出无人机蜂群新算法：通信中断、视野受限条件下仍能作战，为首个达到 100% 杀伤率且保持足够响应速度的算法

11:24IT之家（RSS）5320亿美元机器人独角兽将民宿当实验室：多套Airbnb房源受损，房东发起诉讼

10:24IT之家（RSS）64特斯拉 FSD（监督版）获爱沙尼亚批准，即将推送

09:24IT之家（RSS）50马斯克发视频展示 Cybercab 自动驶出工厂，即将开启商业化运营

08:00HuggingFace Daily Papers（社区热门论文）45CARVE：交互驾驶中被否决操作的认证可负担修复

08:00HuggingFace Daily Papers（社区热门论文）70精选τ_0-WM：用于机器人操控的统一视频-动作世界模型

08:00HuggingFace Daily Papers（社区热门论文）70精选定位何处：基础模型能否通过主动探索达到目标视角

5月30日周六

23:24IT之家（RSS）592B 参数"四两拨千斤"，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

17:48MarkTechPost（RSS）61Genesis AI 发布 Nyx、Quadrants 和 Genesis World 1.0 物理平台，用于可扩展的机器人基础模型评估

17:21IT之家（RSS）45多名特斯拉前员工坦言不信赖 FSD，更有人称"给钱我都不坐"

16:21IT之家（RSS）61何小鹏：很多机器人公司没做好小脑，他们做的是"脑干、脊椎"

12:41Hacker News 热门（buzzing.cc 中文翻译）48Shift将免费提供家政服务，以此培训未来的机器人

11:21IT之家（RSS）62英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

08:00HuggingFace Daily Papers（社区热门论文）65RoboStressBench：面向具身场景物理视觉压力的VLM鲁棒性基准测试

01:45The Verge：AI（RSS）62科技公司迫切希望拍摄你做家务的画面

00:45AK55三模态动态引导的机器人感知新思路

00:30HuggingFace Daily Papers（社区热门论文）64DynaFLIP：通过三模态动态引导表示重新思考机器人感知

00:18Ars Technica：AI（RSS）51机器人训练初创公司将派戴摄像头的人上门清洁

00:15AK62Qwen-VLA：统一视觉语言动作建模

5月29日周五

23:13Qwen：Blog Retrieval（API）66精选Qwen-VLA：从理解世界到付诸行动

22:53公众号：通义实验室（千问）61同事件精选Qwen-VLA：迈向通用具身智能的统一动作框架同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

22:21IT之家（RSS）53宝马德国工厂迎来新一批机器人员工，有望给 1 系 / 2 系 / 纯电 MINI"打螺丝"

21:21IT之家（RSS）53亚洲首店，宇树科技具身智能体验馆 5 月 31 日在上海开业

20:15The Verge：AI（RSS）43这家 AI 创业公司将免费为你打扫房屋，以训练未来的机器人

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

6月1日

13:36

Hugging Face：Blog（RSS）

75

NVIDIA 发布 Cosmos 3：首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3，基于 Mixture-of-Transformers（MoT）架构的开源全能模型，统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力，在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本：Cosmos 3 Nano（16B 参数，8B 推理器 + 8B 生成器，面向工作站级 GPU）和 Cosmos 3 Super（64B 参数，32B + 32B，面向 Hopper 和 Blackwell GPU，用于大规模合成数据生成与研究）。两者均已上架 Hugging Face，并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布

关联讨论 8 条X：Kim (@kimmonismus)IT之家（RSS）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)Hacker News 热门（buzzing.cc 中文翻译）LMSYS：Blog（Chatbot Arena 团队）

13:31

Runway@runwayml

69

介绍Cosmos联盟一项与NVIDIA及领先AI实验室合作的新全球倡议，旨在构建并开源用于物理AI的前沿世界模型。Runway作为创始成员加入，与NVIDIA及一系列领先AI实验室共同工作，通过一个共同的开放生态系统来构建、共享并加速世界模型的研究与开发。

具身智能开源生态行业动态

关联讨论 1 条Runway：News（网页）

13:04

IT之家（RSS）

54

小鹏集团：5 月交付新车 32158 辆，环比增长 4%

小鹏集团5月交付新车32158辆，环比增长4%。5月20日上市的GX车型上市12小时大定达24863辆，Ultra旗舰版订单占比超八成。同月，其全球首款全栈自研L4级Robotaxi基于GX原型车量产下线，搭载4颗自研图灵AI芯片，算力达3000TOPS，计划三季度在广州示范运营。此外，一季度财报显示毛利率为20.6%，研发投入29.1亿元，二季度交付量指引为10万至10.6万台。截至5月底，其自营充电站已覆盖430+座城市，累计超3600站。

具身智能端侧行业动态

13:04

IT之家（RSS）

66

英伟达推出 Alpamayo 2 Super 开源推理模型，助力 L4 自动驾驶研发

英伟达开源了 Alpamayo 2 Super 视觉-语言-动作（VLA）模型，参数规模从 100 亿增至 320 亿。该模型支持 360 度感知与推理式自动标注，专为研发 L4 自动驾驶设计。模型可通过知识蒸馏压缩，部署于 DRIVE AGX Thor 芯片。代码与权重将在夏季于 GitHub 和 Hugging Face 开源。

具身智能多模态推理模型发布

12:03

IT之家（RSS）

38

小鹏 P7+ 迎来 OTA 6.2.0 更新：VLA2.0 全场景辅助驾驶上线

产品更新具身智能端侧

11:28

IT之家（RSS）

46

深圳文旅将在深中通道西人工岛打造"全流程机器人服务"智能酒店，明年初开启试运营

深圳市文旅产业发展有限公司与一家机器人公司达成战略合作，将在深中通道西人工岛联合打造全流程机器人服务的智慧酒店，计划于2027年初试运营。酒店将提供覆盖宾客接待、行李引导等七大核心场景的全天候智能服务，并将与西岛整体文旅生态打通。

具身智能行业动态

10:28

IT之家（RSS）

54

宇树科技科创板 IPO 今日上会，拟募资 42.02 亿元用于机器人研发等项目

宇树科技科创板IPO于6月1日上会，拟募资42.02亿元，用于智能机器人模型研发等四大项目。公司2025年营收约17亿元，主营业务毛利率达60.13%，核心部组件自研自产率超过90%。此外，宇树科技于5月12日发布了全球首款量产版载人变形机甲GD01，官方指导价390万元起。

具身智能行业动态

09:28

IT之家（RSS）

精选72

全球首次：MWC26 上海将举办"人形机器人点球大战"，宇树科技等 8 支队伍参赛、参演

全球首次“人形机器人点球大战”将于2026年6月在MWC上海举行。8支中国顶尖具身智能战队将进行自主对抗，无需人工操控或预设脚本。赛事旨在集中展示人形机器人在动态平衡、精准控制与自主决策等方面的技术突破。

具身智能行业动态

推荐理由：全球首次人形机器人点球大赛，不再是论文指标或仿真跑分，而是把动态平衡、自主决策塞进一场体育规则，具身智能的进展此刻比任何展台都诚实。

08:28

IT之家（RSS）

29

贾跃亭：FF 机器人五月出货 69 台，超三四月总和

FF创始人贾跃亭透露，5月EAI机器人终端销售出货量达69台，超过3、4月总和。公司计划首个交付季出货200台，全年目标1500台。FF同时向SEC提交线索函，持续打击非法做空行为。公司旗下产品包括Futurist、Master、Aegis等系列的具身智能机器人。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

69

自动驾驶的未来：KITScenes多模态数据集

KITScenes Multimodal是一个欧洲自动驾驶多模态数据集，传感器套件包含高分辨率全局快门相机、探测距离超400米的激光雷达、4D成像雷达及冗余GNSS/INS定位系统。其HD地图首次在公开数据集中将所有驾驶相关交通元素（含红绿灯）以3D形式映射至重投影精度并附带完整拓扑连接。数据采集自街道布局不规则、混合交通模式的城市，补充地理多样性。同时推出四个基准：在线HD地图构建、长距离深度估计、新视角合成和端到端驾驶。项目页面已公开。

arXiv 具身智能多模态数据/训练

08:00

HuggingFace Daily Papers（社区热门论文）

75

Cosmos 3：面向物理AI的全模态世界模型

NVIDIA 发布 Cosmos 3 全模态世界模型家族，基于统一混合 Transformer 架构，联合处理与生成语言、图像、视频、音频和动作序列。该模型将视觉-语言模型、视频生成器、世界模拟器及世界-动作模型整合为单一框架，在多项理解与生成任务上达到新 SOTA。技术报告撰写时，后训练版本被 Artificial Analysis 评为最佳开源文生图与图生视频模型，被 RoboArena 评为最佳策略模型。代码、模型权重、合成数据集及评测基准已开源（Linux Foundation OpenMDW-1.1 许可）。

具身智能多模态开源生态论文/研究

关联讨论 8 条X：Kim (@kimmonismus)IT之家（RSS）X：卡兹克 (@Khazix0918)X：Satya Nadella (@satyanadella)X：Perplexity (@perplexity_ai)X：Artificial Analysis (@ArtificialAnlys)Hacker News 热门（buzzing.cc 中文翻译）LMSYS：Blog（Chatbot Arena 团队）

08:00

HuggingFace Daily Papers（社区热门论文）

64

WALL-WM：沿事件节点雕刻世界动作建模

WALL-WM 是一种世界动作模型，将视频-动作学习从固定长度块优化转向基于语义事件的视觉-语言-动作（VLA）预训练。它把语义一致的动作事件作为基本学习单元，解决了语言、视觉与动作在时间粒度上的不匹配。WALL-WM 结合事件级描述与聚类平衡采样构建数据生态，并从同一预训练主干支持两种推理模式：事件模式（变长执行块）和统一模式（使用 VLM 与阶梯解码）。依托 Muon 优化器的大规模预训练基础设施，WALL-WM 在跨语言、场景与任务的真实世界泛化评估中达到当前最优性能。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

57

PlatonicNav：用柏拉图拓扑地图揭示导航中的语义对应

本研究将视觉-语言导航与物体目标导航视为同一物体中心语义流形的不同接口，并提出一个免训练的框架PlatonicNav。该框架构建柏拉图拓扑地图，融合自监督视觉编码器的几何与语义节点距离，并通过盲目匹配来定位语言目标，无需任何配对的视觉-语言数据。在HM3D-IIN、OVON及MP3D上的R2R-CE等模拟基准测试以及Unitree Go2机器人上的部署表明，PlatonicNav在无需显式跨模态训练的情况下，实现了跨任务、跨模态和跨具身的泛化能力。

具身智能多模态论文/研究

02:23

Greg Brockman@gdb

57

OpenAI宣布其世界模拟研究项目已演进为OpenAI Robotics团队，并在机器人与机器学习的协同设计基础上取得快速进展。该团队短期目标是开发能支持技术工人建设未来基础设施的机器人，长期愿景是为每个人配备个人机器人。团队正在招聘全栈硬件、运营、系统及机器学习工程师，旨在共同编程和制造对社会有用的机器人。

Sam Altman: OpenAI Robotics is hiring, looking for exceptional full-stack hardware, ops, systems, and ML engineers to help us progra...

OpenAI 具身智能行业动态

01:36

Emad@EMostaque

78

OpenAI的Sora世界模拟研究团队已转型为OpenAI Robotics机器人团队。团队由Aditya Ramesh领导，核心理念是AI应能帮助人类的物理世界。短期目标聚焦于开发支持技能工人、建设未来基础设施的机器人；长期愿景是为每个人打造个人机器人。该团队进展迅速，其基础是机器人硬件与ML研究的协同设计，目前正在招聘全栈硬件、系统及ML工程师。

Sam Altman: OpenAI Robotics is hiring, looking for exceptional full-stack hardware, ops, systems, and ML engineers to help us progra...

OpenAI 具身智能行业动态

关联讨论 1 条IT之家（RSS）

00:13

Sam Altman@sama

精选83

OpenAI正式进军机器人领域并启动招聘

OpenAI宣布成立OpenAI Robotics团队，并开始招聘全栈硬件、系统及ML工程师，以编程和制造能服务社会的机器人。该项目由Aditya Ramesh领导，其世界模拟研究计划已演变为机器人研究，强调硬件与ML研究的协同设计。短期目标是支持技术工人构建未来基础设施，长期愿景是为每个人提供个人机器人。

OpenAI 具身智能行业动态

关联讨论 1 条IT之家（RSS）

推荐理由：OpenAI 正式踩进物理世界，从软件杀到硬件，这步迟早要来。短期说辅助工人，长期说人人都一个机器人，野心和风险一样大。

5月31日

18:24

IT之家（RSS）

61

中国科学家开发出无人机蜂群新算法：通信中断、视野受限条件下仍能作战，为首个达到 100% 杀伤率且保持足够响应速度的算法

智能体具身智能论文/研究

11:24

IT之家（RSS）

53

20亿美元机器人独角兽将民宿当实验室：多套Airbnb房源受损，房东发起诉讼

旧金山机器人初创企业The Bot Company（估值20亿美元）被指控秘密租用多处爱彼迎（Airbnb）房源作为机器人测试场地，导致房屋严重损坏。房东肖恩·多诺万索赔12383.50美元并起诉该公司。该公司由前Cruise首席执行官凯尔·沃格特于2024年创立，首轮种子轮融资1.5亿美元。其原型机器人具备机械臂和双夹爪，可自主整理物品。公司尚未推出正式产品，租用短租房源模拟居家环境进行测试，但未告知房东真实用途。

具身智能行业动态

10:24

IT之家（RSS）

64

特斯拉 FSD（监督版）获爱沙尼亚批准，即将推送

特斯拉FSD（监督版）系统已获得爱沙尼亚批准，使其成为欧洲第三个允许该系统上路的国家。爱沙尼亚交通局直接采信了荷兰道路运输管理局的车型认证数据。软件即将推送，但初期仅限搭载AI4硬件的新款车型，使用3.0版旧硬件的车主需等待特斯拉计划于夏末推出的FSD 14精简版。欧洲用户将使用针对当地法规定制的版本。由于特斯拉已在欧洲终止一次性买断，该功能今后将采用按月订阅模式提供。

具身智能行业动态

09:24

IT之家（RSS）

50

马斯克发视频展示 Cybercab 自动驶出工厂，即将开启商业化运营

产品更新具身智能

08:00

HuggingFace Daily Papers（社区热门论文）

45

CARVE：交互驾驶中被否决操作的认证可负担修复

CARVE是一个无预测的交互驾驶认证层，基于有限格点上的合作包络B_j(s)=β(π_j)α_j^max(s)，对被否决操作进行修复认证。在589个INTERACTION回放片段中，CARVE-Greedy接受了98.64%的初始否决动作，恢复了370/378个人工假否决，同时保持了589/589路权尊重、零优先级智能体假阳性与400/400负应力否决。CARVE不依赖预测或要求其他驾驶员合规，仅认证提议交互是否有界、可归因且符合规范。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建，提供两个接口：一个联合预测未来视觉潜在表示与连续动作块的视频动作模型，以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练，包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时，模型通过测试时计算采样动作候选，并利用去噪一致性和基于模拟器的修正来筛选低质量动作，在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由：机器人操作领域的大一统尝试，把视频预测和动作生成放在一个扩散模型里，还用27万小时数据训练，做具身智能的可以看看这个架构。

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

定位何处：基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务（TVR）与模拟基准TVRBench，评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%，瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架，视觉动作SFT将9B开源模型成功率提升至50.8%，多轮GRPO进一步达到51.4%，为训练主动感知与行动的模型提供了基准。代码与模型已开源。

arXiv 具身智能多模态论文/研究

推荐理由：主动探索视角是具身智能的关键短板，这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码，做空间智能的可以直接拿来跑。

5月30日

23:24

IT之家（RSS）

59

2B 参数"四两拨千斤"，智元自研世界模型 GE 2.0 登顶 WorldArena 榜单

具身智能模型发布

17:48

MarkTechPost（RSS）

61

Genesis AI 发布 Nyx、Quadrants 和 Genesis World 1.0 物理平台，用于可扩展的机器人基础模型评估

Genesis AI 发布 Genesis World 1.0 仿真平台。该平台包含物理、渲染、编译、工具四大组件，其仿真与真实机器人部署的相关性达 0.8996。策略评估时间从超过 200 小时缩短至不足 0.5 小时。

产品更新具身智能

17:21

IT之家（RSS）

45

多名特斯拉前员工坦言不信赖 FSD，更有人称"给钱我都不坐"

具身智能行业动态

16:21

IT之家（RSS）

61

何小鹏：很多机器人公司没做好小脑，他们做的是"脑干、脊椎"

具身智能大佬观点

12:41

Hacker News 热门（buzzing.cc 中文翻译）

48

Shift将免费提供家政服务，以此培训未来的机器人

AI训练数据初创公司Shift宣布将免费提供家政清洁服务，以此收集真实家庭环境中的操作数据，用于训练未来的家政服务机器人。Shift通过让人类执行清洁任务并记录动作数据，为机器人学习复杂家庭任务提供高质量训练素材。

具身智能数据/训练行业动态

11:21

IT之家（RSS）

62

英伟达推出 LocateAnything，主打 AI 高速、高精度检测对象

英伟达联合香港理工大学、南京大学推出 LocateAnything 模型，专为机器人感知与 AI 智能体设计，可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术，提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上，混合模式速度达 12.7 Boxes Per Second，超过 Qwen3-VL（1.1 BPS）与 Rex-Omni（5.0 BPS）。在 LVIS（IoU=0.95）评测中得分 31.1，高于 Rex-Omni 的 20.7。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

65

RoboStressBench：面向具身场景物理视觉压力的VLM鲁棒性基准测试

RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发，将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估，揭示了特定压力下的失败模式，并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外，研究还引入了一种压力感知智能体求解器，它能在推理前检测视觉压力源并调用视觉编辑技能，以提升模型在复杂场景中的鲁棒性。

具身智能多模态论文/研究评测/基准

01:45

The Verge：AI（RSS）

62

科技公司迫切希望拍摄你做家务的画面

AI训练数据初创公司Shift宣布将为纽约人提供免费家庭清洁服务，并计划扩展至伦敦等城市。作为交换，Shift要求拍摄其清洁人员工作的视频，记录洗碗、擦柜台、扫地、拖地等所有家务劳动。这些视频数据正被机器人公司竞相收集，用于训练机器完成家务，最终目的是销售家用服务机器人。

具身智能数据/训练现象/趋势

00:45

AK@_akhaliq

55

DynaFLIP 通过三模态动态引导的表征重新思考机器人感知

arXiv 具身智能多模态论文/研究

00:30

HuggingFace Daily Papers（社区热门论文）

64

DynaFLIP：通过三模态动态引导表示重新思考机器人感知

DynaFLIP 是一个动力学感知的多模态预训练框架，旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号，以单纯形体积最小化为核心思想，结合余弦正则化与对比学习目标，优化单一图像编码器在共享超球面空间中的对齐。分析表明，该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络，在多种下游策略（包括视觉语言动作模型）中均优于基线。在分布外场景下，性能提升高达 +22.5%。

具身智能多模态论文/研究

00:18

Ars Technica：AI（RSS）

51

机器人训练初创公司将派戴摄像头的人上门清洁

一家初创公司正采用一种新方式为机器人训练收集数据：支付费用，让人类佩戴头戴摄像头，上门执行清洁任务，从而获取第一人称视角的操作数据。

具身智能数据/训练行业动态

00:15

AK@_akhaliq

62

Qwen-VLA 跨任务、环境与机器人具身的统一视觉语言动作建模

具身智能多模态开源生态论文/研究

5月29日

23:13

Qwen：Blog Retrieval（API）

精选66

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

关联讨论 1 条HuggingFace Daily Papers（社区热门论文）

推荐理由：Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型，在多个基准上打平甚至超越专用模型，这是通用具身智能的一个重要信号，但离实际可用还有距离。

22:53

公众号：通义实验室（千问）

同事件精选61

Qwen-VLA：迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA，以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示，将操作、导航与轨迹预测统一在同一框架下，支持11种机器人平台。在5个仿真基准中，单一通用模型在3个上超越最佳专用模型；ALOHA真机in-domain成功率83.6%，OOD泛化76.9%，分别超越π₀.₅超35和40个百分点；DOMINO动态操作零样本达26.6%；VLN-CE导航R2R和RxR分别达57.5%和59.6%，均超越专用模型。

具身智能模型发布

同一事件，精选展示《Qwen-VLA：从理解世界到付诸行动》

推荐理由：通义把操作、导航和轨迹预测塞进一个脑子，在11种机器人上通用，这是具身智能从'专家'走向'通才'的关键一步，做机器人的值得翻翻论文。

22:21

IT之家（RSS）

53

宝马德国工厂迎来新一批机器人员工，有望给 1 系 / 2 系 / 纯电 MINI"打螺丝"

宝马集团将从今年夏季开始，在德国莱比锡工厂部署由瑞士 Hexagon Robotics 公司开发的 AEON 人形机器人，参与高压电池组装和零部件制造。这些身高 1.65 米、重约 60 公斤的机器人预计主要用于生产纯电 MINI Countryman E，也可能参与宝马 1 系和 2 系的轻混车型制造。

具身智能行业动态

21:21

IT之家（RSS）

53

亚洲首店，宇树科技具身智能体验馆 5 月 31 日在上海开业

宇树科技宣布其亚洲首家具身智能体验馆将于5月31日在上海开业。该店位于静安区久光百货，面积超100平方米，将集中展示G1人形机器人、R1人形机器人及Go2机器狗全系列C端产品，顾客可现场互动体验。此前，宇树科技已于4月29日在北京王府井开设全国首家直营店。

具身智能行业动态

20:15

The Verge：AI（RSS）

43

这家 AI 创业公司将免费为你打扫房屋，以训练未来的机器人

AI训练数据初创公司Shift宣布了一项独特的服务：为用户免费提供房屋清洁。条件是，公司会录制清洁工清洁、吸尘、除尘、整理和清洗的全过程，并将这些视频数据用于训练机器人。Shift解释称，由此生成的训练数据价值足以支付整个服务的成本。其宣传语称：“你获得一尘不染的公寓。我们获得训练数据。每个人都赢。”

具身智能数据/训练行业动态

1…10 111213 14…27