具身智能最新动态与精选 · AI HOT

Topic · 主题全部主题 →

具身智能

AI 走进物理世界：人形机器人、具身基础模型与真实环境操作能力的进展追踪。

1,191条收录

79条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1韩国将投入1万亿美元扩大存储芯片生产和发展人形机器人752 家源

7月2日

18:06

IT之家（RSS）

精选70

证监会同意宇树科技科创板 IPO 注册申请

7月2日，证监会同意宇树科技股份有限公司首次公开发行股票并在科创板上市的注册申请。宇树科技是国内头部民用足式、人形机器人研发企业，全球四足机器人销量领先，2016年由王兴兴在杭州创立，截至2025年6月员工总数超1000人。公司核心优势在于实现关节电机、减速器、控制器等核心零部件全栈自研，关键部件成本仅为进口产品的约1/3。批复自同意注册之日起12个月内有效。

具身智能行业动态

推荐理由：宇树是国内人形机器人头部，IPO 获批意味资本正式为具身智能赛道打开通道，接下来硬件和量产能力会成为竞争焦点，关注王兴兴下一步怎么花钱。

6月30日

15:02

IT之家（RSS）

精选79

特斯拉Cybercab量产版在奥斯汀启动公开道路工程测试

2026年6月30日，特斯拉在奥斯汀公共道路启动首批量产版Cybercab工程测试。车辆无方向盘与脚踏板，配有安全监督员，马斯克发布实拍视频。从2024年10月概念车首秀到实车上路约20个月。目前不对外开放乘客，投入34台Cybercab在市中心验证硬件可靠性。Cybercab为双座车型，完全围绕无人驾驶打造，无后期改装。此前奥斯汀已有无安全员Model Y无人驾驶出租于1月启用、6月22日开放付费服务。

具身智能行业动态

推荐理由：特斯拉把无方向盘无踏板的 Cybercab 量产版开上奥斯汀公路，得州交通局批准了设计，从概念到测试仅 20 个月，进度远超预期，这是自动驾驶商业化的关键一步。

10:10

公众号：数字生命卡兹克

精选67

具身智能数据采集员：日薪200元起，给机器人当老师

具身智能数据采集员以日薪200-250元招兼职，无需学历经验。面试先测量身高体重以适配采集手套，并询问是否晕VR。工作分两种：遥操作采集——穿戴设备控制双臂机器人完成分拣积木、叠纸杯等动作；无机器人示教采集——徒手重复动作（如叠衣服），设备记录轨迹。全球高质量物理交互数据截至2026年初仅约50万小时，不足大语言模型训练数据的两万分之一，需大量人力从零采集。

具身智能现象/趋势

推荐理由：具身智能的数据采集正在催生一种日结兼职，这篇文章把镜头对准了那些教会机器人叠纸杯的普通人，给我一种强烈的割裂感——最前沿的技术和最传统的用工方式在这里合体了。

6月26日

13:59

IT之家（RSS）

精选70

小鹏 CEO 何小鹏：2026 年底自动驾驶可以合法进入全球

小鹏汽车 CEO 何小鹏微博透露，VLA 2.0 走向全球进入确定模式。联合国 WP29 缔约国会议批准了 DCAS UNR 171 series 02（对应城区 NGP 法规）与 UNR ADS（对应 L3-L5 自动驾驶法规）。DCAS 将在六个月后成为欧盟强制法规，即 2026 年底自动驾驶可合法进入全球；UNR ADS 为框架性法规，加速 L4 级 Robotaxi 落地。何小鹏称 2027 年海外小鹏汽车将搭载 VLA 和 VLM，支持中英文混合语音对话。

具身智能行业动态

推荐理由：联合国层面批准自动驾驶核心法规，L3以上合法上路进入倒计时，这对小鹏等中国车企出海是实质利好，自动驾驶全球化终于有了法律基础。

00:37

TechCrunch：AI（RSS）

精选71

General Intuition 完成 3.2 亿美元融资，用游戏数据训练通用 AI 智能体

General Intuition 以 23 亿美元估值完成 3.2 亿美元融资，累计披露融资 4.54 亿美元。公司从旗下游戏剪辑平台 Medal 获取数亿小时含精确按键动作标签的游戏操作数据，训练单一模型同时驾驭 Fortnite 等虚拟环境和四足机器人。演示中，AI 智能体在游戏中连续运行 100 小时，机器人仅靠 8 分钟真实街道数据微调即可自主探索办公室。本轮由 Khosla Ventures 领投，General Catalyst、Jeff Bezos、Eric Schmidt 等参投。资金将用于通过 CoreWeave 扩大计算规模、预训练下一代模型，计划夏末前开放 API。

智能体具身智能数据/训练行业动态

推荐理由：用游戏按键数据训练世界模型，并在真机上八分钟完成适配，这个思路让具身智能看到了一条可规模化的路径。投资人押注的其实是 Medial 独有的动作标注数据飞轮。

6月23日

00:05

IT之家（RSS）

精选85

开辟新赛道：小米 YU7 GT 创全球首个纽北自动驾驶圈速纪录，官方圈速榜新增"自动驾驶"分类

小米 YU7 GT（选配赛道专业套装）在纽博格林北环赛道以自动驾驶系统完成全程无人计时圈，成绩 10 分 29 秒 483，成为全球首个纽北自动驾驶圈速纪录。纽北官方圈速榜因此新增“自动驾驶”分类。小米汽车表示，在极限赛道中锤炼的动态模型、高频扭矩分配和毫秒级救车能力，将逐步下放至量产车，以提升用户在暴雨、冰雪等极端工况下的底盘与智驾安全。

具身智能行业动态

推荐理由：小米YU7 GT用自动驾驶跑完纽北，还让官方新增了分类，这不是刷一个圈速，而是自动驾驶在极限场景里的一次实弹演习。央视背书，从追赶到开创，这句话分量很重。

6月20日

06:54

MarkTechPost（RSS）

精选77

NVIDIA Research 发布 SpatialClaw：免训练空间推理框架

NVIDIA Research 发布 SpatialClaw，一个免训练的空间推理框架。它通过将代码作为动作接口，让智能体调用感知工具（Depth Anything 3、SAM 3）并自由组合输出，解决视觉语言模型在 3D 空间判断上的弱点。在 20 项基准测试中平均准确率达 59.9%，比近期智能体 SpaceTools 高 11.2 个百分点，比无工具基线高 6.5 点，比结构化工具调用高 3.2 点。框架无需重新训练，同一提示词和工具集可跨所有基准和骨干网络运行，支持 Qwen3.5/3.6 及 Gemma4 等 26B 至 397B 参数的模型。

智能体具身智能开源/仓库推理

推荐理由：NVIDIA 把空间推理的动作接口从工具调用换成代码，这个思路很巧，20 个基准平均拉升到 59.9%，无训练即插即用，做机器人和视频理解的人该直接跑一下 repo。

05:55

Rohan Paul@rohanpaul_ai

精选78

我们已超越理论阶段。有史以来第一次，Figure的机器人数量超过了人类员工数量。

Brett Adcock: For the first time, robots now outnumber humans at Figure

具身智能行业动态

推荐理由：Figure 的机器人数量首次超过人类员工，这不是公关噱头，而是人形机器人从 demo 走向规模制造的真信号，做硬件的同行该认真关注了。

6月19日

15:55

HuggingFace Daily Papers（社区热门论文）

精选75

HumanScale：自我中心人类视频在具身预训练中可超越真实机器人数据

HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后，基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%，分布内任务成功率高52.5%，分布外任务成功率高90%。研究验证了一种可扩展范式：先以人类视频预训练学习多样世界表征，再以少量标注机器人数据微调对齐动作空间。

具身智能数据/训练论文/研究

推荐理由：让机器人看人类干活视频，预训练效果居然比直接用真实机器人数据更好，这个反直觉发现可能彻底改变具身智能的数据策略，做机器人的值得认真读一读。

00:22

Anthropic：Research（发表成果 · 网页）

精选77

Anthropic Project Fetch 第二阶段：Claude Opus 4.7 自主完成任务，速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中，配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中，Claude Opus 4.7 无需人类协助即完成所有任务，速度比最快人类团队快约20倍，比无 Claude 团队快37倍以上，编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色，但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化，而非针对机器人领域的专项优化。

智能体 Anthropic 具身智能论文/研究

关联讨论 1 条

推荐理由：Anthropic 用 Claude Opus 4.7 自主操作机器狗，比当初的人类志愿者快 18-37 倍，代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条，做具身智能和 agent 的人都该看一眼。

6月18日

23:14

IT之家（RSS）

精选76

我国首部L3/L4自动驾驶强制性国标公示：2027年7月起实施

工信部6月16日就《智能网联汽车自动驾驶系统安全要求》等2项强制性国标公开征求意见，公示至6月24日，建议2027年7月1日起实施。该标准系我国首部针对L3/L4的强制性国标，要求系统安全水平至少达到“合格且专注驾驶人”，引入Safety Case机制。L3重点规范人机交接，L4强调自身风险处置、不得依赖远程协助。新申请车型实施日起执行，已获批车型有约一年过渡期。

具身智能政策/监管

推荐理由：首部 L3/L4 强制国标公示，意味着自动驾驶从推荐性标准升级为强制性安全底线，车企靠模糊宣传抢市场的阶段正式结束，行业竞争逻辑从此由功能展示转向安全实证。

17:14

IT之家（RSS）

精选82

八部门：用好个人消费贷款财政贴息政策，支持消费者购买 AI 相关产品

商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持，落实数码和智能产品购新政策，鼓励地方在消费品以旧换新框架内自主制定补贴，重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给，培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用，建设AI商品首发平台，举办“人工智能进万家”活动。

具身智能多模态政策/监管

推荐理由：八部门联合推AI消费补贴，从手机、机器人到养老教育全覆盖，这是国家层面推动AI产品普及的强烈信号，终端厂商和消费者都将迎来实质利好。

00:35

Jim Fan@DrJimFan

精选81

NVIDIA GEAR实验室发布ENPIRE：8个Codex智能体自主控制机器人完成物理实验

NVIDIA GEAR实验室推出ENPIRE系统，首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人，配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障，支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结，防止智能体作弊。实时监测机器人利用率（MRU）、token利用率（MTU）和GPU利用率，以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务，发现8机器人并行探索显著更快。系统将开源。

Jim Fan: Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...

智能体具身智能论文/研究

推荐理由：Jim Fan团队让8个机器人在真实世界自主研究，从安装GPU到发现物理扩展定律，这是具身智能第一次真正脱离人类监督探索物理任务，比任何虚拟环境的Agent实验都更接近AGI的物理锚点，做机器人的必须关注。

6月17日

23:43

Hugging Face：Blog（RSS）

精选69

MolmoMotion：语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络，输入视频帧、物体上的3D点标记及文字动作指令（如“移动并旋转桌上放水果的木碗”），预测未来数秒内这些点的3D轨迹。提供两个变体：自回归的MolmoMotion-AR逐步预测坐标，流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集（含116万视频的3D点轨迹及动作描述）和PointMotionBench基准测试（2700个人工验证视频片段）。模型权重、数据集和基准测试均已开源。

Hugging Face 具身智能多模态模型发布

推荐理由：MolmoMotion把3D运动预测从模板化推到任意物体，百万级数据集和基准让研究门槛大降，做机器人和视频生成的值得认真看，但目前仍是研究阶段，离落地还有距离。

18:39

Hugging Face：Blog（RSS）

精选66

Strands Robots SDK：用单一智能体打通 Hugging Face Hub 到物理机器人

AWS（Apache 2.0）开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools，构建统一智能体。默认用 MuJoCo 模拟（无需硬件），mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub，运行 GR00T 或 LerobotLocal 策略推理，经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致，只需改一个关键字参数。示例可在笔记本（Python 3.12+，Linux/macOS）无硬件、无 GPU 运行。

Hugging Face 产品更新具身智能开源生态

推荐理由：AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里，代码几乎不变就能从模拟切到物理机器人，对具身智能开发者是省掉胶水代码的实用工具。

6月16日

12:39

Qwen：Blog Retrieval（API）

精选72

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布

关联讨论 5 条

推荐理由：具身智能的世界模型长期受限于单一形态，Qwen-RobotWorld用语言统一动作接口，把操作、驾驶、导航合训，多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号，做机器人的别错过。

6月15日

22:23

The Verge：AI（RSS）

精选70

Skydio CEO Adam Bry：硅谷不应为无人机使用画红线

Skydio是美国最大的无人机制造商，主攻公共安全、军事、能源、基建巡检等企业市场。CEO Adam Bry表示，特朗普政府去年底禁止中国产无人机后，廉价消费级无人机几乎消失，Skydio产品成为主要替代方案。公司认为无人机正从工具转向自主基础设施——通过机库、远程操控和软件整合实现规模化应用，AI在其中扮演关键角色。访谈还涉及Skydio与军方合作的态度，以及自主技术如何带动公司扩张。

具身智能大佬观点政策/监管

推荐理由：Adam Bry 的立场很鲜明，硅谷不该替前线士兵做决定。这是军工 AI 伦理争议中的一个不避讳声音，做相关产品的人值得听。

6月12日

19:15

Google DeepMind@GoogleDeepMind

精选67

我们的机器人加速器已启动，15家初创公司助力塑造欧洲的物理AI未来。🤖 这个为期三个月的项目将为他们提供我们的AI堆栈、Gemini Robotics模型以及我们团队的实际支持。了解这些公司 → https://goo.gle/4oeEk2K

Google 具身智能行业动态

推荐理由：Google DeepMind启动机器人加速器，选了15家欧洲初创用Gemini Robotics，这是他们物理AI战略的落地信号，看看选了什么方向就知道大厂押注在哪。

11:00

HuggingFace Daily Papers（社区热门论文）

精选75

WEAVER：一种更优、更快、更长的机器人操作世界模型

WEAVER是一种多视图世界模型架构，通过流匹配损失训练预测未来潜变量和奖励值，满足保真度、一致性和效率三个要求。在机器人操作任务上，WEAVER在政策评估中与真实成功率的相关系数ρ=0.870，在π₀.₅基础模型基础上实现政策改进成功率提升38%，测试时规划成功率提升14%，且速度比先前世界模型快5–10倍。在分布外场景下表现也优于先前世界模型。代码、模型和视频已开源。

arXiv 具身智能数据/训练论文/研究

推荐理由：世界模型在机器人操控上第一次同时跑通了「高保真、长时一致、高推理效率」这三个硬指标，真机实验把成功率拉高38%，代码模型全开源，搞具身智能的值得认真读。

6月10日

17:42

Huawei Cloud@HuaweiCloud1

精选69

华为云发布全球首个端到端具身AI平台CloudRobo

华为云推出全球首个端到端具身AI开发平台CloudRobo，覆盖从数据、模型到部署、集成的全生命周期，基于PB级可信数据底座。在INSPIRE2026上，国家地方共建人形机器人创新中心、Yijiahe Technology、上海交通大学展示了其核心能力：数据与模型双评估系统、主动力控模型快速组装、机器人小时级上云、模型分钟级部署。

产品更新具身智能

推荐理由：具身智能开发链条太长，华为云这个平台把数据、模型、部署打通了，对机器人创业团队来说可能是个加速器，但实际效果还得看落地案例。

6月9日

21:00

公众号：火山引擎

精选69

全新汽车品牌AIVA发布，火山引擎助力打造AI汽车新体验

由赛力斯、宁德时代等多方产业资本组建的AI出行品牌AIVA正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车AIVA Origin Concept亮相，首款量产车AIVA ME7将于2026年内亮相，全系覆盖20万元以上市场。AIVA提出“AI定义汽车”路径，让汽车成为具身AI生命体。火山引擎副总裁表示，人与汽车的关系将实现交互、智能、感受三方面根本转变。未来双方将围绕AI交互、智能体验、情感陪伴深度共创。

具身智能端侧行业动态

推荐理由：AIVA把「先有AI再有车」当作造车逻辑，火山引擎直接下场定义汽车AI体验，这是豆包大模型从软件跑到物理世界的第一次大规模试水，做具身智能和车载产品的人该仔细看看。

09:21

IT之家（RSS）

精选70

两部门：到2026年底人形机器人等重点产品完成应用验证并常态部署

工信部、国资委6月8日联合发布通知，目标到2026年底，人形机器人等重点产品在代表性场景完成应用验证并开启常态部署，形成百个以上高价值场景，万台级规模落地。要求各省级地区选取不少于20个场景单元（覆盖两类领域），央企不少于10个。围绕打造实景实训空间、组建创新应用联合体、攻关作业技能、加强验证部署、强化要素保障、凝练经验等六大任务展开，鼓励“人形机器人即服务”等商业创新。

具身智能政策/监管

推荐理由：工信部和国资委联合发文，目标2026年底人形机器人万台规模落地，这不是画饼，是实打实的场景清单和验证要求，做机器人的同行该逐条对照了。

08:00

HuggingFace Daily Papers（社区热门论文）

精选78

Embodied-R1.5：通过具身基础模型演化物理智能

Embodied-R1.5是一个统一具身基础模型，将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线，团队搭建超过150亿模型token的数据系统，并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA，超越Gemini-Robotics-ER-1.5与GPT-5.4，并可微调为VLA，在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。

arXiv 具身智能开源生态论文/研究

推荐理由：仅8B参数就在24项具身视觉语言基准上赢过GPT-5.4和Gemini-Robotics，还把模型权重、训练代码全开源了，做具身智能的团队不跟进就是犯罪。

6月8日

14:20

IT之家（RSS）

精选73

全球首个：高德发布3D原生城市世界模型ABot-Earth0.5

阿里巴巴旗下高德发布全球首个3D原生城市世界模型ABot-Earth0.5，已建成覆盖190多个国家和地区的3D地图。用户输入卫星图或文字描述，10分钟即可在消费级GPU上生成公里级3D城市，输出可编辑3DGS格式，可直接导入Unity等引擎。制图成本为传统百分之一，效率提升约千倍，可为具身智能、低空经济、应急救援等提供支撑。目前已开放内测，可前往abot-earth.amap.com提交申请。

具身智能多模态模型发布

推荐理由：第一个把分钟级 3D 城市重建拉进消费级 GPU 的世界模型，成本打到了传统方案的百分之一，对具身智能和低空经济是底层能力补全，值得内测试试。

6月5日

22:15

IT之家（RSS）

精选72

开源鸿蒙 OpenHarmony 具身智能版本 EmbodiedAI 1.0.1 发布

6月5日，开源鸿蒙具身智能PMC（筹）发布EmbodiedAI 1.0.1版本。该版本聚焦机器人控制与智能体应用，升级导航规划、运动控制、仿真开发、硬件适配等核心能力，兼容ROS生态、机器人模拟器及多种本体形态。集成开源鸿蒙原生模拟器、MuJoCo、Gazebo三大仿真环境，打通从代码开发到真机验证的全流程链路。人形机器人、四足机器狗、商用服务机器人等已完成适配验证。目前具身智能方向已组建18个专项SIG工作组，版本源码已正式开放。

产品更新具身智能开源生态

推荐理由：开源鸿蒙的具身智能框架终于从概念走向工程交付，EmbodiedAI 1.0.1 打通仿真和真机，对于不想被ROS绑架的机器人团队是个新选择。

6月4日

03:20

Fei-Fei Li@drfeifei

精选78

世界模型的功能分类

World Labs团队与李飞飞发文，梳理“世界模型”这一被滥用的术语。对比语言模型学习文本统计，世界模型学习空间与时间统计（如光照、物理规律）。基于部分可观马尔可夫决策过程（POMDP）框架，智能体通过动作影响世界状态，观测是部分视图。当前被称为“世界模型”的不同系统本质上是同一循环的不同投影：第一类为渲染器，输出给人眼看的像素，以视觉保真度为核心。文章着重于概念分层，未给出具体模型名、参数或基准分数。

具身智能大佬观点现象/趋势

推荐理由：李飞飞亲手给纷乱的「世界模型」下了个三分类——渲染、模拟、规划，而且点破模拟才是根基。做机器人、空间智能的人，这篇是今年的坐标系。

6月3日

01:40

HuggingFace Daily Papers（社区热门论文）

精选71

AFUN：迈向功能理解的可供性基础模型

AFUN是一个用于功能理解的可供性基础模型。它从单个RGB-D观察和语言任务描述出发，能同时预测任务条件的功能掩码（where）和3D接触后运动曲线（how）。为实现开放世界泛化，该研究构建了一个大规模标准化数据管道，整合了机器人、人类、仿真与真实扫描数据。评估结果显示，AFUN在可供性分割任务上，于4个基准的8个测试集中平均gIoU/cIoU指标分别大幅领先基线模型+23.9/+26.3；在接触点预测上，命中率比最佳基线高出12.7%–61.3%；在3D运动预测上也取得最佳性能。该模型无需针对特定机器人实体进行微调即可直接部署。

具身智能数据/训练论文/研究

推荐理由：在 affordance 基础模型方向做出一步，跨 8 个测试集大幅超越基线，并可直接部署到真实机器人，对具身智能的通用化是个值得关注的信号。

6月1日

09:28

IT之家（RSS）

精选72

全球首次：MWC26 上海将举办"人形机器人点球大战"，宇树科技等 8 支队伍参赛、参演

全球首次“人形机器人点球大战”将于2026年6月在MWC上海举行。8支中国顶尖具身智能战队将进行自主对抗，无需人工操控或预设脚本。赛事旨在集中展示人形机器人在动态平衡、精准控制与自主决策等方面的技术突破。

具身智能行业动态

推荐理由：全球首次人形机器人点球大赛，不再是论文指标或仿真跑分，而是把动态平衡、自主决策塞进一场体育规则，具身智能的进展此刻比任何展台都诚实。

00:13

Sam Altman@sama

精选83

OpenAI正式进军机器人领域并启动招聘

OpenAI宣布成立OpenAI Robotics团队，并开始招聘全栈硬件、系统及ML工程师，以编程和制造能服务社会的机器人。该项目由Aditya Ramesh领导，其世界模拟研究计划已演变为机器人研究，强调硬件与ML研究的协同设计。短期目标是支持技术工人构建未来基础设施，长期愿景是为每个人提供个人机器人。

OpenAI 具身智能行业动态

关联讨论 2 条

推荐理由：OpenAI 正式踩进物理世界，从软件杀到硬件，这步迟早要来。短期说辅助工人，长期说人人都一个机器人，野心和风险一样大。

5月31日

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

τ_0-WM：用于机器人操控的统一视频-动作世界模型

τ_0-World Model (τ_0-WM) 是一个统一的视频-动作世界模型，旨在机器人执行动作前预测并评估其未来后果。模型基于共享的视频扩散主干网络构建，提供两个接口：一个联合预测未来视觉潜在表示与连续动作块的视频动作模型，以及一个能将动作序列展开为多视角未来并预测任务进度分数的动作条件视频模拟器。τ_0-WM 使用约27,300小时的多元数据训练，包括真实机器人遥操作、UMI风格交互、自我中心人类视频等。推理时，模型通过测试时计算采样动作候选，并利用去噪一致性和基于模拟器的修正来筛选低质量动作，在长时程和精细机器人操控任务上表现出优于相关基准的性能。

具身智能数据/训练视频论文/研究

推荐理由：机器人操作领域的大一统尝试，把视频预测和动作生成放在一个扩散模型里，还用27万小时数据训练，做具身智能的可以看看这个架构。

08:00

HuggingFace Daily Papers（社区热门论文）

精选70

定位何处：基础模型能否通过主动探索达到目标视角

研究提出目标视角复现任务（TVR）与模拟基准TVRBench，评估基础模型在3D环境中主动调整视角以匹配目标图像的能力。当前最优开源与闭源模型成功率仅7.8%和12.0%，瓶颈在于处理多轮视觉历史及需要平移而非旋转时的性能下降。通过构建统一的后训练框架，视觉动作SFT将9B开源模型成功率提升至50.8%，多轮GRPO进一步达到51.4%，为训练主动感知与行动的模型提供了基准。代码与模型已开源。

arXiv 具身智能多模态论文/研究

推荐理由：主动探索视角是具身智能的关键短板，这篇论文用一个新基准把问题量化了——目前最强的模型也只能对上12%的目标。他们同时放出了训练框架和代码，做空间智能的可以直接拿来跑。

5月29日

23:13

Qwen：Blog Retrieval（API）

精选66

Qwen-VLA：从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA，基于Qwen多模态骨干，将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段：文本到动作预训练（T2A）、持续预训练（CPT）、监督微调（SFT）和强化学习（RL）。在LIBERO上达97.9%，Simpler-WidowX达73.7%，RoboTwin-Easy/Hard达86.1%/87.2%，匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

关联讨论 2 条

推荐理由：Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型，在多个基准上打平甚至超越专用模型，这是通用具身智能的一个重要信号，但离实际可用还有距离。

5月26日

08:00

HuggingFace Daily Papers（社区热门论文）

精选72

GE-Sim 2.0：面向机器人操作的全面闭环视频世界模拟器路线图

GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架，并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练，提升了动作跟随与轨迹覆盖能力。其核心新增三个模块：从视频潜变量解码本体感受状态的“状态专家”；为生成轨迹评分并提供成功信号与奖励的“世界评判”；以及能实现快速轨迹生成的加速框架。该模型仅2B参数，在WorldArena排行榜上位列第一，优于专用模型与闭源生成器，其训练出的策略能转化为实际世界性能提升。

具身智能视频论文/研究

推荐理由：过去机器人策略训练卡在仿真到真机的鸿沟上，GE-Sim 2.0 把视频生成、状态提取和自动评估闭环了，策略迭代效率可能翻倍，搞具身智能的很值得蹲一下。

5月22日

18:09

IT之家（RSS）

精选74

国家发改委：加快具身智能训练基础设施建设，让机器人不仅能上赛场，还能"进工厂、进商场、进家庭"

国家发改委在5月22日新闻发布会上表示，人形机器人在半程马拉松比赛中表现显著提升，速度更快、更灵活、更自主，参赛队伍从20余支增至百余支，完赛队伍从6支增至40余支，反映具身智能创新活力增强和产业规模扩大。下一步，发改委将加快具身智能训练基础设施建设，推动机器人融入工厂、商场、家庭等场景，并建设应用中试基地以加速技术落地。

具身智能政策/监管行业动态

推荐理由：国家发改委首次明确加快具身智能训练基建，机器人从「上赛场」到「进工厂、进商场、进家庭」，这是给具身智能行业打了一针强心剂。

5月21日

10:28

小互@xiaohu

精选78

FSD来了… 官宣进入大陆…

具身智能行业动态

推荐理由：FSD 终于落地中国大陆，不止对特斯拉车主是利好，它直接把国内智驾竞赛拖进了“真 L2+”阶段，你选车的标准得变了。

5月19日

18:51

IT之家（RSS）

精选75

现代汽车集团计划部署 2.5 万台波士顿动力 Atlas 人形机器人

具身智能行业动态

推荐理由：2.5万台Atlas进工厂，这规模把具身智能从炫技视频直接推进了流水线，2028年产能30万台执行器才是真正的信号，供应链的人该紧张了。

16:51

IT之家（RSS）

精选74

地平线开源 HoloMotion-1 4 亿参数机器人小脑大模型，可实现舞蹈、健身、搬箱子等动作

地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型，通过 MoE 稀疏激活与 KV-cache 推理机制，在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练，并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。

具身智能开源生态模型发布

推荐理由：地平线开源的这个4亿参数模型，把机器人“小脑”拉到一个小模型级别，300FPS实时跑在端侧，零样本跳舞搬箱子，搞具身智能的该跟进看看了。

12:55

HuggingFace Daily Papers（社区热门论文）

精选73

StableVLA：无需额外数据的鲁棒视觉-语言-动作模型

视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此，本文提出一种基于信息论的轻量级适配器模块（IB-Adapter），能从视觉输入中选择性过滤噪声，且无需额外数据或增强策略。该适配器以少于1000万的额外参数，平均提升性能30%。实验表明，即使骨干网络参数仅为0.5B（较现有7B模型小14倍），StableVLA在合成与真实视觉损坏场景下的长时程任务中，仍能达到与大模型相当的鲁棒性，并超越OpenPi基线。

具身智能多模态论文/研究

推荐理由：VLA 模型在真实世界一遇到光照遮挡就崩，这篇用信息瓶颈原理做的轻量适配器，不加数据就拉回 30% 性能，还用 0.5B 小模型打平 7B，做机器人落地的团队值得看看。

00:52

Hugging Face：Blog（RSS）

精选67

NVIDIA Cosmos Predict 2.5 微调：使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型，可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层（to_q, to_k, to_v, to_out.0）和前馈层注入可训练适配器，冻结全部基座权重，在单个 80GB GPU 上即可完成参数高效微调，避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库，利用 92 个机器人操作视频训练集与 50 个 (prompt， image) 测试对进行微调，并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练，切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由：这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了，做机器人合成数据的同行可以直接抄作业，LoRA/DoRA切换也很方便，值得收藏。

5月16日

22:43

IT之家（RSS）

精选70

杭州基地启用，机器人有了国家级职业技能训练场

国家人工智能应用中试基地（具身智能）5月16日在浙江杭州挂牌启用，为机器人提供国家级职业技能训练场。该基地是集场景体验、技术展示、研发合作、产业赋能于一体的综合性平台，旨在推动具身智能技术从实验室迈向现实应用。杭州市于5月1日施行首部具身智能机器人地方性法规，支持核心研发、平台建设和场景开放。目前杭州已集聚机器人产业相关企业700余家，2025年具身智能产业集群产值达1068亿元。

具身智能行业动态部署/工程

推荐理由：杭州这个国家级具身智能训练场不是「又一个基地」，它是把散点技术拢成产业链标准化的关键一步，做机器人的可以盯着政策红利和开放场景了。