5月21日

05:06

SemiAnalysis@SemiAnalysis_

ADI正在展示其将大型AI模型能力从云端下沉到边缘设备的技术路径，核心是通过模型蒸馏、定制化协同设计芯片等手段实现高效推理。同时，ADI正为机器人社区构建开源的基准测试与物理排行榜，并致力于开发多模态触觉传感器、高保真仿真资产等，以最小化仿真与现实之间的差距。这体现了其从系统层面推动硬件协同创新与数据采集的生态化产品战略。

具身智能现象/趋势

03:53

小互@xiaohu

由Gemma 4驱动的Open Duck机器人具备视觉能力，还能对话

Google 产品更新具身智能多模态

02:36

Rohan Paul@rohanpaul_ai

中国初创公司 Rochu Robotics 开发了一款仿生机械手，它通过液压系统和24条仿生肌腱模拟真实手部解剖结构，实现灵活、逼真的动作。其采用一对一骨骼设计，使其运动更接近真实人手。

产品更新具身智能

01:56

AYi@AYi_AInotes

该死，机器人跳着跳着《Billie Jean》就瘫倒了😭

其他具身智能

00:05

AK@_akhaliq

ESI-Bench 迈向闭环感知-行动的具身空间智能

具身智能论文/研究

5月20日

20:56

IT之家（RSS）

全国首个家庭通用机器人在武汉发布：能陪老人聊天、叠衣服、做饭、收拾餐桌

5月20日，全国首个面向家庭场景的通用机器人“拾光 S1”在武汉光谷发布。该机器人能够叠衣服、做饭、收拾餐桌及陪伴老人聊天，并支持持续学习新技能。与传统预设程序机器人不同，它通过自研具身智能模型理解任务并自主规划动作。研发公司极佳视界计划于今年三季度发布配套的具身智能大模型GigaBrain 1。机器人还具备柔顺控制机制，遇人或宠物会自动停止。目前，武汉地区的家庭已可申请成为“种子用户”参与试用。

产品更新具身智能端侧

20:56

IT之家（RSS）

家务变身机器人训练数据，京东打造全国首个具身智能数据采集社区

京东在宿迁建成了全国首个具身智能数据采集社区。社区居民在进行擦桌子、叠衣服等日常家务时，只需佩戴京东自研的220克JoyEgoCam设备，即可自然采集上肢轨迹、力度分布等关键数据。此举旨在通过大规模、低成本的真实场景数据采集，解决高质量实操数据不足的产业瓶颈，目标在两年内积累超1000万小时数据，以训练更强大的具身大模型，推动机器人智能化发展。

具身智能数据/训练行业动态

19:33

The Decoder：AI News（RSS）

Google 将 Genie 世界模型与街景结合，基于真实地点创建可探索的 AI 世界

Google DeepMind 将其 Genie 3 世界模型与多年积累的街景图像数据相结合，推出了一项新功能。用户现在可以在地图上指定一个真实地点，系统便能生成一个基于该地点的、可供行走和探索的 AI 生成世界。这一整合不仅为创意演示提供了强大工具，更重要的是，海量的街景数据成为了训练 AI 代理和机器人的重要战略资源，为人工智能在模拟现实环境中的交互与导航能力开辟了新路径。

DeepMind Google 产品更新具身智能

19:00

Ars Technica：AI（RSS）

全网热议：Figure AI 人形机器人分拣包裹

Figure AI 正在进行一场全天候直播，实时展示其人形机器人执行包裹分拣任务。这场直播吸引了全球互联网用户的广泛关注与讨论，凸显出公众对人形机器人技术应用场景的浓厚兴趣。目前尚无迹象表明该公司将商业化部署该具体系统，但该现象已清晰展示了人形机器人在物流等领域的潜力预期，引发了关于其实际效能与未来角色的持续探讨。

具身智能行业动态

18:56

IT之家（RSS）

理想汽车获推 OTA 8.5 升级：无需上车，手机一键遥控泊出

理想汽车宣布推送OTA 8.5升级，核心新增手机一键遥控泊出功能。车主可通过理想汽车App远程操作，车辆自动驶出侧方或垂直车位。此次升级覆盖理想MEGA、i系列以及22至25款理想L系列车型。此外，新版本还优化了VLA司机大模型，提升绕行、变道及加减速的平顺性，并新增了辅助驾驶中误入非目标车道时的主动重规划能力。

产品更新具身智能

17:56

IT之家（RSS）

东风奕派官宣与华为乾崑战略合作升级：年内将推三款全新车型，首车 M8 定档 5 月 23 日全球首秀

东风奕派与华为乾崑正式签署战略合作升级协议，双方合作从智能驾驶、座舱等技术产品合作，全面升级为覆盖更多车型的深度协同。首款合作车型东风奕派M8将于5月23日全球首秀，搭载华为乾崑智驾ADS 5 Pro、鸿蒙座舱等全套解决方案。年内，包括M8在内的三款全新合作车型将陆续推出，覆盖大六座SUV、大五座SUV及性能轿跑市场。

具身智能端侧行业动态

15:56

IT之家（RSS）

Waymo 无人出租车集体"迷路"：一小时 50 辆车挤进死胡同

近日，Waymo 自动驾驶出租车在美国亚特兰大市多处死胡同内出现集体“迷路”现象。据报道，近几周来，数十辆无人车频繁无故驶入并滞留于该区域，有居民反映仅清晨一小时内就有 50 辆车在一条死胡同来回行驶。该异常行为引发当地居民对交通扰民及周边儿童、宠物安全隐患的担忧。Waymo 公司已就此表示着手整改，但未说明问题根源，并强调其服务每周可完成超 50 万趟出行订单。

Google 具身智能行业动态

11:55

IT之家（RSS）

能跳舞的人形机器人？逐际动力 LimX Luna 亮相，5 月 25 日发布

逐际动力公布了其全尺寸交互人形机器人 LimX Luna，将于5月25日16:00在夏季新品发布会上正式发布。该机器人姿态优雅，具备展示舞蹈动作的能力，但其动作流畅度尚不明确。逐际动力成立于2022年，总部位于深圳，是一家AI驱动的人形机器人公司，此前于2024年2月完成了2亿美元（约合13.64亿元人民币）的B轮融资。

具身智能行业动态

11:05

HuggingFace Daily Papers（社区热门论文）

SceneCode：面向可编辑带关节物体室内场景的可执行世界程序

现有室内场景合成方法常生成静态网格，难以按需创建新的可交互物体。SceneCode框架提出将自然语言提示词“编译”为可执行的程序化世界。其核心流程包括：通过规划-设计-批评循环生成对象资产请求，经五种代码生成策略转化为分部件的Blender Python程序，并通过修复-优化循环进行验证。生成的程序可编译为仿真就绪资产，并导出SDF格式。该框架通过场景状态注册表实现可追溯的本地化编辑。实验表明，SceneCode提升了场景生成与提示词的一致性，产生了网格结构更清晰、包含可加载关节元数据的资产。

具身智能多模态论文/研究

09:55

IT之家（RSS）

全球首例"北脑 1 号"脑机接口联合脊髓电刺激截瘫治疗项目 1 周年，患者实现从完全截瘫到 ASIA C 级跨越

首都医科大学宣武医院宣布，全球首例“北脑1号”脑机接口联合脊髓电刺激治疗项目满一周年，取得重大突破。30岁患者志明在植入侵入式脑机接口与脊髓电刺激系统，并配合外骨骼后，从完全性脊髓损伤（ASIA A级）恢复至不完全性脊髓损伤（ASIA C级），实现神经功能跨级修复。该成果验证了“脑-脊髓-外骨骼”多模态联合调控系统的临床疗效，成功改写了晚期脊髓损伤功能不可逆的传统医学定论，标志着我国自主研发的前沿医疗技术取得重要进展。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

PhysX-Omni：面向刚体、可变形体与关节化体的统一模拟就绪物理3D生成框架

针对现有3D生成方法在物理属性与对象类别上的局限，本文提出PhysX-Omni，一个统一的模拟就绪物理3D生成框架，可支持刚体、可变形体和关节化体等多种资产类型。框架核心是设计了一种专为视觉语言模型优化的高效几何表示方法，能够无压缩地直接编码高分辨率3D结构，从而显著提升生成质量。同时，研究构建了首个大规模通用模拟就绪3D数据集PhysXVerse，并提出了一个涵盖几何、尺度、材质、可供性、运动学与功能描述六大属性的综合评估基准PhysX-Bench。大量实验表明，PhysX-Omni在3D生成与理解任务上均取得了优异性能，并验证了其在模拟场景生成和机器人策略学习等下游任务中的应用潜力。

具身智能多模态论文/研究

03:18

Artificial Intelligence News（RSS）

企业AI障碍与路线图，安全性及物理AI：TechEx第二天活动

TechEx北美大会第二天对AI在企业中的应用展开了更具深度与批判性的审视，但整体基调乐观。会议开场提及了“AI墓地”现象，即许多在试点阶段表现良好的AI项目，在实际部署中遭遇困境。讨论聚焦于企业AI实施的障碍、可行路线图、安全性以及物理AI的发展方向，深入探讨了从概念验证到规模化落地过程中面临的核心挑战与应对策略。

具身智能安全/对齐现象/趋势

03:03

HuggingFace Daily Papers（社区热门论文）

DexHoldem：基于灵巧操作系统的德州扑克游戏

研究团队推出了DexHoldem，一个基于ShadowHand机械手和德州扑克的现实世界系统级基准测试平台。平台包含1470个操作演示、物理策略基准和智能体感知基准。测试表明，π0.5模型在操作执行上表现最优，而Opus 4.7与GPT 5.5在感知任务上各有所长，揭示了视觉能力与状态恢复能力之间的差距。闭环案例研究证明感知与策略错误会在实际部署中累积。该平台统一评估了灵巧操作、感知与具身决策能力。

具身智能论文/研究

02:55

IT之家（RSS）

谷歌展示街景版 Genie 世界 AI 模型，用真实街景创建想象世界

谷歌在2026年I/O开发者大会上宣布，将街景服务与Project Genie世界模型结合。Genie原本能生成可互动的虚拟环境，此次更新后可直接基于真实街景图像构建可探索的3D世界，用于AI智能体或机器人训练。用户可通过Google Maps选择美国地点并指定风格（如“石器时代”），生成定制化想象世界。该能力目前为实验性原型，仅支持美国地点，未来计划逐步扩展。

Google 产品更新具身智能多模态

01:48

Google DeepMind：Blog（RSS）

使用 Project Genie 和 Street View 模拟真实世界场景

谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限，并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景，标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐，为用户带来更具现实感的交互与探索可能性。

DeepMind Google 产品更新具身智能

00:36

DogeDesigner@cb_doge

马斯克《福布斯》访谈：科技愿景与争议观点

在《福布斯》访谈中，埃隆·马斯克就多个领域阐述了激进观点。他批评针对OpenAI的诉讼败诉开创了“危险先例”，并计划上诉。其核心预测包括：AI发展呈指数级，5年内数字智能或超全人类智能总和；全球经济规模有望数年内翻倍；人形机器人将达数亿台。SpaceX致力于开发全复用火箭，以实现大规模太空运输并建立地外城市。他将Neuralink脑机接口技术视为“耶稣级”创新，能恢复残障人士机能。此外，他还提及了隧道交通、合成医学等机遇，整体展现出以技术加速人类文明进程的强烈紧迫感与乐观构想。

OpenAI 具身智能多模态大佬观点

00:31

Rohan Paul@rohanpaul_ai

🇨🇳在中国深圳，食物通过空中滑行送到你的餐桌，由AI引导。配送舱使用磁悬浮、AI路径规划和直线电机，实现平稳、无轮的运动。每个配送舱实时绘制空间地图、避开碰撞并优化路线。

具身智能现象/趋势

00:06

DogeDesigner@cb_doge

埃隆·马斯克：脑芯片或能创造"耶稣级"奇迹。 - 脑机接口或能赋予人类赛博格超能力。 - Neuralink或可帮助脑部或脊髓损伤患者重新说话、视物，甚至行走。 - 直接脑接口或可为双眼视神经受损者，甚至先天失明者恢复视力。 - 这些突破如同"耶稣级奇迹"，因其可能深刻改变人类生活。

具身智能大佬观点

5月19日

23:35

DogeDesigner@cb_doge

埃隆·马斯克："5年内，数字智能将超越人类智能总和。" 五年内，人形机器人数量可能至少达到1亿，甚至可能达到10亿。由于AI和机器人技术可能大幅提升产出，经济规模或在5到7年内翻倍。变化速度将如此之快，短短几年内世界可能面貌全非。

xAI 具身智能大佬观点

23:05

DogeDesigner@cb_doge

埃隆·马斯克："构建技术对于将生命扩展到地球之外是必要的。有星链互联网，它正在太空中重建整个互联网。我想这挺酷的。还有我们在特斯拉开发的Optimus机器人，以及自动驾驶汽车。"

具身智能大佬观点

22:29

Rohan Paul@rohanpaul_ai

RADAR构建零售感知层，用混合技术实现实体店实时智能

RADAR正通过融合摄像头与RFID的混合感知技术，打造“实体店的操作系统”。该系统能将实体零售环境转化为机器可读空间，提供精度达10厘米的实时库存地图，解决长期困扰行业的库存可视化难题。公司近期完成1.7亿美元B轮融资，估值突破10亿美元，其Physical AI技术已在超1400家门店部署，实现99%的单品级实时库存准确率，致力于弥补实体零售因库存不透明导致的每年约万亿美元损失。

Spencer Hewett: Today, RADAR announced a $170 million Series B, bringing our valuation to more than $1 billion. We believe Physical AI c...

具身智能行业动态

19:57

The Decoder：AI News（RSS）

Mistral AI收购维也纳物理AI初创公司Emmi AI

法国AI公司Mistral AI收购了总部位于维也纳的初创公司Emmi AI。此次收购旨在扩大其服务范围，为欧洲各地的工业客户提供更完整的解决方案。Emmi AI是一家专注于物理AI领域的初创企业。

具身智能行业动态

19:55

公众号：百度智能云（文心）

视启未来🤝百度智能云：给大模型一双手，让AI真正触碰物理世界

百度智能云提出给大模型一双手，让AI真正触碰物理世界。该方案旨在让大模型具备物理交互能力，实现与现实世界的直接操作。

产品更新具身智能

19:52

IT之家（RSS）

特斯拉在9城招聘智驾测试技师，为智能辅助驾驶上市铺路

特斯拉近期在北京、上海、天津等9个城市公开招聘智驾测试（实车测试）技师，该职位隶属于研发-自动驾驶Autopilot部门。岗位要求候选人在公共道路、测试跑道等场景对车辆进行实地测试，需具备3年以上驾龄、熟悉ADAS/Autopilot系统、掌握车辆应急处理能力，并拥有出色的英语沟通水平。此举被视为特斯拉为推动智能辅助驾驶系统在中国早日落地而开展的人才储备行动。

具身智能行业动态

18:51

IT之家（RSS）

语音驱动人形机器人自主实时生成任意动作，宇树科技公布一镜到底视频

宇树科技于5月19日发布一镜到底演示视频，展示了其G1人形机器人通过语音指令自主实时生成任意动作的能力。该技术突破在于无需预设动作，由AI系统根据语音直接驱动机器人实时生成动作，实现了真正的语音控制与动作生成闭环。演示过程中存在少量延迟，动作流畅度有待优化。G1机器人于2024年发布，具备23至43个关节电机，体重约35kg，身高约127cm，并配备力控灵巧手。

产品更新具身智能语音

18:51

IT之家（RSS）

登山"外挂"：火箭院"智行"外骨骼机器人完成首测，上坡省力 15%、续航 4 小时

5月16日，火箭院“智行”膝关节智能助行外骨骼机器人在北京千灵山完成首次实地测试，20位志愿者参与体验。该产品由北京精密机电控制设备研究所自主研发，总重仅2.6千克，可在30秒内穿戴，关节处提供最大7公斤主动动力，续航达4小时。测试数据显示，上坡时能降低使用者约15%的体能消耗，下坡时可减少膝关节冲击力约30%。具备上坡助力、下山缓冲和膝关节防护三大核心功能，旨在为中老年人、户外运动爱好者及康复期患者提供行动辅助。

产品更新具身智能

18:51

IT之家（RSS）

精选75

现代汽车集团计划部署 2.5 万台波士顿动力 Atlas 人形机器人

具身智能行业动态

推荐理由：2.5万台Atlas进工厂，这规模把具身智能从炫技视频直接推进了流水线，2028年产能30万台执行器才是真正的信号，供应链的人该紧张了。

18:28

Rohan Paul@rohanpaul_ai

人形机器人的核心价值不在于外形相似，而在于具备足够的物理能力（如力量、平衡和全身协调）来处理复杂任务。实现这一目标的关键是"全身控制"，即机器人能调动全身与环境互动并适应负载变化。波士顿动力的Atlas机器人通过本体感知成功处理超过100磅的动态负载，展示了这种能力。为实现高性能操作，团队已放弃传统MPC控制范式，全面转向强化学习（RL）。这种全身控制能力是物理智能的基础，也是人形机器人价值主张的核心。

Alberto Rodriguez: You can't lift a fridge with just your hands. Your whole body needs to conform to its shape, and bear the load between y...

具身智能论文/研究

17:51

IT之家（RSS）

Figure AI 机器人与人类比拼分拣包裹，最终人类险胜

Figure AI安排旗下人形机器人与一名人类实习生进行10小时分拣包裹对决。最终，人类实习生以12924件的总量，仅以192件的微弱优势险胜机器人。数据显示，人类平均单件用时2.79秒，机器人用时2.83秒。此前，该公司已连续直播机器人分拣作业，CEO宣称这将是人类最后一次赢得此类比拼。但专家指出，目前机器人因精准度问题，尚无法投入商用，相关技术仍有很长的路要走。

具身智能行业动态

16:51

IT之家（RSS）

精选74

地平线开源 HoloMotion-1 4 亿参数机器人小脑大模型，可实现舞蹈、健身、搬箱子等动作

地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型，通过 MoE 稀疏激活与 KV-cache 推理机制，在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练，并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。

具身智能开源生态模型发布

推荐理由：地平线开源的这个4亿参数模型，把机器人“小脑”拉到一个小模型级别，300FPS实时跑在端侧，零样本跳舞搬箱子，搞具身智能的该跟进看看了。

15:51

IT之家（RSS）

特斯拉 Robotaxi 手机应用将迎大更新，为大规模投放 Cybercab 做准备

特斯拉计划为其 Robotaxi 应用推出26.4.5版本重大更新，以应对大规模投放无方向盘 Cybercab 无人出租车的需求。本次更新核心包括：新增远程调度员语音通话功能，乘客可实时联系后台；上线主动远程协助，系统能预判需求并提供建议。针对无方向盘车型，新增了限速2英里/小时以内的人工临时接管与远程启动功能，用于低速维保或移车等场景。此外，约车派单功能升级，支持柔性派单与多目的地行程，并实现手机与车机的深度联动，支持远程调节车内设置。

产品更新具身智能

15:51

IT之家（RSS）

波士顿动力 Atlas 人形机器人学会搬冰箱：下蹲扛起，180 度转身

波士顿动力于5月18日发布视频，展示其Atlas人形机器人通过AI驱动完成搬运任务。机器人能够协调全身抬起一台冰箱，准确走到桌旁并将物体放置于桌上，过程中上半身完成了180度旋转。官方指出，Atlas利用强化学习模拟训练，以适应现实环境中物体的不同位置、质量和抓力。该项目旨在将Atlas打造为通用的实体工作工具，此次演示标志着其在硬件与行为能力上的重要进展。

具身智能行业动态

13:56

HuggingFace Daily Papers（社区热门论文）

Code-as-Room：通过智能体代码合成从俯视图生成3D房间

本文提出Code-as-Room，一个基于多模态大语言模型的智能体框架，旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码，通过多阶段流程解析图像中的空间关系，并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题，引入了跨阶段记忆模块。此外，研究还建立了专用的代码式3D房间合成基准测试，实验结果证明了所提执行框架的有效性。

具身智能多模态论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

可行动的世界表征

研究者提出了WorldString，一种神经架构，能够直接从点云或RGB-D视频流中学习，从而建模真实世界物体的状态流形。该架构旨在作为物理世界模型的基础构建模块，充当通用的数字孪生体。其关键特点是完全可微分，这使其能够与策略学习和神经动力学模型进行无缝集成。WorldString为当前主要通过视频生成或动态场景重建来处理物体行动状态的方法，提供了一种统一且基于原理的建模新思路。

arXiv 具身智能论文/研究

12:55

HuggingFace Daily Papers（社区热门论文）

AtlasVA：面向无教师VLM智能体的自进化视觉技能记忆

本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限，提出了AtlasVA框架。该框架无需教师监督，将记忆组织为三层互补的视觉结构：空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱，并将其转化为基于势函数的内在奖励，以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中，AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。

智能体具身智能论文/研究