5月24日

08:00

HuggingFace Daily Papers（社区热门论文）

为解决机器人高频（如60Hz）动作控制中时序平滑性与空间一致性难以兼顾的问题，本研究将高频动作学习从动作空间转移到变分自编码器（VAE）的潜在空间，显著提升了控制质量。为进一步在异步推理下实现流畅执行，提出了“先复用后精炼”的块级策略，以增强相邻动作块间的连续性。实验表明，该方法使机器人能够更连贯地执行复杂的接触密集型任务，减少了停顿与抖动，动作完成更为平滑。代码与数据已开源。

具身智能论文/研究

5月23日

19:14

公众号：百度智能云（文心）

当AI进入物理世界，具身模型如何重构生产力？

百度智能云在Create2026大会上举办具身智能专题论坛，探讨AI进入物理世界后，具身模型如何重构生产力。论坛围绕具身模型的技术路线、应用场景及产业落地展开讨论。

具身智能现象/趋势

17:09

IT之家（RSS）

奔驰智能辅助驾驶年底登陆德国老家，剑指明年"全德国都能开"

梅赛德斯-奔驰宣布，其与英伟达联合开发的MB.DRIVE ASSIST PRO城市辅助驾驶系统，将于2026年底率先在斯图加特和慕尼黑的部分城市落地，并计划于2027年初将服务范围扩大至德国全境。此举旨在使奔驰成为欧洲最早将高级别辅助驾驶技术引入复杂城市道路的车企之一，以应对来自宝马和特斯拉的激烈市场竞争。德国政府亦表示，希望借此将德国打造为全球自动驾驶创新中心。

具身智能行业动态

15:09

IT之家（RSS）

让机器人拥有"肌肉记忆"，智元推出新一代二阶段 BFM-2 基座模型

智元于5月23日发布新一代二阶段运动控制基座模型BFM-2，其核心特点是让机器人具备“肌肉记忆”。该模型使机器人能在静态、预设动作或随机输入等任意状态下，自主完成高稳定性的动作插值与动态任务闭环，为具身智能提供可靠的运动基础。演示视频显示，搭载该模型的机器人在被击倒后能快速自主站起并恢复平衡。

具身智能数据/训练模型发布

11:09

IT之家（RSS）

人形机器人也有"身份证"：全国首个管理平台在京发布，全程可追溯

全国首个人形机器人全生命周期管理平台在北京发布。该平台由工信部相关标准化技术委员会搭建，将为每台出厂的人形机器人赋予唯一编码的“数字身份证”，实现从生产、销售、使用到回收的全链条追溯。截至目前，平台已覆盖全国100余家人形机器人企业，完成200余个产品型号、2.8万余台机器人的赋码工作，旨在形成“源头可溯、全程可控”的产业生态。

具身智能政策/监管

09:27

Rohan Paul@rohanpaul_ai

戴森在其位于英国的创新垂直农场系统中，部署了能够根据成熟度检测选择性采摘草莓的机械臂。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

物理AI中的静默故障：自主系统运行时动作授权的文献综述

物理AI系统将多模态观测、语言指令和学习的世界表征转化为具有物理后果的动作。其安全风险在于，黑盒模型可能自信、看似合理地发出动作，但产生由传感器漂移或分布偏移等导致的“静默”故障。这篇文献综述分析了机器人基础模型、世界模型、安全控制等多个领域的进展，指出当前没有单一技术能在黑盒物理AI模型和物理执行之间提供完整的运行时授权边界。文章提出了静默故障的定义、运行时护栏的功能分类以及相应的评估框架。

arXiv 具身智能多模态安全/对齐

08:00

HuggingFace Daily Papers（社区热门论文）

预测动力学能否存在于物理世界中？

预测性物理AI系统的输出（如状态预测、行动规划）即使误差低，也不一定物理可行。本研究提出了“物理可接受性”评估框架，将解码后的提案视为候选动力学，在执行前通过运动学、动力学等条件进行验证。验证不保证任务成功，但能识别违反物理约束的提案并给出组件级原因。在HuggingFace LeRobot PushT基准测试中，该完整验证门的AUC达0.957，残差过滤器能预防87-89%的无效提案，同时保持99.8%的任务正常进展。

arXiv 具身智能论文/研究

5月22日

23:16

HuggingFace Daily Papers（社区热门论文）

AnyMo：一种设置无关的可穿戴IMU运动理解框架

针对可穿戴IMU信号高度依赖设备位置、朝向等具体设置，难以跨设备迁移的挑战，本文提出了AnyMo框架。该框架首先基于物理原理进行IMU仿真，在身体表面密集采样生成多样合成信号，用于预训练图编码器。随后，将多位置IMU信号转化为全身运动标记，并与大语言模型对齐以理解运动语义。实验表明，AnyMo在未见过的14个下游数据集的零样本活动识别、跨模态检索及运动描述三项任务上均取得显著提升，证明了其作为野外可穿戴运动理解通才模型的潜力。

具身智能多模态论文/研究

21:26

Rohan Paul@rohanpaul_ai

宇树机器人公司的G1人形机器人在中国杭州全球独角兽创新展览的公开演示中与人类进行乒乓球对打。

具身智能行业动态

21:26

Rohan Paul@rohanpaul_ai

这个RAI研究所的机器人通过动态手部调整管理三球抛接。它处理视觉和接触信息以维持模式，无需外部辅助。

具身智能论文/研究

21:09

IT之家（RSS）

人形机器人"城管"上岗，全国首次人机协同城市管理执法试点在沪开展

5月20日，全国首次人机协同城市管理执法试点在上海浦东新区张江人工智能创新小镇启动。试点由浦东城管综合执法局主导，无人机智能监管系统率先识别违规商户，信息实时同步至现场执法人员及智元灵犀X2机器人。二者协同抵达现场后，机器人承担普法宣传、政策解释与智能问答等辅助任务。该模式结合了技术及时性与机器人知识广、表达客观的优势，旨在提升执法效率并采用更易被商户接受的沟通方式。

具身智能行业动态

21:09

IT之家（RSS）

成交价 11 万元，全球首款眼神交互仿生人"小月"成功拍出

5月22日，松延动力开发的全球首款眼神交互仿生人“小月”（型号X-Head 1）在京东拍卖平台成功拍出，经过49次出价，最终成交价为110790元，高于其9.9万元的官方定价。该仿生人采用人头造型，重7.5公斤，拥有24个自由度，可实现眼神、口型、情绪等多模态交互对话。

产品更新具身智能多模态

20:09

IT之家（RSS）

众擎智能制造深圳红花岭基地启用，首批 T800 人形机器人下线

众擎机器人宣布其深圳红花岭智能制造基地正式启用，首批T800人形机器人已下线。该基地集制造与研发于一体，产能达到每15分钟下线一台人形机器人。T800人形机器人于2025年12月发布，身高173cm，采用航空级高强度镁铝合金，起售价18万元，提供四款配置。基地建筑面积12000平方米，覆盖从质检到售后的一体化流程。此外，公司全球总部及郑州万台级产线基地也在规划建设中。

具身智能行业动态

20:09

IT之家（RSS）

小鹏集团 CEO 何小鹏：做汽车真的很痛苦，哪里涨价都会波及我们

5月20日，小鹏 GX 旗舰 SUV 正式上市，限时售价 26.98 万至 34.98 万元，较预售价大幅降低。作为 SEPA 3.0 架构首发车型，新车提供增程与纯电版本，其中增程版综合续航超1585公里，纯电版支持5C超充。小鹏集团 CEO 何小鹏在发布会后坦言“做汽车真的很痛苦”，上游涨价压力直接波及车企。尽管自研创新带来收益，但大部分利润仍流向供应链合作伙伴。他感叹何时汽车涨价消费者仍愿买单，行业才算真正健康。

具身智能行业动态

19:56

Rohan Paul@rohanpaul_ai

边缘AI运行在每只昆虫的背包上，实现低延迟协调、安全数据交换、群体编队控制和任务执行。 Swarm Biotactics通过培育昆虫实现规模化，已融资约1300万欧元。

具身智能端侧行业动态

18:09

IT之家（RSS）

精选74

国家发改委：加快具身智能训练基础设施建设，让机器人不仅能上赛场，还能"进工厂、进商场、进家庭"

国家发改委在5月22日新闻发布会上表示，人形机器人在半程马拉松比赛中表现显著提升，速度更快、更灵活、更自主，参赛队伍从20余支增至百余支，完赛队伍从6支增至40余支，反映具身智能创新活力增强和产业规模扩大。下一步，发改委将加快具身智能训练基础设施建设，推动机器人融入工厂、商场、家庭等场景，并建设应用中试基地以加速技术落地。

具身智能政策/监管行业动态

推荐理由：国家发改委首次明确加快具身智能训练基建，机器人从「上赛场」到「进工厂、进商场、进家庭」，这是给具身智能行业打了一针强心剂。

16:19

Baidu Inc.@Baidu_Inc

今年没赶上百度Create 2026？来和我们一起逛展，看看我们最新的AI产品，包括一个能独立打麻将的DuMate机器人。

产品更新具身智能

13:09

IT之家（RSS）

第四届链博会6月22日在京举办：首设AI专区，杭州"六小龙"将亮相

第四届中国国际供应链促进博览会将于6月22日至26日在北京举行，主题为“链接世界，共创未来”。本届首次设立人工智能专区，集聚多家领军企业。澳大利亚首次担任主宾国。以杭州“六小龙”为代表的浙江企业将展示前沿成果，安徽重点展示“人工智能+制造”，湖北将呈现具身智能产业链。优必选人形机器人成为官方首个“硅基代言人”。雄安新区首次独立参展，预计首发首展首秀超过160项。

具身智能行业动态

11:09

IT之家（RSS）

全球首款眼神交互仿生人"小月"拍卖：起拍价 1 元，春晚蔡明机器人"姊妹款"

全球首款眼神交互仿生人“小月”（型号X-Head 1）于5月22日上架京东拍卖，起拍价1元，需缴纳500元保证金，将于当晚8点开拍。该产品由松延动力推出，重7.5公斤，拥有24个自由度，可实现交互对话，并具备口型、眼神及情绪等多模态交互能力，其核心仿生技术承袭自春晚亮相的同款机器人“蔡明”。官方标价为9.9万元。

产品更新具身智能多模态

08:13

Berryxia.AI@berryxia

Optimus V2.5 步态更自信，人形机器人迈向实用化

Tesla Optimus V2.5的行走动态展现出显著提升，动作更连贯、自然，充满自信。这一进步反映了其感知、控制与执行系统的协同能力达到了新高度，解决了人形机器人动态平衡的核心难题。讨论焦点已从其能否走稳，转向何时能真正进入工厂、仓库等实际场景工作。

Nic Cruz Patane: Tesla Optimus V2.5 walking dynamics are now much more human-like. Huge improvement over previous versions. It's walking ...

具身智能现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

SPACENUM：重新审视视觉语言模型的空间数值理解

SPACENUM 是一个统一框架，考察空间探索中的动态数值转换与空间推理中的静态布局两种设定。通过 Num2Space 和 Space2Num 双向任务，评估视觉语言模型（VLM）在视觉空间结构与语言数值表征之间的映射能力。实验表明，当前 VLM 在两种设定下均接近随机猜测，严重依赖浅层空间线索，无法建立稳定的坐标感知表征。显式推理仅带来边际提升，微调可部分改善空间数值理解。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhotoFlow：智能体化的3D虚拟摄影任务

PhotoFlow是一个用于闭环相机搜索的Director-Reviewer-Reflector智能体系统，能在预制3D场景中自主推断合适的摄影角度并生成最终图像。该系统包含VPhotoBench基准测试，涵盖47个Blender场景和141个基于语言的摄影任务。实验表明，在六轮渲染预算的设置下，PhotoFlow在多种基线方法中取得了最强的外部质量对齐表现和成功率。这是首个将基于语言的虚拟摄影转化为可执行智能体任务的工作，展示了以LLM为核心的智能体在同时涉及3D推理与美学判断的设置中，已能生成高质量摄影作品。

具身智能图像生成多模态论文/研究

02:26

Hacker News 热门（buzzing.cc 中文翻译）

由于其无人驾驶出租车频频驶入积水区域，Waymo暂停了亚特兰大的服务

Waymo暂停了在亚特兰大的无人驾驶出租车服务，原因是其车辆多次驶入积水区域，存在安全隐患。该暂停措施于2026年5月21日公布，影响范围限于亚特兰大地区，目前尚未公布服务恢复的具体时间表。

具身智能行业动态

02:11

AYi@AYi_AInotes

我的天，这确定不是AI吗？ AI标志在哪里？如果是真的，Tony老师会不会失业？？

其他具身智能

5月21日

23:07

IT之家（RSS）

自动驾驶车辆被困洪水，Waymo 暂停亚特兰大地区 Robotaxi 服务

Waymo 因自动驾驶车辆难以稳定应对暴雨及道路积水问题，暂停了亚特兰大和圣安东尼奥两地的 Robotaxi 运营。此前，一辆无人出租车在亚特兰大一处严重积水路段被困约一小时，所幸未载客。公司承认尚未开发出能完全识别并避开积水的最终方案，此前推送的临时措施仍不足以防车辆误入积水区域。此外，Waymo 决策依赖官方气象预警，但事发时暴雨突发，预警前道路已积水，暴露出系统在应对突发恶劣天气时存在滞后性。

具身智能行业动态

22:07

IT之家（RSS）

李斌：今年一季度蔚来品牌平均成交价超过宝马 5 万元，是奥迪的 1.5 倍

蔚来创始人李斌在财报电话会上透露，2026年一季度蔚来品牌平均成交价达39万元，超过宝马5万元，为奥迪的1.5倍。在上海等一线城市，蔚来市场份额已超越传统豪华品牌。李斌表示，随着换电网络向低线城市扩展，纯电产品接受度持续提升。此外，蔚来世界模型最新版本推送后，城区领航辅助行驶里程环比提升92%，使用时长占比提升116%。蔚来与乐道将于六月迎来新版本智驾升级。

具身智能行业动态

21:06

IT之家（RSS）

Stellantis 计划到 2030 年投资约 600 亿欧元，推出 60 款新车型

Stellantis计划到2030年投资约600亿欧元，推出涵盖内燃机到纯电动在内的60款新车型。其中约70%的资金将投向Jeep、标致等核心品牌，其余品牌将聚焦区域市场。新任CEO安东尼奥·费洛萨将主导这一战略转变，重点转向盈利品牌并外包部分技术研发。作为计划的一部分，240亿欧元将专项用于全球平台、动力总成和新技术开发。

具身智能行业动态

18:06

IT之家（RSS）

云深处小型轮足机器人山猫 S10 发布：极限速度 8m/s，能跨越半米高障碍

云深处科技于5月21日发布行业级小型轮足机器人山猫S10。该机器人整机自重不足20公斤，便于单人携带与快速部署。它搭载新一代AI运控算法与全向感知系统，可实现自主路径规划和智能避障，平地极限速度达8米/秒，能跨越50厘米高障碍。整机防护等级达IP66，适应-20℃至55℃的复杂环境，续航超过3小时。产品适用于电力巡检、安防巡逻、应急消防等轻量化智能作业场景，目前已开启订购，预算在数万元级别。

产品更新具身智能

15:59

IT之家（RSS）

减少"盯路"提醒，特斯拉 FSD 14.3.3 放宽驾驶员监控机制

特斯拉在FSD 14.3.3版本中，大幅放宽了驾驶员监控机制，减少了系统对驾驶员视线偏离路面的频繁提醒，干预感显著降低。此次更新同时带来多项功能升级，包括智能自动召唤提速至最高时速8英里（约12.9公里）、语音指令更稳定、界面优化、加速更平顺，并新增合规驾驶累计计数机制。这是其迈向无监督全自动驾驶战略的一部分。

产品更新具身智能

13:58

IT之家（RSS）

Anthropic 联合创始人克拉克预测 AI 进化：18 个月内纯 AI 公司创收数百万美元

Anthropic联合创始人杰克·克拉克在牛津大学演讲中，提出了未来两年AI发展的具体时间表。他形容当前AI演进速度“快到令人眩晕”，是科研、商业与产业的同步跃迁。其预测包括：12个月内AI将协助产生诺贝尔奖级发现；18个月内完全由AI运营的公司将实现数百万美元营收；两年内双足机器人将进入劳动力市场；到2028年底，AI系统可能具备设计自身继任者的能力。克拉克同时指出，激烈的商业与地缘政治竞争使得研发速度难以放缓。

Anthropic 具身智能大佬观点现象/趋势

13:58

IT之家（RSS）

特斯拉陶琳：Model S/X 产线将改造为人形机器人产线

特斯拉公司副总裁陶琳宣布，Model S/X签名版已在美国加州弗里蒙特工厂下线，该产线将很快改造为特斯拉人形机器人的产线，以承担更重要的AI时代任务。Model S与Model X作为特斯拉早期里程碑产品，将于2026年第二季度正式停产。此次产线改造标志着特斯拉将资源转向人形机器人等新兴领域，推动其“秘密宏图”的后续篇章。

具身智能行业动态

13:10

Berryxia.AI@berryxia

太棒了！中国🇨🇳可以吃上正餐了！ FSD在中国要落地了~

Tesla: FSD Supervised is now available in: - United States - Canada - Mexico - Puerto Rico - China - Australia - New Zealand - ...

产品更新具身智能

12:58

IT之家（RSS）

何小鹏：国内车企如果还按旧模式卖车，会陷入类似手机行业的困境，用户换车意愿降低

小鹏汽车董事长何小鹏在GX上市后的媒体沟通中指出，若国内车企仍采用旧模式销售，将面临类似手机行业的困境，导致用户换车意愿下降。他强调，汽车行业的真正变革在于提升产品品质并实现L4级自动驾驶，需将里程覆盖率从50%提升至90%以上。对于自动驾驶发展，何小鹏认为L4级技术大概率将先在海外落地，物理AI预计会在机器人领域率先突破，进而推动无人驾驶；但短期内相关数据存在水分，全面普及仍需时间。

具身智能大佬观点

11:58

IT之家（RSS）

何小鹏：激光雷达是个好东西，但在汽车领域已不是必需

5月21日小鹏GX上市发布会后，小鹏集团董事长何小鹏表示，激光雷达在汽车领域已不是必需，小鹏坚定采用纯视觉自动驾驶路线。尽管15万以上车型配备激光雷达比例上升，小鹏认为依靠大算力、大模型和高密度传感器即可实现良好效果，无需激光雷达。刘先明补充，自动驾驶核心看实际使用效果，而非传感器配置，小鹏第二代VLA技术在极端工况下表现可靠。

具身智能大佬观点

10:28

小互@xiaohu

精选78

FSD来了… 官宣进入大陆…

具身智能行业动态

推荐理由：FSD 终于落地中国大陆，不止对特斯拉车主是利好，它直接把国内智驾竞赛拖进了“真 L2+”阶段，你选车的标准得变了。

10:09

HuggingFace Daily Papers（社区热门论文）

UniT：基于群自回归Transformer的统一几何学习

UniT是一个统一几何感知模型，旨在将在线感知、离线重建、多模态整合等分散能力整合到单一框架。其核心是群自回归Transformer，将传感器观测组作为基本单元，通过改变组大小，在同一过程中自然统一在线（多步单帧组）与离线（单步多帧组）模式。为处理长序列，模型采用队列式KV缓存机制，并利用无锚点关系建模来丢弃过时记忆。此外，模型引入尺度自适应几何损失以增强跨场景的尺度泛化能力。在多个任务的基准测试中，UniT实现了统一几何感知的最先进性能。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

EMMA：从多模态数据中提取多个物理参数

EMMA是一个物理信息多模态框架，能从原始视频、音频和图像时间序列中直接恢复系统所有可识别的动力学参数。它利用Liquid Time-Constant网络从异质模态学习潜在动力学，并通过物理约束损失确保与微分方程一致。在超过100个场景（包括五个标准动力学基准、75段Delfys视频、真实世界轮式机器人和四旋翼系统）中，EMMA实现了稳健的多参数恢复，显著优于现有单模态和方程发现基线。代码与数据已开源。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

部分可观察环境下基于统一风险图的自动驾驶风险感知

针对自动驾驶中因未观测区域不确定性导致的遮挡感知预测难题，现有方法存在高估风险或预测不准的问题。本研究提出一个统一的风险图建模与学习框架，适用于部分可观察环境。该框架通过时空建模整合交通流风险与碰撞风险，实现对遮挡风险的细粒度评估。为解决遮挡交互场景稀缺的问题，引入了基于扩散模型的场景生成框架，可生成真实且具对抗性的场景。最终，该框架集成了统一风险图的建模与学习，以支持部分可观测性下的风险感知规划。在 Waymo Open Motion Dataset 上的实验表明，该方法显著超越现有基线，提升了碰撞时间指标。

具身智能安全/对齐数据/训练论文/研究

05:35

Chubby♨️@kimmonismus

我们现在讨论的是物理AGI，并将其定义为人类能做的一切。机器人领域也有非常有趣的进展，稍后将全面介绍。

具身智能大佬观点