4月18日

03:02

The Decoder：AI News（RSS）

Google DeepMind 发布 Gemini Robotics-ER 1.6，提升机器人规划与感知精度

Google DeepMind 推出 Gemini Robotics-ER 1.6，显著提升机器人的规划与执行精度。新版本增强了环境感知与理解能力，新增识别并读取测量仪器的功能，使机器人能够在复杂任务场景中实现更精准的操作决策与行动控制。

DeepMind 产品更新具身智能

4月17日

11:28

Hacker News 热门（buzzing.cc 中文翻译）

男子用胶带、旧相机和数控机床打造出由人工智能驱动的硬件"黑客手臂"

一名开发者利用胶带、旧相机和数控机床，自制了一款名为AutoProber的AI驱动硬件"黑客手臂"。该项目已开源在GitHub（gainsec/autoprober），相关技术展示在Hacker News上获得104个积分关注。这一低成本解决方案通过人工智能控制机械臂，展示了如何利用现成材料构建自动化硬件安全测试工具。

智能体具身智能开源/仓库

10:53

HuggingFace Daily Papers（社区热门论文）

RAD-2：基于生成器-判别器框架的强化学习规模化方法

RAD-2 提出了一种面向自动驾驶闭环规划的生成器-判别器框架，通过扩散模型生成多样化轨迹候选，并利用强化学习优化的判别器进行重排序。该方法引入时序一致性组相对策略优化与在线生成器优化技术，结合 BEV-Warp 高吞吐量仿真环境实现大规模训练。相比现有扩散规划器，RAD-2 将碰撞率降低 56%，并在真实场景部署中显著提升了驾驶安全性与平稳性。

arXiv 具身智能论文/研究

00:53

The Decoder：AI News（RSS）

Nvidia 发布 Lyra 2.0 以扩展机器人模拟训练规模

Nvidia 研究人员发布 Lyra 2.0 系统，支持从单张照片生成可实时探索的大型连贯 3D 环境。这些场景可直接用于机器人模拟训练，无需复杂的传统建模流程。该技术通过自动化环境生成，显著扩展了机器人训练数据的规模与多样性，有望加速机器人学习算法的开发。

具身智能数据/训练论文/研究

4月16日

21:49

HuggingFace Daily Papers（社区热门论文）

面向流式3D重建的几何上下文Transformer

研究团队发布LingBot-Map，一款基于几何上下文Transformer（GCT）的流式3D重建基础模型。其创新注意力机制整合锚点上下文、姿态参考窗口与轨迹记忆，分别实现坐标定位、密集几何线索提取和长程漂移校正。该系统在518×378分辨率输入下保持约20 FPS的推理速度，可稳定处理超10,000帧的长序列，且流式状态紧凑。多项基准测试表明，其性能优于现有流式及迭代优化方法。

arXiv 具身智能多模态论文/研究

19:58

公众号：龙猫LongCat（美团）

MARS TALK 香港大学站|具身智能的技术演进与商业化进程

美团技术团队主办的MARS TALK香港大学站活动开放线上线下报名，主题聚焦具身智能的技术演进与商业化进程。

具身智能行业动态

10:47

HuggingFace Daily Papers（社区热门论文）

SpatialEvo：基于确定性几何环境的自进化空间智能

针对3D空间推理标注成本高及自进化方法因模型共识导致几何错误累积的问题，本文提出SpatialEvo框架。该框架利用3D几何确定性特质，通过确定性几何环境（DGE）将无标注点云转化为零噪声训练信号，以客观物理反馈替代模型共识。单一共享参数策略在提问者与求解者角色间协同进化，结合任务自适应调度器动态聚焦薄弱类别。实验表明，3B和7B参数模型在9个基准测试中均获最高平均分，显著提升空间推理能力且不损害通用视觉理解。

arXiv 具身智能推理论文/研究

09:47

HuggingFace Daily Papers（社区热门论文）

前馈式 3D 场景建模：一种问题驱动的研究视角

针对前馈 3D 重建领域，该研究提出了一种独立于输出表示形式的模型设计分类体系。通过剥离隐式场与显式基元等几何表示的差异，现有方法被重新组织为五个核心问题：特征增强、几何感知、模型效率、增强策略与时序感知建模。研究系统梳理了领域基准数据集与评估标准，分类探讨了实际应用场景，并指出可扩展性、统一评估规范及世界建模等未来挑战。

arXiv 具身智能论文/研究

01:47

HuggingFace Daily Papers（社区热门论文）

面向通用人形机器人操作的触觉梦境学习

研究团队提出Humanoid Transformer with Touch Dreaming（HTD）模型，整合基于强化学习的全身控制器与VR遥操作数据收集系统，解决接触丰富场景下的人形机器人操作难题。该方法将触觉作为与视觉、本体感觉同等重要的模态，通过"触觉梦境"机制训练模型预测未来触觉潜变量及手部关节力，从而学习接触感知表征。在插入、整理书籍、叠毛巾、铲猫砂、端茶等五项真实世界灵巧操作任务中，HTD平均成功率较强基线提升90.9%，其中潜空间触觉预测相比原始触觉数据可带来30%的额外性能增益。

arXiv 具身智能多模态论文/研究

4月15日

12:04

HuggingFace Daily Papers（社区热门论文）

Lyra 2.0：可探索的生成式 3D 世界

Lyra 2.0 是一个用于生成大规模可探索 3D 世界的框架，通过生成相机控制视频并结合前馈重建技术实现。针对长轨迹生成中的空间遗忘和时间漂移问题，该框架维护每帧 3D 几何用于信息路由以检索历史帧并建立对应关系，同时采用自增强历史训练策略使模型学会纠正误差而非累积漂移。这些方法显著延长了 3D 一致的视频轨迹，进而可微调重建模型以可靠地恢复高质量 3D 场景。

arXiv 具身智能视频论文/研究

01:27

Hacker News 热门（buzzing.cc 中文翻译）

Ask HN：我因"武器化机器人"的问题辞职，并创办了自己的公司

一名科技从业者因伦理立场拒绝参与武器化机器人研发而从原公司辞职，随后创立了自己的新企业。该帖于4月14日发布在Hacker News平台，迅速获得100点热度，引发业界对AI军事化应用与工程师职业操守的广泛讨论。作者通过离职创业的方式，明确表达了对自主武器研发的反对态度。

具身智能安全/对齐现象/趋势

4月14日

08:00

HuggingFace Daily Papers（社区热门论文）

RoboLab：用于任务通用策略分析的高保真仿真基准

RoboLab 团队推出高保真仿真基准框架 RoboLab 及 RoboLab-120 测试集，以解决现有基准因训练评估域重叠导致的性能饱和与泛化测试不足。该基准包含 120 个跨视觉、程序、关系三大能力轴的任务，设三个难度级别，支持人工与 LLM 生成场景。通过量化真实策略在受控扰动下的性能与敏感性，RoboLab 证实高保真仿真可代理真实世界表现，并暴露当前最先进模型的显著性能差距。

arXiv 具身智能论文/研究

4月13日

08:00

HuggingFace Daily Papers（社区热门论文）

触而知见：触觉驱动的材料区域视觉定位

针对触觉定位任务，本文提出通过密集跨模态特征交互学习局部视觉-触觉对齐的模型，生成触觉显著性图实现触摸条件材料分割。为克服现有数据集特写镜头单一、多样性不足的限制，研究引入野外多材料场景图像及材料多样性配对策略，将触觉样本与视觉多样但触觉一致的图像对齐以增强上下文定位能力。此外构建了两个新的触觉材料分割数据集用于定量评估，实验结果表明该方法显著优于现有视觉-触觉方法。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

LARY：用于可泛化视觉-动作对齐的潜在动作表示基准

研究团队发布LARY基准，统一评估潜在动作表示在高层语义动作与低层机器人控制上的性能。该基准整合100万段视频（1000小时）涵盖151个动作类别，以及62万图像对和59.5万条运动轨迹。实验表明，未经动作监督训练的通用视觉基础模型持续优于专门的具身潜在动作模型，且潜在视觉空间比像素空间更适配物理动作空间。这证实通用视觉表示已内在编码物理控制所需的行动知识，语义级抽象是比像素级重建更有效的视觉-动作映射路径。

arXiv 具身智能多模态论文/研究

4月11日

08:00

HuggingFace Daily Papers（社区热门论文）

面向affordance分类的时间增强图注意力网络

本文提出EEG-tGAT模型，针对affordance分类任务对GATv2进行时间增强。通过引入时间注意力机制动态调节不同时间段贡献，并采用时间dropout正则化时序相关观测，以应对affordance数据中判别信息时间分布不均的特点。实验结果表明，相比GATv2，该模型在affordance数据集上实现了更优的分类性能，证明显式编码时间重要性和增强时间鲁棒性能够更好对齐affordance驱动交互数据的结构特性。

arXiv 具身智能数据/训练论文/研究

4月10日

08:00

HuggingFace Daily Papers（社区热门论文）

TAIHRI：面向近距离人机交互的任务感知3D人体关键点定位

腾讯发布首个专为近距离人机交互感知的视觉语言模型TAIHRI，突破传统全身重建范式，实现任务相关身体部位的精确度量级3D空间定位。该模型通过将3D关键点量化为有限交互空间，结合2D关键点推理与下一token预测机制，在自我中心相机坐标系下精准定位关键身体部位。实验表明，TAIHRI在任务关键身体部位估计精度上显著优于传统方法，并支持自然语言控制与全局人体网格重建等下游任务，相关代码已开源。

具身智能多模态论文/研究

4月9日

17:01

公众号：腾讯混元

腾讯Robotics X实验室联合混元推出2B具身模型：22项评测16项最佳

腾讯Robotics X实验室与混元联合推出2B参数规模的具身模型，在22项评测中取得16项最佳成绩。该模型旨在为真实世界AI智能体提供基础支撑。

具身智能模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

3D-VCD：通过视觉对比解码缓解3D具身智能体中的幻觉

本文提出首个面向3D具身智能体的推理时视觉对比解码框架3D-VCD，用于缓解多模态大模型在三维环境中的幻觉问题。该方法通过对物体类别、空间坐标及几何范围施加语义与几何扰动构建扭曲的3D场景图，通过对比原始与扭曲场景的预测差异，抑制受语言先验驱动而非场景证据支持的不可靠token。在3D-POPE和HEAL基准测试中，该方法无需重新训练即显著提升了具身智能体的基础推理能力。

智能体 arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReconPhys：从单视频中重建外观与物理属性

ReconPhys 是首个可从单目视频联合重建几何、外观与物理属性的前馈框架。该方法采用双分支架构与自监督训练策略，无需真实物理标签即可实现端到端推理。在合成数据集测试中，其未来预测 PSNR 达到 21.64，显著优于现有优化基线的 13.27；Chamfer Distance 从 0.349 降至 0.004。关键突破在于推理速度：仅需不到 1 秒即可完成重建，而传统方法需耗时数小时，为机器人与图形学领域快速生成仿真就绪资产提供了新方案。

arXiv 具身智能视频论文/研究

4月2日

18:30

公众号：生数科技（Vidu·视频）

生数科技与深朴智能合作，共筑物理世界通用智能

生数科技携手深朴智能，共同致力于构建物理世界的通用智能。

具身智能行业动态

3月27日

08:00

HuggingFace Daily Papers（社区热门论文）

通过分离前向与逆向动力学预训练实现解耦的机器人学习

视觉-语言-动作模型在构建通用机器人时面临二维图像预测与三维动作预测不对齐的困境，且视觉与动作耦合的训练方式限制了模型从大规模无动作网络视频中学习。为此，研究提出DeFI框架，将视觉前向动力学与逆向动力学预训练解耦，分别利用不同数据源。该框架包含通用前向动力学模型，通过多样人类与机器人视频预训练以进行未来预测；以及通用逆向动力学模型，通过自监督学习从无标注视频转换中推断潜在动作。两者随后集成至统一架构，在下游任务中进行端到端微调。实验表明，DeFI在CALVIN基准上取得平均任务长度4.51，在SimplerEnv-Fractal基准上获得51.2%的成功率，在真实世界部署中达到81.3%的成功率，显著超越现有方法。

具身智能数据/训练论文/研究

3月12日

20:27

公众号：生数科技（Vidu·视频）

生数科技与无界动力达成全面战略合作，共创物理AI新范式

具身智能行业动态视频

3月11日

11:15

公众号：MiniMax（稀宇科技）

来MaxClaw开源，人人参与OpenClaw生态共建

MaxClaw 在 Skill 生成器中预置了基于对话生成并发布技能的流程，用户仅需描述想法即可自动梳理、调优、打包并上传至 OpenClaw 开源社区。MaxClaw 已最新内嵌企业微信和微博官方接口，通过简单对话即可完成接入。目前 MaxClaw 已支持飞书、钉钉、企业微信、WhatsApp、Telegram 等主流 IM 工具。MiniMax 将在 3 月 12 日至 14 日的 AWE 2026 上展示全模态大模型与数十款 AI 智能硬件生态产品。

产品更新具身智能开源生态

3月9日

08:00

Hugging Face：Blog（RSS）

精选71

LeRobot v0.5.0：扩展每一个维度

Hugging Face 发布了 LeRobot v0.5.0 版本。该版本在数据集、模型、任务和社区四个维度上进行了全面扩展。具体包括：引入了新的现实世界和模拟数据集，推出了支持多任务学习的模型，并扩展了任务范围至移动操作和双臂协调。社区方面，提供了更易用的库、演示应用和教学资源。此次更新的核心目标是降低机器人技术的应用门槛，推动其民主化发展。

Hugging Face 具身智能开源/仓库

推荐理由：开源机器人AI框架大版本更新，降低具身智能研发门槛，值得关注落地进展

3月5日

22:16

Hugging Face：Blog（RSS）

精选73

将机器人AI引入嵌入式平台：数据集记录、VLA微调与设备端优化

NXP在Hugging Face发布技术博客，详细介绍了将视觉语言动作模型应用于嵌入式机器人系统的完整流程。核心工作包括构建真实世界的机器人交互数据集，对VLA模型进行针对性微调，以及实施一系列设备端优化以实现高效部署。该方案旨在解决大型模型在资源受限的嵌入式硬件上运行的挑战，推动机器人AI在边缘端的实际应用。

Hugging Face 具身智能教程/实践端侧

推荐理由：嵌入式AI开发者可掌握从数据集记录到设备端优化的全流程实践。

2月6日

18:00

公众号：生数科技（Vidu·视频）

生数科技携手清华大学开源统一世界模型Motus，性能全面超越Pi0.5 40%

生数科技与清华大学联合开源统一世界模型Motus，该模型在性能上全面超越Pi0.5，提升幅度达40%。

具身智能开源生态模型发布

1月6日

06:56

Hugging Face：Blog（RSS）

精选80

NVIDIA发布Cosmos Reason 2模型，增强物理AI推理能力

NVIDIA在Hugging Face上发布了Cosmos Reason 2模型，旨在提升物理AI系统的推理能力。该模型通过改进的推理架构，使AI能更准确地理解和预测物理世界的动态与交互，核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展，使AI在现实环境中的决策更可靠、更符合物理规律。

具身智能推理模型发布

推荐理由：物理AI推理能力升级，机器人和具身智能落地的关键拼图

1月5日

08:00

Hugging Face：Blog（RSS）

NVIDIA 借助 DGX Spark 与 Reachy Mini 将智能体带入现实

NVIDIA 推出 DGX Spark 平台与 Reachy Mini 机器人，旨在通过开源框架降低智能体开发门槛。该组合将大语言模型与物理执行器结合，使 AI 智能体能完成复杂任务。DGX Spark 提供分布式训练基础设施，Reachy Mini 则提供高精度七自由度机械臂硬件，共同推动具身智能发展。

智能体产品更新具身智能

00:00

Runway：News（网页）

Runway基于NVIDIA Rubin平台加速视频生成与世界模型

Runway率先在NVIDIA Rubin平台部署视频生成模型Gen-4.5与世界模型GWM-1。Gen-4.5在一天内从Hopper迁移至Vera Rubin NVL72，展现平台后向兼容性与生产就绪能力。Rubin单GPU提供50 PF推理算力，可加速实时长视频生成。GWM-1作为Runway首个通用世界模型家族，支持物理感知机器人训练、可探索虚拟世界及交互式化身，推动AI从文本理解向物理世界模拟演进。

产品更新具身智能视频

12月2日

00:00

字节 Seed：Research Papers（网页内嵌数据）

GR-RL：实现灵巧精准的长程机器人操作

GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性，利用离线 RL 的 Q 值过滤有效轨迹，结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率，首次完成需毫米级精度和长程推理的复杂操作。

具身智能推理论文/研究

00:00

字节 Seed：Research Feed（网页内嵌数据）

GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

具身智能数据/训练论文/研究

11月14日

05:37

Hugging Face：Blog（RSS）

参与 AMD Open Robotics 黑客松

AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松，首站将于2025年12月5日至7日在日本东京举行，第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者，需组成最多四人的团队，在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励，冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。

Hugging Face 具身智能端侧行业动态

10月22日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed3D 1.0：从图像生成高保真、可直接仿真的 3D 资产

Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产，可直接集成至物理引擎用于机器人操作与仿真训练，无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题，并支持将物体组合为连贯场景，实现可扩展的仿真就绪内容创作。

具身智能多模态论文/研究

7月1日

17:00

BAIR：Berkeley AI Research Blog

基于全身条件的第一人称视角视频预测

PEVA 模型实现基于全身动作的第一人称视频预测。该模型接收历史视频帧和描述 3D 姿态变化的动作指令，生成下一帧画面，支持原子动作合成、反事实场景模拟及长视频生成。针对具身智能体设计，模型处理 48+ 自由度的高维人体控制，解决第一人称视角下身体不可见、感知滞后于动作等挑战，为机器人规划与控制提供世界模型基础。

具身智能视频论文/研究

6月24日

22:00

Google DeepMind：Blog（RSS）

精选

Gemini Robotics On-Device 将 AI 引入本地机器人设备

Gemini Robotics On-Device 推出高效端侧机器人模型，具备通用灵巧操作与快速任务适应能力，支持本地设备直接部署运行。

DeepMind Google 具身智能模型发布

关联讨论 1 条

推荐理由：DeepMind 发布端侧机器人模型，支持本地部署与快速任务适应

3月25日

17:00

BAIR：Berkeley AI Research Blog

规模化强化学习实现交通平滑：100辆AV的高速公路部署

研究团队在田纳西州纳什维尔附近的I-24高速公路部署了100辆由强化学习（RL）控制的自动驾驶汽车，通过实时抑制"走走停停"交通波来平滑拥堵并降低所有车辆的燃油消耗。实验证明仅需少量采用去中心化架构、基于标准雷达传感器的智能控制AV，即可显著提升道路通行效率并减少碳排放，为缓解高速公路拥堵提供了可扩展的技术方案。

具身智能论文/研究

7月8日

08:00

EleutherAI：Blog

Minetester：基于 Minetest 构建的完全开放 RL 环境

Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习（RL）环境。该项目概述了 Minetest 平台的技术架构及早期开发工作，为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台，填补了现有 Minecraft 类 RL 环境在开放性方面的空白。

具身智能开源/仓库数据/训练