11月27日

04:19

Saining Xie@sainingxie

H*项目突破传统MLLMs处理单一2D图像的局限，引入全景图像作为环境载体，使模型具备在360度真实空间中主动观察与推理的能力。相比V*等项目的局部视觉工具，H*通过"具身化"范式赋予模型类似人类颈部的视角自由度，显著扩展了行动空间，支持在地铁站、商场等复杂场景中进行视觉搜索与空间推理，实现了从被动接受到主动探索的范式转变。

Yiming Li: 🤔Visual-spatial reasoning requires a shift from a disembodied, passive paradigm to an embodied, active one: 🤖Grounding...

具身智能多模态论文/研究

11月14日

05:37

Hugging Face：Blog（RSS）

参与 AMD Open Robotics 黑客松

AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松，首站将于2025年12月5日至7日在日本东京举行，第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者，需组成最多四人的团队，在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励，冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。

Hugging Face 具身智能端侧行业动态

10月22日

00:00

字节 Seed：Research Papers（网页内嵌数据）

Seed3D 1.0：从图像生成高保真、可直接仿真的 3D 资产

Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产，可直接集成至物理引擎用于机器人操作与仿真训练，无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题，并支持将物体组合为连贯场景，实现可扩展的仿真就绪内容创作。

具身智能多模态论文/研究

9月26日

08:25

Jim Fan@DrJimFan

@yukez 在 CoRL 2025 分享 Project GR00T 最新研究，发布 NVIDIA Isaac GR00T 平台更新，探讨人形机器人基础模型的技术挑战与新机遇。

NVIDIA Robotics: The rise of humanoid platforms presents new opportunities and unique challenges. 🤖 Join @yukez at #CoRL2025 as he share...

产品更新具身智能模型发布

9月21日

01:27

Jeff Dean@JeffDean

Waymo自动驾驶安全分析：每年可挽救数万生命并节省万亿成本

神经外科医生基于Waymo9600万英里行驶数据的深度分析显示，其自动驾驶汽车严重事故率比人类驾驶低91%，交叉口伤害事故减少95%。数据显示47%的碰撞速度差小于1 mph，系统将不可避免的事故转化为轻微接触。若全美车辆达到该安全水平，每年可防止3.3–3.9万人死亡、节省0.9–1.25万亿美元社会成本，即使27%普及率也能挽救约1万人生命，实现从伤害减轻到伤害预防的根本转变。

Dr. Jon Slotkin: As a neurosurgeon I care a lot about road safety. By now you've probably seen @Waymo's stunning safety results (like 91%...

Google 具身智能现象/趋势

9月13日

22:51

Jim Fan@DrJimFan

BEHAVIOR挑战启动：机器人学迎来ImageNet时刻

推文指出计算机视觉（ImageNet）和自然语言处理（MMLU、HLE、SWEBench）已建立标准化基准体系，而机器人学仍缺乏统一评估标准，存在硬件、任务定义、评分体系混乱的问题。由ImageNet创造者开发的BEHAVIOR项目基于Isaac Sim物理引擎，旨在建立可复现的机器人学统一基准。该项目已启动首届NeurIPS 2025挑战赛，期望成为推动领域进步的标志性信号。

Fei-Fei Li: (1/N) How close are we to enabling robots to solve the long-horizon, complex tasks that matter in everyday life? 🚨 We a...

具身智能评测/基准

8月22日

01:26

Google DeepMind@GoogleDeepMind

为何要构建可探索的 AI 生成世界？

Google DeepMind 研究者 Shlomi Fruchter 与 Jack Parker-Holder 在播客中解析 Genie 3：通过生成多样化、可探索的虚拟世界，为 AI 智能体提供安全的测试与训练环境。对话涵盖物理模拟、涌现特性、与 SIMA 结合及 AGI 前景等议题。

智能体 DeepMind 产品更新具身智能

8月7日

01:36

Jim Fan@DrJimFan

关注 FSD Scaling Law 及涌现能力阈值，这是全球唯一的物理数据飞轮。Tesla 正训练参数量约 10 倍的新 FSD 模型，视频压缩损失大幅改进，顺利的话下月底发布。

Elon Musk: Tesla is training a new FSD model with ~10X params and a big improvement to video compression loss. Probably ready for p...

具身智能数据/训练模型发布

8月5日

23:57

Jim Fan@DrJimFan

精选

NVIDIA推出DreamGen引擎：让机器人在视频生成模型中"做梦"学习

NVIDIA发布DreamGen引擎（GR00T Dreams），将Sora/Veo等视频生成模型用作神经物理引擎，通过微调模型、模拟并行世界、恢复伪动作、训练基础模型四步流程，为机器人生成大规模合成训练数据。人形机器人仅凭单一拾放任务即可学会倾倒、折叠等22种新行为，在新动词和陌生环境中实现零样本泛化（成功率分别达43%和28%）。相比传统图形引擎，该方法以恒定计算成本处理可变形物体、流体等复杂交互，团队计划数周内完全开源。

Jim Fan: What if robots could dream inside a video generative model? Introducing DreamGen, a new engine that scales up robot lear...

具身智能视频论文/研究

推荐理由：NVIDIA提出用视频生成模型为机器人“造梦”合成训练数据，实现零样本技能泛化

23:38

Jim Fan@DrJimFan

精选

物理AI评估无法靠实车碰撞测试完成，传统游戏引擎（sim 1.0）也难以覆盖所有边缘情况。基于神经网络的sim 2.0由数据驱动，随车队规模扩展。Tesla已应用多年，用于生成近正面碰撞等罕见危险场景的训练数据，补充800万辆实车难以采集的极端案例。

Elon Musk: @DrJimFan Tesla has had this for a few years. Used for creating unusual training examples (eg near head-on collisions), ...

具身智能大佬观点数据/训练

推荐理由：Jim Fan 指出物理 AI 评估难题，提出神经网络驱动的 Sim 2.0 数据飞轮方案

7月26日

00:58

Jim Fan@DrJimFan

精选

机器人领域的小型 Moravec's paradox：对人类困难的体操动作反而更容易

机器人领域存在"莫拉维克悖论"：后空翻等杂技比做饭、清洁更容易实现。前者可在模拟中训练并零样本迁移，无需感知环境；后者需要真实的视觉、接触物理和物体动力学，难以模拟。这导致外界困惑——机器人能炫技却做不好家务，只因通用灵巧性仍是未解难题。

具身智能大佬观点

推荐理由：Jim Fan 揭示机器人'炫技易做家务难'的莫拉维克悖论成因

7月19日

23:30

Jim Fan@DrJimFan

精选

AGI 的门槛不是赢得诺贝尔奖，而是能去任何人家中烹饪任意菜系。物理图灵测试远比学术理论困难，Moravec 悖论将在未来十年持续困扰 AI 发展。

Thomas Wolf: My bar for AGI is an AI winning a Nobel Prize for a new theory it originated.

具身智能大佬观点推理

推荐理由：Jim Fan 提出 AGI 的物理图灵测试标准：能烹饪任意晚餐比获诺奖更难

7月14日

01:06

Jim Fan@DrJimFan

精选

最近在 X 上较为沉默。过去一年是转型之旅。Grok-4 与…

机器人领域正处于类似 2018 年 NLP 的混沌期，技术路线未定（世界模型、RL、sim2real 等），商业模式百花齐放，是入局的好时机。管理实验室并直接向 4 万亿美元公司 CEO 汇报消耗了全部精力，故在 X 上发言减少。坚信没有具身智能就没有 AGI。

智能体具身智能大佬观点

推荐理由：Jim Fan 称机器人领域处 GPT-1 时刻，具身智能是 AGI 必要条件

7月1日

17:00

BAIR：Berkeley AI Research Blog

基于全身条件的第一人称视角视频预测

PEVA 模型实现基于全身动作的第一人称视频预测。该模型接收历史视频帧和描述 3D 姿态变化的动作指令，生成下一帧画面，支持原子动作合成、反事实场景模拟及长视频生成。针对具身智能体设计，模型处理 48+ 自由度的高维人体控制，解决第一人称视角下身体不可见、感知滞后于动作等挑战，为机器人规划与控制提供世界模型基础。

具身智能视频论文/研究

6月24日

22:00

Google DeepMind：Blog（RSS）

精选

Gemini Robotics On-Device 将 AI 引入本地机器人设备

Gemini Robotics On-Device 推出高效端侧机器人模型，具备通用灵巧操作与快速任务适应能力，支持本地设备直接部署运行。

DeepMind Google 具身智能模型发布

关联讨论 1 条

推荐理由：DeepMind 发布端侧机器人模型，支持本地部署与快速任务适应

6月21日

03:38

Saining Xie@sainingxie

伙计们，真实的地理空间数据对数字智能体来说完全是座金矿。走出网页浏览器，来点真实的。

Chuang Gan: Virtual Community provides an online pipeline that automatically generates 3D scenes from real geospatial data, performi...

智能体具身智能大佬观点

5月20日

21:29

Jim Fan@DrJimFan

精选

DreamGen：让机器人在视频生成模型中"做梦"合成训练数据

DreamGen让机器人在视频生成模型中"做梦"合成训练数据。通过微调Sora等模型生成海量神经轨迹（逼真视频+动作标签），机器人从单一拾取放置任务泛化到倾倒、折叠等22种新行为。在NVIDIA总部咖啡厅测试中，人形机器人对新动词零样本成功率从0%提升至43%，新环境达28%。相比传统图形引擎，无需手工建模即可处理流体、可变形物体等复杂场景，整个pipeline将于近期完全开源。

具身智能视频论文/研究

推荐理由：NVIDIA 提出 DreamGen：让机器人在视频生成模型中「做梦」合成训练数据，实现强零样本泛化，将开源

5月15日

02:39

Jim Fan@DrJimFan

NVIDIA 研究团队下周赴亚特兰大参加 ICRA，现场招募人形机器人核心成员。聚焦 VLA、world models、RL 及仿真等前沿方向，寻求顶尖研究人才，可私信或邮件约见。

具身智能行业动态

5月8日

23:41

Jim Fan@DrJimFan

精选

物理图灵测试（Physical Turing Test）：周日黑客松后家里一片狼藉，周一晚上回家却发现客厅整洁、烛光晚餐就绪，而你无法分辨这是人还是机器所为

提出"物理图灵测试"作为通用机器人的北极星目标：机器能否像人一样完成物理任务（整理房间、准备晚餐）而不被察觉。这是从自动化比特迈向原子的下一代计算平台。在 Sequoia AI Ascent 演讲，分享第一性原理、数据策略与扩展定律，时长17分钟。

具身智能大佬观点

推荐理由：NVIDIA Jim Fan 提出「物理图灵测试」，定义通用机器人终极标准

4月22日

22:03

Jim Fan@DrJimFan

未来十年机器人将普及至家庭、医院和工厂，以超人灵巧完成枯燥危险工作，而那天只会被称为"周四"。跨越 Turing Test 已无人欢呼，从前被视为终极挑战的里程碑，如今只是"又一个该死的周二"。技术迭代之快让奇迹变得稀松平常。

signüll: we crossed the turing test & no one gave a shit. no parades. no front page headlines. just... a casual shrug. like "oh y...

智能体具身智能大佬观点

3月25日

17:00

BAIR：Berkeley AI Research Blog

规模化强化学习实现交通平滑：100辆AV的高速公路部署

研究团队在田纳西州纳什维尔附近的I-24高速公路部署了100辆由强化学习（RL）控制的自动驾驶汽车，通过实时抑制"走走停停"交通波来平滑拥堵并降低所有车辆的燃油消耗。实验证明仅需少量采用去中心化架构、基于标准雷达传感器的智能控制AV，即可显著提升道路通行效率并减少碳排放，为缓解高速公路拥堵提供了可扩展的技术方案。

具身智能论文/研究

3月21日

01:01

Jim Fan@DrJimFan

精选

NVIDIA 发布世界首个开源人形机器人基础模型 GR00T N1，仅 2B 参数，采用 VLM 加 Diffusion Transformer 架构实现端到端控制。模型基于真实遥操作、30 万+仿真轨迹及合成神经轨迹训练，在 GR1、1X Neo 等机器人上任务性能提升 30%，并可跨具身部署至百元级开源机械臂。

Jim Fan: Excited to announce GR00T N1, the world's first open foundation model for humanoid robots! We are on a mission to democr...