2月26日

01:22

Jim Fan@DrJimFan

精选

研究团队提出EgoScale方法，基于20,000小时第一人称人类视频预训练GR00T N1.5，仅用4小时机器人数据即可掌握组装模型车、操作注射器等高灵巧度任务，性能较从头训练提升54%。研究发现人类视频量与动作预测损失呈对数线性缩放关系（R²=0.998）。该方法利用22-DoF手部与人类的运动学相似性，无需复杂迁移算法即可重定向动作。策略可跨硬件迁移至Unitree G1（7-DoF），性能提升30%以上，且仅需单个示教即可学习新任务。

具身智能数据/训练论文/研究

关联讨论 1 条

推荐理由：人类视频学习呈现完美缩放定律，机器人仅需单演示即可掌握新技能，具身智能迎来数据革命

2月25日

01:34

Jim Fan@DrJimFan

精选

SONIC：半个GPT-1规模的机器人全身控制模型

SONIC是一个4200万参数的Transformer模型（规模仅半个GPT-1），通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练，以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人，在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。

智能体具身智能开源生态模型发布

推荐理由：42M小模型实现人形机器人全身控制，零样本迁移真实硬件且完全开源，开发者可复现

2月7日

02:33

Saining Xie@sainingxie

推文观点认为，将自动驾驶视为专注于避障的低维行动空间二维机器人，能更快产生实际影响。Waymo世界模型的核心不止于视频生成，更是对连续、高维、多模态嘈杂信号的建模。该模型基于Google DeepMind的Genie 3构建，能创建大规模、超逼真的驾驶模拟。通过模拟如龙卷风、飞机降落高速公路等极端罕见场景，Waymo Driver可在真实遭遇前进行针对性训练，从而显著提升系统应对复杂情况的能力，加速自动驾驶技术的安全部署与成熟。

Waymo: We're excited to introduce the Waymo World Model-a frontier generative mode for large-scale, hyper-realistic autonomous ...

具身智能多模态大佬观点

2月5日

14:54

Jim Fan@DrJimFan

伟大诞生于非共识之巅【引用 @saranormous】：关于机器人技术如何发展的意见分歧，是 AI 领域最大的赚钱（和职业发展）机会之一

sarah guo: the divergence of opinion in how robotics plays out is one of the biggest money making (and career making) opportunities...

具身智能大佬观点

02:15

Jim Fan@DrJimFan

精选

新里程碑：基于世界模型骨干的DreamZero实现零样本开放世界机器人控制

团队发布DreamZero，首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式，通过像素级世界模型实现零样本开放世界提示能力，可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示，并以像素作为跨具身的通用桥梁，实现robot2robot和human2robot知识迁移。仅需55条轨迹（约30分钟遥操作）即可适应全新硬件，验证世界模型作为Physical AI下一代基础的可行性。

智能体 arXiv 具身智能论文/研究

推荐理由：世界模型成为物理AI新底座，机器人零样本泛化能力逼近GPT-2时刻

2月4日

02:31

Jim Fan@DrJimFan

精选72

从"下一个词预测"到"世界建模"：AI预训练的第二范式

作者指出，AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列，本质上是可学习的物理模拟器，并将视觉置于首位。相比之下，当前主流的视觉语言模型本质是语言优先，视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位，是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例，证明强大的物理智能可独立于高级语言存在。他预测，2026年大型世界模型将为机器人技术和多模态AI奠定真正基础，而YouTube等平台的海量视觉数据将远超文本规模，推动这一新范式发展。

具身智能多模态大佬观点

推荐理由：Jim Fan 把世界模型定义为第二次预训练范式转移，核心论点是视觉优先而非语言优先，这个框架对做机器人和多模态的人是真正的路线判断，不是又一篇水文。

12月29日

02:11

Jim Fan@DrJimFan

精选

机器人领域的三大困境：硬件可靠性、基准测试与VLA局限

硬件方面，Optimus等虽工程精湛，但可靠性不足严重限制软件迭代，且维护成本高昂。基准测试领域仍处混乱，缺乏统一的硬件平台、任务定义和评分标准，cherry-picking现象普遍，可复现性堪忧。VLA（Vision-Language-Action）方法基于VLM存在本质缺陷：VLM为视觉问答优化，参数侧重语言知识而非物理理解，且视觉编码器丢弃低层细节，不利于精细操作。作者认为视频世界模型是更优的预训练目标。

智能体具身智能大佬观点

推荐理由：NVIDIA科学家揭示机器人学三大痛点：硬件拖累迭代、基准混乱、VLA路线存在根本缺陷

12月24日

06:28

Jim Fan@DrJimFan

精选

晚购特斯拉却早试FSD v14：首个通过物理图灵测试的AI体验

作者虽晚购特斯拉却率先体验FSD v14，认为这是首个通过"物理图灵测试"的AI系统：疲惫下班后只需按下按钮放松休息，已无法分辨是神经网络还是人类在驾驶。尽管深知机器人学习原理，方向盘自动转动时的流畅表现仍令人震撼。这项技术正从超现实体验转变为日常习惯，最终如智能手机般不可或缺。这种对"神级技术"的深度依赖，正在从根本上重塑人类行为模式。

Phil Duan: Along for the ride in unsupervised FSD testing

具身智能大佬观点

关联讨论 1 条

推荐理由：当AI驾驶让你无法区分人机时，出行方式的底层信任逻辑将被重写

12月2日

01:35

Jim Fan@DrJimFan

要去圣地亚哥参加 NeurIPS！从明天下午开始可以约咖啡。我们正在大力招聘机器人、VLM、世界模型和软件基础设施方面的人才！请私信我或发邮件（在我非常过时的主页上）。

具身智能多模态行业动态

11月27日

04:19

Saining Xie@sainingxie

突破2D限制：H*让AI在360度真实环境中思考

H*项目突破传统MLLMs处理单一2D图像的局限，引入全景图像作为环境载体，使模型具备在360度真实空间中主动观察与推理的能力。相比V*等项目的局部视觉工具，H*通过"具身化"范式赋予模型类似人类颈部的视角自由度，显著扩展了行动空间，支持在地铁站、商场等复杂场景中进行视觉搜索与空间推理，实现了从被动接受到主动探索的范式转变。

Yiming Li: 🤔Visual-spatial reasoning requires a shift from a disembodied, passive paradigm to an embodied, active one: 🤖Grounding...

具身智能多模态论文/研究

9月26日

08:25

Jim Fan@DrJimFan

@yukez 在 CoRL 2025 分享 Project GR00T 最新研究，发布 NVIDIA Isaac GR00T 平台更新，探讨人形机器人基础模型的技术挑战与新机遇。

NVIDIA Robotics: The rise of humanoid platforms presents new opportunities and unique challenges. 🤖 Join @yukez at #CoRL2025 as he share...

产品更新具身智能模型发布

9月21日

01:27

Jeff Dean@JeffDean

Waymo自动驾驶安全分析：每年可挽救数万生命并节省万亿成本

神经外科医生基于Waymo9600万英里行驶数据的深度分析显示，其自动驾驶汽车严重事故率比人类驾驶低91%，交叉口伤害事故减少95%。数据显示47%的碰撞速度差小于1 mph，系统将不可避免的事故转化为轻微接触。若全美车辆达到该安全水平，每年可防止3.3–3.9万人死亡、节省0.9–1.25万亿美元社会成本，即使27%普及率也能挽救约1万人生命，实现从伤害减轻到伤害预防的根本转变。

Dr. Jon Slotkin: As a neurosurgeon I care a lot about road safety. By now you've probably seen @Waymo's stunning safety results (like 91%...

Google 具身智能现象/趋势

9月13日

22:51

Jim Fan@DrJimFan

BEHAVIOR挑战启动：机器人学迎来ImageNet时刻

推文指出计算机视觉（ImageNet）和自然语言处理（MMLU、HLE、SWEBench）已建立标准化基准体系，而机器人学仍缺乏统一评估标准，存在硬件、任务定义、评分体系混乱的问题。由ImageNet创造者开发的BEHAVIOR项目基于Isaac Sim物理引擎，旨在建立可复现的机器人学统一基准。该项目已启动首届NeurIPS 2025挑战赛，期望成为推动领域进步的标志性信号。

Fei-Fei Li: (1/N) How close are we to enabling robots to solve the long-horizon, complex tasks that matter in everyday life? 🚨 We a...

具身智能评测/基准

8月22日

01:26

Google DeepMind@GoogleDeepMind

为何要构建可探索的 AI 生成世界？

Google DeepMind 研究者 Shlomi Fruchter 与 Jack Parker-Holder 在播客中解析 Genie 3：通过生成多样化、可探索的虚拟世界，为 AI 智能体提供安全的测试与训练环境。对话涵盖物理模拟、涌现特性、与 SIMA 结合及 AGI 前景等议题。

智能体 DeepMind 产品更新具身智能

8月7日

01:36

Jim Fan@DrJimFan

关注 FSD Scaling Law 及涌现能力阈值，这是全球唯一的物理数据飞轮。Tesla 正训练参数量约 10 倍的新 FSD 模型，视频压缩损失大幅改进，顺利的话下月底发布。

Elon Musk: Tesla is training a new FSD model with ~10X params and a big improvement to video compression loss. Probably ready for p...

具身智能数据/训练模型发布

8月5日

23:57

Jim Fan@DrJimFan

精选

NVIDIA推出DreamGen引擎：让机器人在视频生成模型中"做梦"学习

NVIDIA发布DreamGen引擎（GR00T Dreams），将Sora/Veo等视频生成模型用作神经物理引擎，通过微调模型、模拟并行世界、恢复伪动作、训练基础模型四步流程，为机器人生成大规模合成训练数据。人形机器人仅凭单一拾放任务即可学会倾倒、折叠等22种新行为，在新动词和陌生环境中实现零样本泛化（成功率分别达43%和28%）。相比传统图形引擎，该方法以恒定计算成本处理可变形物体、流体等复杂交互，团队计划数周内完全开源。

Jim Fan: What if robots could dream inside a video generative model? Introducing DreamGen, a new engine that scales up robot lear...

具身智能视频论文/研究

推荐理由：NVIDIA提出用视频生成模型为机器人“造梦”合成训练数据，实现零样本技能泛化

23:38

Jim Fan@DrJimFan

精选

物理AI评估无法靠实车碰撞测试完成，传统游戏引擎（sim 1.0）也难以覆盖所有边缘情况。基于神经网络的sim 2.0由数据驱动，随车队规模扩展。Tesla已应用多年，用于生成近正面碰撞等罕见危险场景的训练数据，补充800万辆实车难以采集的极端案例。

Elon Musk: @DrJimFan Tesla has had this for a few years. Used for creating unusual training examples (eg near head-on collisions), ...

具身智能大佬观点数据/训练

推荐理由：Jim Fan 指出物理 AI 评估难题，提出神经网络驱动的 Sim 2.0 数据飞轮方案

7月26日

00:58

Jim Fan@DrJimFan

精选

机器人领域的小型 Moravec's paradox：对人类困难的体操动作反而更容易

机器人领域存在"莫拉维克悖论"：后空翻等杂技比做饭、清洁更容易实现。前者可在模拟中训练并零样本迁移，无需感知环境；后者需要真实的视觉、接触物理和物体动力学，难以模拟。这导致外界困惑——机器人能炫技却做不好家务，只因通用灵巧性仍是未解难题。

具身智能大佬观点

推荐理由：Jim Fan 揭示机器人'炫技易做家务难'的莫拉维克悖论成因

7月19日

23:30

Jim Fan@DrJimFan

精选

AGI 的门槛不是赢得诺贝尔奖，而是能去任何人家中烹饪任意菜系。物理图灵测试远比学术理论困难，Moravec 悖论将在未来十年持续困扰 AI 发展。

Thomas Wolf: My bar for AGI is an AI winning a Nobel Prize for a new theory it originated.

具身智能大佬观点推理

推荐理由：Jim Fan 提出 AGI 的物理图灵测试标准：能烹饪任意晚餐比获诺奖更难

7月14日

01:06

Jim Fan@DrJimFan

精选

最近在 X 上较为沉默。过去一年是转型之旅。Grok-4 与…

机器人领域正处于类似 2018 年 NLP 的混沌期，技术路线未定（世界模型、RL、sim2real 等），商业模式百花齐放，是入局的好时机。管理实验室并直接向 4 万亿美元公司 CEO 汇报消耗了全部精力，故在 X 上发言减少。坚信没有具身智能就没有 AGI。

智能体具身智能大佬观点

推荐理由：Jim Fan 称机器人领域处 GPT-1 时刻，具身智能是 AGI 必要条件

6月21日

03:38

Saining Xie@sainingxie

伙计们，真实的地理空间数据对数字智能体来说完全是座金矿。走出网页浏览器，来点真实的。

Chuang Gan: Virtual Community provides an online pipeline that automatically generates 3D scenes from real geospatial data, performi...

智能体具身智能大佬观点

5月20日

21:29

Jim Fan@DrJimFan

精选

DreamGen：让机器人在视频生成模型中"做梦"合成训练数据

DreamGen让机器人在视频生成模型中"做梦"合成训练数据。通过微调Sora等模型生成海量神经轨迹（逼真视频+动作标签），机器人从单一拾取放置任务泛化到倾倒、折叠等22种新行为。在NVIDIA总部咖啡厅测试中，人形机器人对新动词零样本成功率从0%提升至43%，新环境达28%。相比传统图形引擎，无需手工建模即可处理流体、可变形物体等复杂场景，整个pipeline将于近期完全开源。