全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「具身智能」清除

4月12日周日

02:19Rohan PaulUnitree H1 人形机器人速度达到 10 m/s，进入世界冠军级领域

4月11日周六

22:50Chubby♨️Unitree 人形机器人奔跑速度达 10m/s（Bolt 为 12.42 m/s）

08:00HuggingFace Daily Papers（社区热门论文）面向affordance分类的时间增强图注意力网络

00:28AKHY-Embodied-0.5：面向真实世界智能体的具身基础模型

4月10日周五

08:00HuggingFace Daily Papers（社区热门论文）TAIHRI：面向近距离人机交互的任务感知3D人体关键点定位

4月9日周四

17:01公众号：腾讯混元51腾讯Robotics X实验室联合混元推出2B具身模型：22项评测16项最佳

08:00HuggingFace Daily Papers（社区热门论文）3D-VCD：通过视觉对比解码缓解3D具身智能体中的幻觉

08:00HuggingFace Daily Papers（社区热门论文）ReconPhys：从单视频中重建外观与物理属性

4月8日周三

21:00SemiAnalysisUnitree 披露其 2025 年至今混合毛利率达 59%，这太不可思议了！

4月7日周二

23:40AKOpenWorldLib：高级世界模型的统一代码库与定义

4月2日周四

18:30公众号：生数科技（Vidu·视频）41生数科技与深朴智能合作，共筑物理世界通用智能

4月1日周三

23:03Jim Fan精选CaP-X开源发布：大模型智能体进入物理世界

3月27日周五

08:00HuggingFace Daily Papers（社区热门论文）61通过分离前向与逆向动力学预训练实现解耦的机器人学习

3月25日周三

16:46Demis Hassabis很高兴与 Agile Robots 达成合作！

3月24日周二

20:21Google DeepMindGoogle DeepMind 与 Agile Robots 达成合作

03:28Saining Xie最好搭配 LeWorldModel 论文阅读。别问我为什么 🙂

01:41Jim Fan遥操作已是2025：EgoVerse 正式发布，开启无机器人规模化学习时代

3月19日周四

01:31Andrej Karpathy感谢 Jensen 和 NVIDIA！DGX Station GB300 真是台美人！

3月12日周四

20:27公众号：生数科技（Vidu·视频）35生数科技与无界动力达成全面战略合作，共创物理AI新范式

3月11日周三

11:15公众号：MiniMax（稀宇科技）56来MaxClaw开源，人人参与OpenClaw生态共建

3月10日周二

15:19Yann LeCun精选Advanced Machine Intelligence（AMI Labs）新创公司正式亮相

13:10Saining Xie精选我与 @ylecun 和一群杰出人士联手创立 AMI Labs @amilabs。

3月9日周一

08:00Hugging Face：Blog（RSS）71精选LeRobot v0.5.0：扩展每一个维度

3月5日周四

22:16Hugging Face：Blog（RSS）73精选将机器人AI引入嵌入式平台：数据集记录、VLA微调与设备端优化

2月27日周五

04:15Saining Xie精选世界建模绝非像素渲染：Project Solaris发布多智能体视频世界模型

2月26日周四

01:22Jim Fan精选22自由度灵巧手人形机器人：从2万小时人类视频学习精细操作

2月25日周三

01:34Jim Fan精选SONIC：半个GPT-1规模的机器人全身控制模型

2月7日周六

02:33Saining Xie49Waymo发布世界模型：通过超现实模拟加速自动驾驶发展

2月6日周五

18:00公众号：生数科技（Vidu·视频）48生数科技携手清华大学开源统一世界模型Motus，性能全面超越Pi0.5 40%

2月5日周四

14:54Jim Fan伟大诞生于非共识之巅【引用 @saranormous】：关于机器人技术如何发展的意见分歧，是 AI 领域最大的赚钱（和职业发展）机会之一

02:15Jim Fan精选新里程碑：基于世界模型骨干的DreamZero实现零样本开放世界机器人控制

2月4日周三

02:31Jim Fan72精选从"下一个词预测"到"世界建模"：AI预训练的第二范式

1月6日周二

06:56Hugging Face：Blog（RSS）80精选NVIDIA发布Cosmos Reason 2模型，增强物理AI推理能力

1月5日周一

08:00Hugging Face：Blog（RSS）38NVIDIA 借助 DGX Spark 与 Reachy Mini 将智能体带入现实

00:00Runway：News（网页）Runway基于NVIDIA Rubin平台加速视频生成与世界模型

12月29日周一

02:11Jim Fan精选机器人领域的三大困境：硬件可靠性、基准测试与VLA局限

12月24日周三

06:28Jim Fan精选晚购特斯拉却早试FSD v14：首个通过物理图灵测试的AI体验

12月2日周二

01:35Jim Fan要去圣地亚哥参加 NeurIPS！从明天下午开始可以约咖啡。我们正在大力招聘机器人、VLM、世界模型和软件基础设施方面的人才！请私信我或发邮件（在我非常过时的主页上）。

00:00字节 Seed：Research Papers（网页内嵌数据）GR-RL：实现灵巧精准的长程机器人操作

00:00字节 Seed：Research Feed（网页内嵌数据）GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

4月12日

02:19

Rohan Paul@rohanpaul_ai

Unitree H1 人形机器人奔跑速度达到 10 m/s，接近博尔特百米平均速度（10.44 m/s）。较两年前的 3.3 m/s 大幅提升，标志着高速平衡与步态控制技术取得关键突破。

具身智能现象/趋势

4月11日

22:50

Chubby♨️@kimmonismus

Unitree 人形机器人奔跑速度达到 10m/s，已接近 Bolt 保持的 12.42 m/s 人类短跑纪录。不得不说，这一速度表现相当 impressive。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

面向affordance分类的时间增强图注意力网络

本文提出EEG-tGAT模型，针对affordance分类任务对GATv2进行时间增强。通过引入时间注意力机制动态调节不同时间段贡献，并采用时间dropout正则化时序相关观测，以应对affordance数据中判别信息时间分布不均的特点。实验结果表明，相比GATv2，该模型在affordance数据集上实现了更优的分类性能，证明显式编码时间重要性和增强时间鲁棒性能够更好对齐affordance驱动交互数据的结构特性。

arXiv 具身智能数据/训练论文/研究

00:28

AK@_akhaliq

HY-Embodied-0.5正式发布，专为真实世界智能体打造的具身基础模型，相关论文已公开至Hugging Face。

智能体 Hugging Face 具身智能论文/研究

4月10日

08:00

HuggingFace Daily Papers（社区热门论文）

TAIHRI：面向近距离人机交互的任务感知3D人体关键点定位

腾讯发布首个专为近距离人机交互感知的视觉语言模型TAIHRI，突破传统全身重建范式，实现任务相关身体部位的精确度量级3D空间定位。该模型通过将3D关键点量化为有限交互空间，结合2D关键点推理与下一token预测机制，在自我中心相机坐标系下精准定位关键身体部位。实验表明，TAIHRI在任务关键身体部位估计精度上显著优于传统方法，并支持自然语言控制与全局人体网格重建等下游任务，相关代码已开源。

具身智能多模态论文/研究

4月9日

17:01

公众号：腾讯混元

51

腾讯Robotics X实验室联合混元推出2B具身模型：22项评测16项最佳

腾讯Robotics X实验室与混元联合推出2B参数规模的具身模型，在22项评测中取得16项最佳成绩。该模型旨在为真实世界AI智能体提供基础支撑。

具身智能模型发布

08:00

HuggingFace Daily Papers（社区热门论文）

3D-VCD：通过视觉对比解码缓解3D具身智能体中的幻觉

本文提出首个面向3D具身智能体的推理时视觉对比解码框架3D-VCD，用于缓解多模态大模型在三维环境中的幻觉问题。该方法通过对物体类别、空间坐标及几何范围施加语义与几何扰动构建扭曲的3D场景图，通过对比原始与扭曲场景的预测差异，抑制受语言先验驱动而非场景证据支持的不可靠token。在3D-POPE和HEAL基准测试中，该方法无需重新训练即显著提升了具身智能体的基础推理能力。

智能体 arXiv 具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ReconPhys：从单视频中重建外观与物理属性

ReconPhys 是首个可从单目视频联合重建几何、外观与物理属性的前馈框架。该方法采用双分支架构与自监督训练策略，无需真实物理标签即可实现端到端推理。在合成数据集测试中，其未来预测 PSNR 达到 21.64，显著优于现有优化基线的 13.27；Chamfer Distance 从 0.349 降至 0.004。关键突破在于推理速度：仅需不到 1 秒即可完成重建，而传统方法需耗时数小时，为机器人与图形学领域快速生成仿真就绪资产提供了新方案。

arXiv 具身智能视频论文/研究

4月8日

21:00

SemiAnalysis@SemiAnalysis_

Unitree 披露其 2025 年至今混合毛利率达 59%，这太不可思议了！

具身智能行业动态

4月7日

23:40

AK@_akhaliq

OpenWorldLib 正式发布，提供高级世界模型的统一代码库与标准化定义，相关论文已上传至 Hugging Face。

Hugging Face 具身智能论文/研究

4月2日

18:30

公众号：生数科技（Vidu·视频）

41

生数科技与深朴智能合作，共筑物理世界通用智能

生数科技携手深朴智能，共同致力于构建物理世界的通用智能。

具身智能行业动态

4月1日

23:03

Jim Fan@DrJimFan

精选

CaP-X开源发布：大模型智能体进入物理世界

CaP-X开源具身智能系统，让大模型智能体通过机械臂与人形机器人进入物理世界。系统整合SAM3、Molmo等感知API与IK求解器、抓取规划等控制接口，可自动合成技能库。研究发布CaP-Gym基准（187项操作任务）与CaP-Bench（评测12个前沿模型），提出零样本框架CaP-Agent0及强化学习方案CaP-RL，后者仅用50次迭代即将7B模型成功率从20%提升至72%。该技术由曾开发Minecraft智能体Voyager的团队推出。

智能体具身智能开源/仓库

推荐理由：NVIDIA Jim Fan 开源 CaP-X，让 Vibe Agent 真正进入物理世界操作机器人

3月27日

08:00

HuggingFace Daily Papers（社区热门论文）

61

通过分离前向与逆向动力学预训练实现解耦的机器人学习

视觉-语言-动作模型在构建通用机器人时面临二维图像预测与三维动作预测不对齐的困境，且视觉与动作耦合的训练方式限制了模型从大规模无动作网络视频中学习。为此，研究提出DeFI框架，将视觉前向动力学与逆向动力学预训练解耦，分别利用不同数据源。该框架包含通用前向动力学模型，通过多样人类与机器人视频预训练以进行未来预测；以及通用逆向动力学模型，通过自监督学习从无标注视频转换中推断潜在动作。两者随后集成至统一架构，在下游任务中进行端到端微调。实验表明，DeFI在CALVIN基准上取得平均任务长度4.51，在SimplerEnv-Fractal基准上获得51.2%的成功率，在真实世界部署中达到81.3%的成功率，显著超越现有方法。

具身智能数据/训练论文/研究

3月25日

16:46

Demis Hassabis@demishassabis

Google DeepMind 宣布与 Agile Robots 建立研究合作，将 Gemini 基础模型集成至对方硬件平台，部署于工业场景解决复杂挑战，构建下一代更实用的机器人。

Google DeepMind: Google DeepMind 🤝 Agile Robots Our new research partnership will integrate the Gemini foundation models with their hard...

DeepMind Google 具身智能多模态

3月24日

20:21

Google DeepMind@GoogleDeepMind

Google DeepMind 与 Agile Robots 建立研究合作，将 Gemini 基础模型与后者硬件集成，共同开发下一代更实用的机器人。

Google 具身智能行业动态

03:28

Saining Xie@sainingxie

最好搭配 LeWorldModel 论文阅读。别问我为什么 🙂

Hang Zhao: Our recent findings on World Action Models (WAMs): the core advantage of WAMs is not test-time "imagination" of futures,...

具身智能多模态论文/研究

01:41

Jim Fan@DrJimFan

EgoVerse 生态系统正式发布：由4家研究实验室与3家行业伙伴共建，基于1300+小时第一人称人类视频数据，覆盖240个场景与2000+项任务。无需真实机器人即可规模化训练，通过行为克隆直接从人类数据学习，2026年机器人学习将彻底告别遥操作模式。

Danfei Xu: Introducing EgoVerse: an ecosystem for robot learning from egocentric human data. Built and tested by 4 research labs + ...

具身智能数据/训练论文/研究

3月19日

01:31

Andrej Karpathy@karpathy

Andrej Karpathy 收到首台 DGX Station GB300（Dell Pro Max with GB300），这台需要 20 安培电流的"秘密礼物"将成为 Dobby the House Elf claw 等项目的宽敞新家。

NVIDIA AI Developer: 🙌 Andrej Karpathy's lab has received the first DGX Station GB300 -- a Dell Pro Max with GB300. 💚 We can't wait to see ...

具身智能行业动态部署/工程

3月12日

20:27

公众号：生数科技（Vidu·视频）

35

生数科技与无界动力达成全面战略合作，共创物理AI新范式

具身智能行业动态视频

3月11日

11:15

公众号：MiniMax（稀宇科技）

56

来MaxClaw开源，人人参与OpenClaw生态共建

MaxClaw 在 Skill 生成器中预置了基于对话生成并发布技能的流程，用户仅需描述想法即可自动梳理、调优、打包并上传至 OpenClaw 开源社区。MaxClaw 已最新内嵌企业微信和微博官方接口，通过简单对话即可完成接入。目前 MaxClaw 已支持飞书、钉钉、企业微信、WhatsApp、Telegram 等主流 IM 工具。MiniMax 将在 3 月 12 日至 14 日的 AWE 2026 上展示全模态大模型与数十款 AI 智能硬件生态产品。

产品更新具身智能开源生态

3月10日

15:19

Yann LeCun@ylecun

精选

AMI Labs 宣布获 10.3 亿美元种子轮融资，由 Cathay Innovation、Bezos Expeditions 等领投，创欧洲公司种子轮纪录。公司致力于开发基于世界模型的新型 AI 系统，具备理解世界、持久记忆、推理规划及可控安全能力，团队分布于巴黎、纽约、蒙特利尔和新加坡。

AMI Labs: Advanced Machine Intelligence (AMI) is building a new breed of AI systems that understand the world, have persistent mem...

智能体 Meta 具身智能行业动态

推荐理由：图灵奖得主LeCun创立AMI Labs，获10亿美元种子轮融资押注世界模型

13:10

Saining Xie@sainingxie

精选

我与 @ylecun 和一群杰出人士联手创立 AMI Labs @amilabs。

AMI Labs: Advanced Machine Intelligence (AMI) is building a new breed of AI systems that understand the world, have persistent mem...

智能体具身智能行业动态

推荐理由：LeCun联手谢赛宁获贝佐斯投资10亿美元押注世界模型，AGI路线之争再添变数

3月9日

08:00

Hugging Face：Blog（RSS）

精选71

LeRobot v0.5.0：扩展每一个维度

Hugging Face 发布了 LeRobot v0.5.0 版本。该版本在数据集、模型、任务和社区四个维度上进行了全面扩展。具体包括：引入了新的现实世界和模拟数据集，推出了支持多任务学习的模型，并扩展了任务范围至移动操作和双臂协调。社区方面，提供了更易用的库、演示应用和教学资源。此次更新的核心目标是降低机器人技术的应用门槛，推动其民主化发展。

Hugging Face 具身智能开源/仓库

推荐理由：开源机器人AI框架大版本更新，降低具身智能研发门槛，值得关注落地进展

3月5日

22:16

Hugging Face：Blog（RSS）

精选73

将机器人AI引入嵌入式平台：数据集记录、VLA微调与设备端优化

NXP在Hugging Face发布技术博客，详细介绍了将视觉语言动作模型应用于嵌入式机器人系统的完整流程。核心工作包括构建真实世界的机器人交互数据集，对VLA模型进行针对性微调，以及实施一系列设备端优化以实现高效部署。该方案旨在解决大型模型在资源受限的嵌入式硬件上运行的挑战，推动机器人AI在边缘端的实际应用。

Hugging Face 具身智能教程/实践端侧

推荐理由：嵌入式AI开发者可掌握从数据集记录到设备端优化的全流程实践。

2月27日

04:15

Saining Xie@sainingxie

精选

世界建模绝非像素渲染：Project Solaris发布多智能体视频世界模型

Project Solaris提出世界建模的本质在于全局共享状态而非局部像素渲染，推出基于Minecraft的多人在线视频世界模型。该系统突破单智能体视角局限，支持任意数量智能体随时介入交互，实现持久化世界状态演化。核心包含三大组件：Solaris Engine多人数据收集系统、基于DiT架构的Solaris Model（采用新型内存高效自强制设计，训练于1260万帧协调游戏数据）、以及使用VLM评判的Solaris Eval评估体系。这一范式转变为构建神经MMORPG服务器奠定基础。

Oscar Michel: 📢Current world models aren't really modeling the world; they're modeling one agent's view of it. Partial observations ≠...

智能体具身智能开源/仓库视频

推荐理由：从单视角到共享全局状态，开源多智能体世界模型或改变AI训练范式

2月26日

01:22

Jim Fan@DrJimFan

精选

22自由度灵巧手人形机器人：从2万小时人类视频学习精细操作

研究团队提出EgoScale方法，基于20,000小时第一人称人类视频预训练GR00T N1.5，仅用4小时机器人数据即可掌握组装模型车、操作注射器等高灵巧度任务，性能较从头训练提升54%。研究发现人类视频量与动作预测损失呈对数线性缩放关系（R²=0.998）。该方法利用22-DoF手部与人类的运动学相似性，无需复杂迁移算法即可重定向动作。策略可跨硬件迁移至Unitree G1（7-DoF），性能提升30%以上，且仅需单个示教即可学习新任务。

具身智能数据/训练论文/研究

关联讨论 1 条X：Jim Fan (@DrJimFan)

推荐理由：人类视频学习呈现完美缩放定律，机器人仅需单演示即可掌握新技能，具身智能迎来数据革命

2月25日

01:34

Jim Fan@DrJimFan

精选

SONIC：半个GPT-1规模的机器人全身控制模型

SONIC是一个4200万参数的Transformer模型（规模仅半个GPT-1），通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练，以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人，在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。

智能体具身智能开源生态模型发布

推荐理由：42M小模型实现人形机器人全身控制，零样本迁移真实硬件且完全开源，开发者可复现

2月7日

02:33

Saining Xie@sainingxie

49

推文观点认为，将自动驾驶视为专注于避障的低维行动空间二维机器人，能更快产生实际影响。Waymo世界模型的核心不止于视频生成，更是对连续、高维、多模态嘈杂信号的建模。该模型基于Google DeepMind的Genie 3构建，能创建大规模、超逼真的驾驶模拟。通过模拟如龙卷风、飞机降落高速公路等极端罕见场景，Waymo Driver可在真实遭遇前进行针对性训练，从而显著提升系统应对复杂情况的能力，加速自动驾驶技术的安全部署与成熟。

Waymo: We're excited to introduce the Waymo World Model-a frontier generative mode for large-scale, hyper-realistic autonomous ...

具身智能多模态大佬观点

2月6日

18:00

公众号：生数科技（Vidu·视频）

48

生数科技携手清华大学开源统一世界模型Motus，性能全面超越Pi0.5 40%

生数科技与清华大学联合开源统一世界模型Motus，该模型在性能上全面超越Pi0.5，提升幅度达40%。

具身智能开源生态模型发布

2月5日

14:54

Jim Fan@DrJimFan

伟大诞生于非共识之巅【引用 @saranormous】：关于机器人技术如何发展的意见分歧，是 AI 领域最大的赚钱（和职业发展）机会之一

sarah guo: the divergence of opinion in how robotics plays out is one of the biggest money making (and career making) opportunities...

具身智能大佬观点

02:15

Jim Fan@DrJimFan

精选

新里程碑：基于世界模型骨干的DreamZero实现零样本开放世界机器人控制

团队发布DreamZero，首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式，通过像素级世界模型实现零样本开放世界提示能力，可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示，并以像素作为跨具身的通用桥梁，实现robot2robot和human2robot知识迁移。仅需55条轨迹（约30分钟遥操作）即可适应全新硬件，验证世界模型作为Physical AI下一代基础的可行性。

智能体 arXiv 具身智能论文/研究

推荐理由：世界模型成为物理AI新底座，机器人零样本泛化能力逼近GPT-2时刻

2月4日

02:31

Jim Fan@DrJimFan

精选72

从"下一个词预测"到"世界建模"：AI预训练的第二范式

作者指出，AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列，本质上是可学习的物理模拟器，并将视觉置于首位。相比之下，当前主流的视觉语言模型本质是语言优先，视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位，是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例，证明强大的物理智能可独立于高级语言存在。他预测，2026年大型世界模型将为机器人技术和多模态AI奠定真正基础，而YouTube等平台的海量视觉数据将远超文本规模，推动这一新范式发展。

具身智能多模态大佬观点

推荐理由：Jim Fan 把世界模型定义为第二次预训练范式转移，核心论点是视觉优先而非语言优先，这个框架对做机器人和多模态的人是真正的路线判断，不是又一篇水文。

1月6日

06:56

Hugging Face：Blog（RSS）

精选80

NVIDIA发布Cosmos Reason 2模型，增强物理AI推理能力

NVIDIA在Hugging Face上发布了Cosmos Reason 2模型，旨在提升物理AI系统的推理能力。该模型通过改进的推理架构，使AI能更准确地理解和预测物理世界的动态与交互，核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展，使AI在现实环境中的决策更可靠、更符合物理规律。

具身智能推理模型发布

推荐理由：物理AI推理能力升级，机器人和具身智能落地的关键拼图

1月5日

08:00

Hugging Face：Blog（RSS）

38

NVIDIA 借助 DGX Spark 与 Reachy Mini 将智能体带入现实

NVIDIA 推出 DGX Spark 平台与 Reachy Mini 机器人，旨在通过开源框架降低智能体开发门槛。该组合将大语言模型与物理执行器结合，使 AI 智能体能完成复杂任务。DGX Spark 提供分布式训练基础设施，Reachy Mini 则提供高精度七自由度机械臂硬件，共同推动具身智能发展。

智能体产品更新具身智能

00:00

Runway：News（网页）

Runway基于NVIDIA Rubin平台加速视频生成与世界模型

Runway率先在NVIDIA Rubin平台部署视频生成模型Gen-4.5与世界模型GWM-1。Gen-4.5在一天内从Hopper迁移至Vera Rubin NVL72，展现平台后向兼容性与生产就绪能力。Rubin单GPU提供50 PF推理算力，可加速实时长视频生成。GWM-1作为Runway首个通用世界模型家族，支持物理感知机器人训练、可探索虚拟世界及交互式化身，推动AI从文本理解向物理世界模拟演进。

产品更新具身智能视频

12月29日

02:11

Jim Fan@DrJimFan

精选

机器人领域的三大困境：硬件可靠性、基准测试与VLA局限

硬件方面，Optimus等虽工程精湛，但可靠性不足严重限制软件迭代，且维护成本高昂。基准测试领域仍处混乱，缺乏统一的硬件平台、任务定义和评分标准，cherry-picking现象普遍，可复现性堪忧。VLA（Vision-Language-Action）方法基于VLM存在本质缺陷：VLM为视觉问答优化，参数侧重语言知识而非物理理解，且视觉编码器丢弃低层细节，不利于精细操作。作者认为视频世界模型是更优的预训练目标。

智能体具身智能大佬观点

推荐理由：NVIDIA科学家揭示机器人学三大痛点：硬件拖累迭代、基准混乱、VLA路线存在根本缺陷

12月24日

06:28

Jim Fan@DrJimFan

精选

晚购特斯拉却早试FSD v14：首个通过物理图灵测试的AI体验

作者虽晚购特斯拉却率先体验FSD v14，认为这是首个通过"物理图灵测试"的AI系统：疲惫下班后只需按下按钮放松休息，已无法分辨是神经网络还是人类在驾驶。尽管深知机器人学习原理，方向盘自动转动时的流畅表现仍令人震撼。这项技术正从超现实体验转变为日常习惯，最终如智能手机般不可或缺。这种对"神级技术"的深度依赖，正在从根本上重塑人类行为模式。

Phil Duan: Along for the ride in unsupervised FSD testing

具身智能大佬观点

关联讨论 1 条X：Jim Fan (@DrJimFan)

推荐理由：当AI驾驶让你无法区分人机时，出行方式的底层信任逻辑将被重写

12月2日

01:35

Jim Fan@DrJimFan

要去圣地亚哥参加 NeurIPS！从明天下午开始可以约咖啡。我们正在大力招聘机器人、VLM、世界模型和软件基础设施方面的人才！请私信我或发邮件（在我非常过时的主页上）。

具身智能多模态行业动态

00:00

字节 Seed：Research Papers（网页内嵌数据）

GR-RL：实现灵巧精准的长程机器人操作

GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性，利用离线 RL 的 Q 值过滤有效轨迹，结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率，首次完成需毫米级精度和长程推理的复杂操作。

具身智能推理论文/研究

00:00

字节 Seed：Research Feed（网页内嵌数据）

GR-RL 发布：突破 VLA 精细操作瓶颈，首次实现真机强化学习穿鞋带

字节跳动 Seed 团队发布 GR-RL，采用离线数据筛选结合在线真机微调的强化学习框架，突破 VLA 模型长时程精细操作瓶颈，首次实现机器人连续穿鞋带。相比前作 GR-3，成功率从 45.7% 提升至 83.3%，减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据，并在隐空间探索优化，解决模仿学习的数据次优性与执行错位问题，模型涌现出自纠错与场景调整能力。

具身智能数据/训练论文/研究