AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 122 条
全部一手资讯X论文
标签「arXiv」清除
Jim Fan@DrJimFan · 2月5日

New milestone: we trained a robot foundation model on a world model backbone, and enabled zero-shot, open-world prompting capability for new verbs, nouns, and environments. If the world model can "dream" the right future in pixels, then the robot can execute well in motors. We call it "DreamZero", our first World Action Model (WAM). Our team had tons of fun at the lab typing anything we like into an open text prompt, and watch the robot perform tasks it was never trained on. An emergent capability we didn't quite expect. Obviously not GPT-3 reliable yet, but we are marching into the GPT-2 era. Discoveries: - Model and data recipe co-evolve. Compared to VLAs, WAMs learn best from diverse data, breaking away from the conventional wisdom that lots of repeated demos per task are the bread and butter. Diversity >> repetitions. - X-embodiment is extremely hard. Pixels are the answer. Different robot morphologies traditionally have a hard time sharing knowledge well. But if we put video first, pixels become the universal bridge connecting different hardware - even videos of human first-person view. DreamZero shows significant robot2robot and human2robot transfer. With only 55 trajectories on a *new*, unseen hardware (~30 min of teleop), it adapts so quickly and retains zero-shot prompting ability. Yesterday I posted about the "Second Pre-training Paradigm": world models are the next-gen foundation of Physical AI, not language backbones. Today, we are proving it works. And 2026 has just begun. Paper: World Action Models are Zero-Shot Policies. Read it now: (thread)

译团队发布DreamZero,首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式,通过像素级世界模型实现零样本开放世界提示能力,可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示,并以像素作为跨具身的通用桥梁,实现robot2robot和human2robot知识迁移。仅需55条轨迹(约30分钟遥操作)即可适应全新硬件,验证世界模型作为Physical AI下一代基础的可行性。

Saining Xie@sainingxie · 12月16日

new paper: iREPA diffusion models are a renderer of their underlying representations. with this new setup, we can gain much clearer insight into what those representations are really about. Jas took on a spontaneous quest, and over the past three months we have learned so much ps. this is also our little experiment in a new kind of online water cooler effect that I loved seeing. let’s argue, discuss, and then turn it into proper science with real effort

译新论文:iREPA 扩散模型是其底层表征的渲染器。通过这种新设置,我们能更清楚地洞察这些表征的真正含义。Jas 开始了一场自发的探索,过去三个月我们学到了很多 ps. 这也是我们对一种新型线上"饮水机效应"的小实验,我很喜欢看到这种现象。让我们争论、讨论,然后用真正的努力将其转化为正经科学 [引用 @1jaskiratsingh]:‼️ 表征对生成很重要!但事实证明,我们对表征如何帮助生成的理解一直都是错的 ‼️ 我们之前的想法:(我们错了) ❌ 更大的视觉编码器 → 更好的表征 → 更好的生成 ❌ 更好的全局语义 → 更好的表征 → 更好的生成 结果发现: 🤯 在表征对齐方面,小 20 倍以上的视觉编码器可以达到与更大模型相似或更好的性能 🤯 线性探测准确率约 20%(全局语义的衡量指标)的视觉编码器可以胜过准确率 >80% 的编码器 🤯 即使是 SiFT 和 HoG 这类经典特征也能带来与现代大得多的视觉编码器相媲美的提升 ‼️ 🚨 介绍:什么对表征对齐重要?全局信息还是空间结构 🚨 TL;DR: ✅ 更好的全局语义信息 ≠ 更好的生成 ✅ 空间结构(而非全局语义)驱动表征的生成性能 ✅ 我们提出 iREPA:仅需 3 行代码,强调空间结构迁移,并在 REPA、REPA-E、Meanflow、JiT 等方法上持续提高收敛速度 在 @AdobeResearch 的激动人心的项目,与 @xingjian_leng、@zongze_wu、@LiangZheng_06、@rzhang88、@elishechtman 和 @sainingxie 合作 🙏 对我来说这也是一次特别有趣且独特的经历,在项目的每一步我们都在证明自己的偏见是错误的 😆 还要大力感谢 @YouJiacheng、@ShumingHu 和 @gallabytes,他们在 X 上的评论开启了这一方向的探索 🫡 论文:https://arxiv.org/abs/2512.10794 代码:https://github.com/End2End-Diffusion/iREPA 项目页面:https://end2end-diffusion.github.io/irepa 更多细节见线程:[1/n] 🧵

没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
2月5日
02:15
Jim Fan@DrJimFan
精选
新里程碑:基于世界模型骨干的DreamZero实现零样本开放世界机器人控制

团队发布DreamZero,首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式,通过像素级世界模型实现零样本开放世界提示能力,可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示,并以像素作为跨具身的通用桥梁,实现robot2robot和human2robot知识迁移。仅需55条轨迹(约30分钟遥操作)即可适应全新硬件,验证世界模型作为Physical AI下一代基础的可行性。

智能体arXiv具身智能论文/研究

推荐理由:世界模型成为物理AI新底座,机器人零样本泛化能力逼近GPT-2时刻
12月16日
07:28
Saining Xie@sainingxie
精选
新论文:iREPA 扩散模型是其底层表征的渲染器。通过这种新设置,我们能更清楚地洞察这些表征的真正含义。Jas 开始了一场自发的探索,过去三个月我们学到了很多 ps. 这也是我们对一种新型线上"饮水机效应"的小实验,我很喜欢看到这种现象。让我们争论、讨论,然后用真正的努力将其转化为正经科学 【引用 @1jaskiratsingh】:!!️ 表征对生成很重要!但事实证明,我们对表征如何帮助生成的理解一直都是错的 !!️ 我们之前的想法:(我们错了) ❌ 更大的视觉编码器 → 更好的表征 → 更好的生成 ❌ 更好的全局语义 → 更好的表征 → 更好的生成 结果发现: 🤯 在表征对齐方面,小 20 倍以上的视觉编码器可以达到与更大模型相似或更好的性能 🤯 线性探测准确率约 20%(全局语义的衡量指标)的视觉编码器可以胜过准确率 >80% 的编码器 🤯 即使是 SiFT 和 HoG 这类经典特征也能带来与现代大得多的视觉编码器相媲美的提升 !!️ 🚨 介绍:什么对表征对齐重要?全局信息还是空间结构 🚨 TL;DR: ✅ 更好的全局语义信息 ≠ 更好的生成 ✅ 空间结构(而非全局语义)驱动表征的生成性能 ✅ 我们提出 iREPA:仅需 3 行代码,强调空间结构迁移,并在 REPA、REPA-E、Meanflow、JiT 等方法上持续提高收敛速度 在 @AdobeResearch 的激动人心的项目,与 @xingjian_leng、@zongze_wu、@LiangZheng_06、@rzhang88、@elishechtman 和 @sainingxie 合作 🙏 对我来说这也是一次特别有趣且独特的经历,在项目的每一步我们都在证明自己的偏见是错误的 😆 还要大力感谢 @YouJiacheng、@ShumingHu 和 @gallabytes,他们在 X 上的评论开启了这一方向的探索 🫡 论文:https://arxiv.org/abs/2512.10794 代码:https://github.com/End2End-Diffusion/iREPA 项目页面:https://end2end-diffusion.github.io/irepa 更多细节见线程:【1/n】 🧵

Jaskirat Singh: !!️ Representations matter for generation! But turns out our understanding of how representations help generation was wr...

arXiv图像生成数据/训练论文/研究

推荐理由:颠覆认知:小20倍视觉编码器也能驱动高质量生成,空间结构才是关键
‹ 上一页
1234
下一页 ›