本文提出EEG-tGAT模型,针对affordance分类任务对GATv2进行时间增强。通过引入时间注意力机制动态调节不同时间段贡献,并采用时间dropout正则化时序相关观测,以应对affordance数据中判别信息时间分布不均的特点。实验结果表明,相比GATv2,该模型在affordance数据集上实现了更优的分类性能,证明显式编码时间重要性和增强时间鲁棒性能够更好对齐affordance驱动交互数据的结构特性。
腾讯发布首个专为近距离人机交互感知的视觉语言模型TAIHRI,突破传统全身重建范式,实现任务相关身体部位的精确度量级3D空间定位。该模型通过将3D关键点量化为有限交互空间,结合2D关键点推理与下一token预测机制,在自我中心相机坐标系下精准定位关键身体部位。实验表明,TAIHRI在任务关键身体部位估计精度上显著优于传统方法,并支持自然语言控制与全局人体网格重建等下游任务,相关代码已开源。
腾讯Robotics X实验室与混元联合推出2B参数规模的具身模型,在22项评测中取得16项最佳成绩。该模型旨在为真实世界AI智能体提供基础支撑。
本文提出首个面向3D具身智能体的推理时视觉对比解码框架3D-VCD,用于缓解多模态大模型在三维环境中的幻觉问题。该方法通过对物体类别、空间坐标及几何范围施加语义与几何扰动构建扭曲的3D场景图,通过对比原始与扭曲场景的预测差异,抑制受语言先验驱动而非场景证据支持的不可靠token。在3D-POPE和HEAL基准测试中,该方法无需重新训练即显著提升了具身智能体的基础推理能力。
ReconPhys 是首个可从单目视频联合重建几何、外观与物理属性的前馈框架。该方法采用双分支架构与自监督训练策略,无需真实物理标签即可实现端到端推理。在合成数据集测试中,其未来预测 PSNR 达到 21.64,显著优于现有优化基线的 13.27;Chamfer Distance 从 0.349 降至 0.004。关键突破在于推理速度:仅需不到 1 秒即可完成重建,而传统方法需耗时数小时,为机器人与图形学领域快速生成仿真就绪资产提供了新方案。
CaP-X开源具身智能系统,让大模型智能体通过机械臂与人形机器人进入物理世界。系统整合SAM3、Molmo等感知API与IK求解器、抓取规划等控制接口,可自动合成技能库。研究发布CaP-Gym基准(187项操作任务)与CaP-Bench(评测12个前沿模型),提出零样本框架CaP-Agent0及强化学习方案CaP-RL,后者仅用50次迭代即将7B模型成功率从20%提升至72%。该技术由曾开发Minecraft智能体Voyager的团队推出。
视觉-语言-动作模型在构建通用机器人时面临二维图像预测与三维动作预测不对齐的困境,且视觉与动作耦合的训练方式限制了模型从大规模无动作网络视频中学习。为此,研究提出DeFI框架,将视觉前向动力学与逆向动力学预训练解耦,分别利用不同数据源。该框架包含通用前向动力学模型,通过多样人类与机器人视频预训练以进行未来预测;以及通用逆向动力学模型,通过自监督学习从无标注视频转换中推断潜在动作。两者随后集成至统一架构,在下游任务中进行端到端微调。实验表明,DeFI在CALVIN基准上取得平均任务长度4.51,在SimplerEnv-Fractal基准上获得51.2%的成功率,在真实世界部署中达到81.3%的成功率,显著超越现有方法。
Google DeepMind 🤝 Agile Robots Our new research partnership will integrate the Gemini foundation models with their hard...
Our recent findings on World Action Models (WAMs): the core advantage of WAMs is not test-time "imagination" of futures,...
Introducing EgoVerse: an ecosystem for robot learning from egocentric human data. Built and tested by 4 research labs + ...
🙌 Andrej Karpathy's lab has received the first DGX Station GB300 -- a Dell Pro Max with GB300. 💚 We can't wait to see ...
MaxClaw 在 Skill 生成器中预置了基于对话生成并发布技能的流程,用户仅需描述想法即可自动梳理、调优、打包并上传至 OpenClaw 开源社区。MaxClaw 已最新内嵌企业微信和微博官方接口,通过简单对话即可完成接入。目前 MaxClaw 已支持飞书、钉钉、企业微信、WhatsApp、Telegram 等主流 IM 工具。MiniMax 将在 3 月 12 日至 14 日的 AWE 2026 上展示全模态大模型与数十款 AI 智能硬件生态产品。
Advanced Machine Intelligence (AMI) is building a new breed of AI systems that understand the world, have persistent mem...
Advanced Machine Intelligence (AMI) is building a new breed of AI systems that understand the world, have persistent mem...
Hugging Face 发布了 LeRobot v0.5.0 版本。该版本在数据集、模型、任务和社区四个维度上进行了全面扩展。具体包括:引入了新的现实世界和模拟数据集,推出了支持多任务学习的模型,并扩展了任务范围至移动操作和双臂协调。社区方面,提供了更易用的库、演示应用和教学资源。此次更新的核心目标是降低机器人技术的应用门槛,推动其民主化发展。
NXP在Hugging Face发布技术博客,详细介绍了将视觉语言动作模型应用于嵌入式机器人系统的完整流程。核心工作包括构建真实世界的机器人交互数据集,对VLA模型进行针对性微调,以及实施一系列设备端优化以实现高效部署。该方案旨在解决大型模型在资源受限的嵌入式硬件上运行的挑战,推动机器人AI在边缘端的实际应用。
Project Solaris提出世界建模的本质在于全局共享状态而非局部像素渲染,推出基于Minecraft的多人在线视频世界模型。该系统突破单智能体视角局限,支持任意数量智能体随时介入交互,实现持久化世界状态演化。核心包含三大组件:Solaris Engine多人数据收集系统、基于DiT架构的Solaris Model(采用新型内存高效自强制设计,训练于1260万帧协调游戏数据)、以及使用VLM评判的Solaris Eval评估体系。这一范式转变为构建神经MMORPG服务器奠定基础。
📢Current world models aren't really modeling the world; they're modeling one agent's view of it. Partial observations ≠...
研究团队提出EgoScale方法,基于20,000小时第一人称人类视频预训练GR00T N1.5,仅用4小时机器人数据即可掌握组装模型车、操作注射器等高灵巧度任务,性能较从头训练提升54%。研究发现人类视频量与动作预测损失呈对数线性缩放关系(R²=0.998)。该方法利用22-DoF手部与人类的运动学相似性,无需复杂迁移算法即可重定向动作。策略可跨硬件迁移至Unitree G1(7-DoF),性能提升30%以上,且仅需单个示教即可学习新任务。
关联讨论 1 条X:Jim Fan (@DrJimFan)SONIC是一个4200万参数的Transformer模型(规模仅半个GPT-1),通过1亿+动作捕捉帧和50万+并行机器人在NVIDIA Isaac Lab中训练,以密集帧级监督替代手工奖励函数。训练3天后零样本迁移至真实G1机器人,在50种动作序列上达100%成功率。单一策略支持VR遥操作、视频动捕、文本指令、音乐响应及VLA模型控制。项目已完全开源。
We're excited to introduce the Waymo World Model-a frontier generative mode for large-scale, hyper-realistic autonomous ...
生数科技与清华大学联合开源统一世界模型Motus,该模型在性能上全面超越Pi0.5,提升幅度达40%。
the divergence of opinion in how robotics plays out is one of the biggest money making (and career making) opportunities...
团队发布DreamZero,首个基于世界模型骨干的World Action Model (WAM)。该模型突破传统Vision-Language-Action范式,通过像素级世界模型实现零样本开放世界提示能力,可执行未训练过的新任务。研究发现WAM依赖多样化数据而非重复演示,并以像素作为跨具身的通用桥梁,实现robot2robot和human2robot知识迁移。仅需55条轨迹(约30分钟遥操作)即可适应全新硬件,验证世界模型作为Physical AI下一代基础的可行性。
作者指出,AI预训练正经历从“下一个词预测”到“世界建模”的根本性范式转变。世界模型的核心是预测给定行动后的下一个物理状态序列,本质上是可学习的物理模拟器,并将视觉置于首位。相比之下,当前主流的视觉语言模型本质是语言优先,视觉是次要输入。生物智能中视觉处理占据皮层计算的主导地位,是连接大脑、动作与物理世界的高带宽通道。作者以猿类为例,证明强大的物理智能可独立于高级语言存在。他预测,2026年大型世界模型将为机器人技术和多模态AI奠定真正基础,而YouTube等平台的海量视觉数据将远超文本规模,推动这一新范式发展。
NVIDIA在Hugging Face上发布了Cosmos Reason 2模型,旨在提升物理AI系统的推理能力。该模型通过改进的推理架构,使AI能更准确地理解和预测物理世界的动态与交互,核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展,使AI在现实环境中的决策更可靠、更符合物理规律。
NVIDIA 推出 DGX Spark 平台与 Reachy Mini 机器人,旨在通过开源框架降低智能体开发门槛。该组合将大语言模型与物理执行器结合,使 AI 智能体能完成复杂任务。DGX Spark 提供分布式训练基础设施,Reachy Mini 则提供高精度七自由度机械臂硬件,共同推动具身智能发展。
Runway率先在NVIDIA Rubin平台部署视频生成模型Gen-4.5与世界模型GWM-1。Gen-4.5在一天内从Hopper迁移至Vera Rubin NVL72,展现平台后向兼容性与生产就绪能力。Rubin单GPU提供50 PF推理算力,可加速实时长视频生成。GWM-1作为Runway首个通用世界模型家族,支持物理感知机器人训练、可探索虚拟世界及交互式化身,推动AI从文本理解向物理世界模拟演进。
硬件方面,Optimus等虽工程精湛,但可靠性不足严重限制软件迭代,且维护成本高昂。基准测试领域仍处混乱,缺乏统一的硬件平台、任务定义和评分标准,cherry-picking现象普遍,可复现性堪忧。VLA(Vision-Language-Action)方法基于VLM存在本质缺陷:VLM为视觉问答优化,参数侧重语言知识而非物理理解,且视觉编码器丢弃低层细节,不利于精细操作。作者认为视频世界模型是更优的预训练目标。
作者虽晚购特斯拉却率先体验FSD v14,认为这是首个通过"物理图灵测试"的AI系统:疲惫下班后只需按下按钮放松休息,已无法分辨是神经网络还是人类在驾驶。尽管深知机器人学习原理,方向盘自动转动时的流畅表现仍令人震撼。这项技术正从超现实体验转变为日常习惯,最终如智能手机般不可或缺。这种对"神级技术"的深度依赖,正在从根本上重塑人类行为模式。
Along for the ride in unsupervised FSD testing
关联讨论 1 条X:Jim Fan (@DrJimFan)GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。
字节跳动 Seed 团队发布 GR-RL,采用离线数据筛选结合在线真机微调的强化学习框架,突破 VLA 模型长时程精细操作瓶颈,首次实现机器人连续穿鞋带。相比前作 GR-3,成功率从 45.7% 提升至 83.3%,减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据,并在隐空间探索优化,解决模仿学习的数据次优性与执行错位问题,模型涌现出自纠错与场景调整能力。