MaxClaw 在 Skill 生成器中预置了基于对话生成并发布技能的流程,用户仅需描述想法即可自动梳理、调优、打包并上传至 OpenClaw 开源社区。MaxClaw 已最新内嵌企业微信和微博官方接口,通过简单对话即可完成接入。目前 MaxClaw 已支持飞书、钉钉、企业微信、WhatsApp、Telegram 等主流 IM 工具。MiniMax 将在 3 月 12 日至 14 日的 AWE 2026 上展示全模态大模型与数十款 AI 智能硬件生态产品。
MaxClaw 在 Skill 生成器中预置了基于对话生成并发布技能的流程,用户仅需描述想法即可自动梳理、调优、打包并上传至 OpenClaw 开源社区。MaxClaw 已最新内嵌企业微信和微博官方接口,通过简单对话即可完成接入。目前 MaxClaw 已支持飞书、钉钉、企业微信、WhatsApp、Telegram 等主流 IM 工具。MiniMax 将在 3 月 12 日至 14 日的 AWE 2026 上展示全模态大模型与数十款 AI 智能硬件生态产品。
Hugging Face 发布了 LeRobot v0.5.0 版本。该版本在数据集、模型、任务和社区四个维度上进行了全面扩展。具体包括:引入了新的现实世界和模拟数据集,推出了支持多任务学习的模型,并扩展了任务范围至移动操作和双臂协调。社区方面,提供了更易用的库、演示应用和教学资源。此次更新的核心目标是降低机器人技术的应用门槛,推动其民主化发展。
NXP在Hugging Face发布技术博客,详细介绍了将视觉语言动作模型应用于嵌入式机器人系统的完整流程。核心工作包括构建真实世界的机器人交互数据集,对VLA模型进行针对性微调,以及实施一系列设备端优化以实现高效部署。该方案旨在解决大型模型在资源受限的嵌入式硬件上运行的挑战,推动机器人AI在边缘端的实际应用。
生数科技与清华大学联合开源统一世界模型Motus,该模型在性能上全面超越Pi0.5,提升幅度达40%。
NVIDIA在Hugging Face上发布了Cosmos Reason 2模型,旨在提升物理AI系统的推理能力。该模型通过改进的推理架构,使AI能更准确地理解和预测物理世界的动态与交互,核心升级包括对复杂场景的多步推理、不确定性量化及时间序列数据的深度理解。这一进展将推动机器人、自动驾驶等领域的发展,使AI在现实环境中的决策更可靠、更符合物理规律。
NVIDIA 推出 DGX Spark 平台与 Reachy Mini 机器人,旨在通过开源框架降低智能体开发门槛。该组合将大语言模型与物理执行器结合,使 AI 智能体能完成复杂任务。DGX Spark 提供分布式训练基础设施,Reachy Mini 则提供高精度七自由度机械臂硬件,共同推动具身智能发展。
Runway率先在NVIDIA Rubin平台部署视频生成模型Gen-4.5与世界模型GWM-1。Gen-4.5在一天内从Hopper迁移至Vera Rubin NVL72,展现平台后向兼容性与生产就绪能力。Rubin单GPU提供50 PF推理算力,可加速实时长视频生成。GWM-1作为Runway首个通用世界模型家族,支持物理感知机器人训练、可探索虚拟世界及交互式化身,推动AI从文本理解向物理世界模拟演进。
GR-RL 框架通过多阶段训练将通用 VLA 策略转化为长程灵巧操作专家。针对精细任务中人类演示的次优性,利用离线 RL 的 Q 值过滤有效轨迹,结合形态对称增强与在线 RL 对齐部署行为。在自主系鞋带任务中实现 83.3% 成功率,首次完成需毫米级精度和长程推理的复杂操作。
字节跳动 Seed 团队发布 GR-RL,采用离线数据筛选结合在线真机微调的强化学习框架,突破 VLA 模型长时程精细操作瓶颈,首次实现机器人连续穿鞋带。相比前作 GR-3,成功率从 45.7% 提升至 83.3%,减少近 70% 失败。方案通过 Critic 价值判别器剔除次优演示数据,并在隐空间探索优化,解决模仿学习的数据次优性与执行错位问题,模型涌现出自纠错与场景调整能力。
AMD联合Hugging Face和Data Monsters举办AMD Open Robotics黑客松,首站将于2025年12月5日至7日在日本东京举行,第二站于12月12日至14日在法国巴黎举行。活动面向18岁以上开发者,需组成最多四人的团队,在三天内完成LeRobot开发环境学习与自主创新项目开发两个任务。比赛将提供SO-101机器人套件、搭载AMD Ryzen™ AI处理器的笔记本电脑以及AMD Developer Cloud上的AMD Instinct™ MI300X GPU。每座城市的前七名团队将获得奖励,冠军奖金为一万美元。评委将依据创意、难度、易用性和实用性对项目进行百分制评分。
Seed3D 1.0 基础模型支持从单张图像直接生成具备准确几何、对齐纹理与真实物理材质的 3D 资产,可直接集成至物理引擎用于机器人操作与仿真训练,无需复杂配置。该系统解决了现有世界仿真器在内容多样性与物理准确性之间的权衡难题,并支持将物体组合为连贯场景,实现可扩展的仿真就绪内容创作。
PEVA 模型实现基于全身动作的第一人称视频预测。该模型接收历史视频帧和描述 3D 姿态变化的动作指令,生成下一帧画面,支持原子动作合成、反事实场景模拟及长视频生成。针对具身智能体设计,模型处理 48+ 自由度的高维人体控制,解决第一人称视角下身体不可见、感知滞后于动作等挑战,为机器人规划与控制提供世界模型基础。
Gemini Robotics On-Device 推出高效端侧机器人模型,具备通用灵巧操作与快速任务适应能力,支持本地设备直接部署运行。
关联讨论 1 条Google DeepMind:Blog(RSS)研究团队在田纳西州纳什维尔附近的I-24高速公路部署了100辆由强化学习(RL)控制的自动驾驶汽车,通过实时抑制"走走停停"交通波来平滑拥堵并降低所有车辆的燃油消耗。实验证明仅需少量采用去中心化架构、基于标准雷达传感器的智能控制AV,即可显著提升道路通行效率并减少碳排放,为缓解高速公路拥堵提供了可扩展的技术方案。
Minetester 是一个基于开源游戏 Minetest 构建的完全开放强化学习(RL)环境。该项目概述了 Minetest 平台的技术架构及早期开发工作,为研究人员提供了一个代码完全开放、可自由修改的 AI 训练与测试平台,填补了现有 Minecraft 类 RL 环境在开放性方面的空白。