机器人行为克隆中,人类演示数据固有的高频噪声(如抖动和停顿)会被基于扩散模型的策略继承并放大。为此,研究提出了频率引导算子(FGO)。该算子在扩散策略的生成过程中,引导噪声样本依次通过频带逐步扩展的中间子频率流形,从而实现频域上的隐式操控与平滑动作生成。在5个基准的15项机器人操作任务上验证,该方法显著提升了动作平滑度和时间一致性。
机器人行为克隆中,人类演示数据固有的高频噪声(如抖动和停顿)会被基于扩散模型的策略继承并放大。为此,研究提出了频率引导算子(FGO)。该算子在扩散策略的生成过程中,引导噪声样本依次通过频带逐步扩展的中间子频率流形,从而实现频域上的隐式操控与平滑动作生成。在5个基准的15项机器人操作任务上验证,该方法显著提升了动作平滑度和时间一致性。
Hugging Face 推出一款售价为 $2,500 的双足机器人项目,旨在为构建者和研究人员提供支持。该项目的核心设计为人形腿部,并且其部件支持可3D打印。
由伯克利和斯坦福研究人员创立的初创公司 Human Archive,正在印度支付零工工人工资,让他们佩戴装有摄像头的帽子和传感器设备,以收集 AI 和机器人实验室竞相获取的现实世界物理训练数据。
百度智能云发布具身智能Ego-Centric采集解决方案,以轻量化数采套件(120FPS、150°视场、毫米级定位、毫秒级同步)实现低门槛第一视角数据采集;首创无本体设计,通过RGB视频到三维手部姿态估计与动作重定向,达成毫米级机械臂轨迹映射。方案配备六相机真值评估体系、三层数据质检机制及智能化数据管理平台,覆盖采、标、管、仿、训、测全栈能力。已服务智元机器人、星海图等超30家重点企业,并支持北京、上海、浙江、四川等国家创新中心。
自主AI系统正从软件环境转向仓库、配送网络和公共空间等物理领域。这引发了对现有AI规则是否涵盖此类物理环境系统的关注,因为当前多数治理框架主要聚焦于在线伤害和模型输出,例如偏见、虚假信息及有害内容。
One engineering challenge in dexterous Robot hands is balancing strength and speed. Here a SharpaWave performing rapid h...
国内首台鲜食蚕豆采收机器人由农业农村部南京农业机械化研究所联合江苏岚江智能科技有限公司等单位研发,在江苏南通完成田间演示。该机器人搭载多目视觉系统,可识别复杂田间环境中的成熟豆荚,并利用力觉反馈控制技术实现低损采摘,采收成功率超过90%。该装备填补了国内鲜食豆类智能化采收技术空白。
摩根士丹利研报指出,中国在人形机器人领域正复制电动车产业的崛起路径。2025年全球出货约1.3万至1.6万台人形机器人,其中约90%来自中国制造商。2024-2025年是人形机器人从实验室走向现实应用的拐点,早期订单中超20亿元来自国有企业。预计2026年中国人形机器人年销量将翻倍至约2.8万台,2030年其年化运行规模将从1.2万台提升至26万台。
TriSplat是一种前馈式3D场景重建网络,采用定向三角形基元表示场景。它能直接从稀疏视角图像,通过一次前向传播生成可用于仿真的网格场景。模型预测局部3D点图、三角形属性、相机位姿,并由点图构建法线以稳定三角形参数化。在RealEstate10K和DL3DV数据集上的实验表明,其几何保真度优于基于高斯的前馈基线,同时渲染质量具有竞争力。输出的表面三角形可直接被物理引擎和标准渲染管线使用,无需额外转换。
海尔推出全球最轻AI运动外骨骼机器人W3,采用全碳纤维和钛合金设计,机身重量仅1.75kg。该产品搭载AI步态算法3.0,可智能适配12种日常运动与地形场景,单腿最大助力16N·m,减负约5kg,帮助用户体能消耗降低最多37%。
法拉第未来与北美K12教育集团红杉教育签署23台FF EAI机器人销售合同,为该品牌目前最大的人形及仿生机器人订单。双方将围绕K12机器人课程开发、教学及培训等方向合作。FF表示其开发者平台六大工具将从本月底开始陆续上线,数据工厂预计6月完成首批真机数据采集。公司设定了2026年交付1000+机器人的目标,重点聚焦家庭教育场景。
GE-Sim 2.0是一个用于机器人操作的闭环视频世界模拟器。它基于动作条件视频生成框架,并使用数千小时涵盖遥操作与接触交互等真实世界数据进行重新训练,提升了动作跟随与轨迹覆盖能力。其核心新增三个模块:从视频潜变量解码本体感受状态的“状态专家”;为生成轨迹评分并提供成功信号与奖励的“世界评判”;以及能实现快速轨迹生成的加速框架。该模型仅2B参数,在WorldArena排行榜上位列第一,优于专用模型与闭源生成器,其训练出的策略能转化为实际世界性能提升。
PEAM是在Minecraft中提出的智能体记忆框架,它将记忆从推理时检索转变为通过经验内化的参数化技能。框架将用于开放式推理的慢速大语言模型与用于快速技能执行的参数模块相结合。该快速模块采用多模态Mixture-of-Experts LoRA架构,并配备按类别物理隔离的适配器,以实现无灾难性遗忘的参数级持续学习。框架将失败视为首要训练信号,通过行为克隆与对比目标联合学习失败-纠正轨迹对,使智能体不仅学习成功方案,还理解纠正与失败的区别。为控制整合过程,PEAM引入了参数化价值评分和无尺度自触发整合机制,使智能体能够自我进化,无需任务特定阈值即可决定整合时机。实验表明,该框架提升了长期任务性能,缓解了技能遗忘,并提升了参数化记忆相对于检索方法的效率。
彭志辉(稚晖君)当选上纬新材董事长。他是智元机器人 CTO,此次与田华、周斌等四人共同进入董事会,五人均为智元机器人核心团队成员。
X Square Robot正将其下一代家庭机器人投入真实家庭环境进行测试。该机器人基于WALL-B世界模型运行,该模型旨在连接视觉、语言、触觉、动作和物理预测,以适应家庭中非受控的复杂场景。此举旨在克服机器人领域的“莫拉维克悖论”(即对人类轻松完成的家务任务对机器人而言异常困难)。官方声明指出,这些机器人在发布会后正逐步进入家庭,它们仍在学习阶段,动作可能缓慢或笨拙,但每个家庭环境都将帮助它们更好地理解世界。
Meet the world at home, where life happens and bots become family 35 days ago, at our "Born to Bot, Bot to Family" launc...
Figure AI 公司的 Figure 03 人形机器人完成了长达 200 小时的全自动作业直播,期间累计分拣近 25 万个包裹,全程未出现任何硬件故障。三台搭载 Helix-02 人工智能系统的机器人通过自主轮换调度实现了不间断运行,单机电池续航约 4 小时。其分拣速度已基本追平人类(约3秒/包裹)。整场作业全程直播,展示了机器人在复杂环境中自主行走、平衡及操作的能力。
上交所将于2026年6月1日审议宇树科技科创板IPO申请。公司2025年营收约17亿元,主营业务毛利率达60.13%,较2023年提升近16个百分点,核心部组件自研自产率超90%。2026年第一季度营收4.23亿元,同比增长68.49%,但扣非净利润同比降52.55%。本次拟发行不低于4044.64万股,募资42.02亿元。
宇树科技(Unitree)发布其WVLA 2.0模型在真实会议室进行的乱局清理测试视频。该测试为单次拍摄、全程无剪辑,机器人需在桌椅杂乱、物品随意摆放、且有人走动等强外部干扰下,全程自主完成识别、分类、清理和摆放等多任务。测试旨在展示机器人从实验室走向复杂现实世界的能力,与行业中常见的“实验室完美环境”演示形成对比。
Conference Room Mess Cleanup Test: Unitree WVLA 2.0 Model🎉 This video was recorded in a single take. Multi-task, fully ...
逐际动力近日发布LimX Luna人形机器人,官方指导价29.8万元,前100台优惠价为25.8万元。该机器人身高160cm,全身拥有27个自由度,搭载第二代SYS 0运控引擎。其续航较上一代提升150%,并支持有线供电24小时不间断运行。功能上支持多模态交互、全链路一键急停、无代码操控(通过自然语言生成任务),以及最多200台机器人的智能群控协同。
立讯精密公告称,在人形机器人领域,公司常熟工厂已具备相关能力,可配合核心客户同步开发机器人专用零部件。商业航天业务方面,公司目前已供应部分部件,但规模不大;海外客户普遍对地缘政治因素较为敏感,产业规模化仍需时间。作为大规模制造企业,公司在行业尚不成熟时不会进行大规模投入,预计机器人应用将首先出现在室内商业场景。
特斯拉FSD系统基于人类驾驶数据训练,现可模仿真人驾驶习惯。当发现高速公路中央隔离带停放警车时,系统会主动减速、变道并汇入车流,而非以每小时70英里(约112.7公里)限速驶过。该行为适用于所有停放车辆,是端到端神经网络学习的结果。
英伟达计划在新加坡设立AI研究实验室,聚焦具身智能领域。该实验室旨在提升AI模型训练效率并降低基础设施成本,以推动自动化与机器人技术发展。英伟达创始人黄仁勋表示,AI与现实世界的交互是下一个前沿。
Fast-dDrive是一种块扩散视觉语言-动作模型,旨在平衡自动驾驶中的高保真规划与高效推理。它在语义单元内进行双向精炼,同时严格保持跨单元的因果顺序。该模型冻结结构token作为脚手架,并采用分段感知训练,优先保障安全关键规划。通过脚手架推测解码实现接近自回归模型的质量与更高吞吐量。其测试时扩展方案从单个共享前缀KV缓存分叉多个随机轨迹并取平均,以低成本有效抑制预测方差。实验表明,Fast-dDrive在WOD-E2E测试集上取得了SOTA的ADE@3s与ADE@5s成绩,在nuScenes上将平均L2误差降至0.32米(提升22%),集成SGLang后较自回归基线实现12倍吞吐量提升。
视觉-语言-动作(VLA)模型常以预训练视觉-语言模型(VLM)为骨干,但何种VLM表征适合作为初始化尚不明确。本研究将其视为表征设计问题,沿三个轴实验:具身VQA监督、参数更新策略和机器人数据预训练。发现原始预训练VLM表征是动作性能关键。具身VQA适应收益不一致,取决于下游瓶颈。LoRA比全量微调更可靠,表明过度重塑表征会削弱效果。机器人数据预训练可进一步提升,最优变体来自基于LoRA的分阶段训练。结论是有效适应应在注入动作相关信号的同时,保留预训练VLM中对动作学习有用的表征。
5月23日至24日,首届中学生人形机器人足球赛总决赛在北京清华附中举行,中央民族大学附属中学“好耶战队”夺冠。作为国内首个面向中学生的同类赛事,预选赛吸引了京内外44支队伍、逾420名选手参与,最终16支队伍进入总决赛。比赛采用三级递进赛制,优胜队伍将获得2026年世界人形机器人运动会参赛资格。所有机器人均基于人工智能实现完全自主决策,无需人工遥控,需独立完成识别、规划与协同等任务。
李飞飞重新定义机器人学,强调其核心是“空间智能”——即机器在三维物理空间中感知、理解与行动的能力。这一能力使机器人能执行任务并实现人机协作。3D生成与重建技术正打破人类仅能体验单一物理世界的局限,创造出用于训练、创造、旅行与社交的无限数字多元宇宙。未来,人们将以“多元宇宙”的方式生活,极大拓展人类想象与交互的边界。
For all of history, humanity shared one 3D world. @theworldlabs co-founder @drfeifei says spatial intelligence now lets ...
深开鸿于5月24日发布了全国首个基于开源鸿蒙的机器人操作系统M-Robots OS 2.0。该系统以开源鸿蒙为核心底座,具备多机实时协同、AI原生等六大核心能力。2.0版本实现混合部署与硬实时响应,基于自研M-DDS技术将本体间音视频时延大幅降低至4毫秒,并兼容ROS等主流中间件,使应用迁移成本降低80%,可支持从轻型到大型各类机器人的灵活部署与集群作业。
荣耀Robot Phone真机在高通骁友会五周年派对上首次公开亮相,作为全球首款机器人手机。该机顶部集成三轴云台相机,搭载2亿像素传感器,支持AI物体追踪、视频剪辑与实时感知补偿功能,定位为新形态具身智能AI终端。外观为银灰色机身搭配拉丝边框,背面印有“α”Logo,此前已在MWC 2026展会展示。据悉,该机将于2026年第三季度正式上市。
WorldCraft将交互式视频世界模型从相机导航扩展到物体级轨迹操作。用户点击并绘制路径后,模型生成未来帧,使选定物体沿轨迹运动同时相机继续导航。其核心包括:Normalized World Trajectory (NWT) 在相机不变的世界坐标系表示用户运动并动态重投影;Spatial-Pathway LoRA (SP-LoRA) 注入世界空间信号以增加物体操作能力;Trajectory-Anchored State Persistence (TASP) 将世界轨迹作为持久状态刷新自回归记忆。实验表明WorldCraft实现精确物体控制,保持相机保真度,并维持跨长自回归滚动的物体状态。