特斯拉近期在北京、上海、天津等9个城市公开招聘智驾测试(实车测试)技师,该职位隶属于研发-自动驾驶Autopilot部门。岗位要求候选人在公共道路、测试跑道等场景对车辆进行实地测试,需具备3年以上驾龄、熟悉ADAS/Autopilot系统、掌握车辆应急处理能力,并拥有出色的英语沟通水平。此举被视为特斯拉为推动智能辅助驾驶系统在中国早日落地而开展的人才储备行动。
特斯拉近期在北京、上海、天津等9个城市公开招聘智驾测试(实车测试)技师,该职位隶属于研发-自动驾驶Autopilot部门。岗位要求候选人在公共道路、测试跑道等场景对车辆进行实地测试,需具备3年以上驾龄、熟悉ADAS/Autopilot系统、掌握车辆应急处理能力,并拥有出色的英语沟通水平。此举被视为特斯拉为推动智能辅助驾驶系统在中国早日落地而开展的人才储备行动。
宇树科技于5月19日发布一镜到底演示视频,展示了其G1人形机器人通过语音指令自主实时生成任意动作的能力。该技术突破在于无需预设动作,由AI系统根据语音直接驱动机器人实时生成动作,实现了真正的语音控制与动作生成闭环。演示过程中存在少量延迟,动作流畅度有待优化。G1机器人于2024年发布,具备23至43个关节电机,体重约35kg,身高约127cm,并配备力控灵巧手。
5月16日,火箭院“智行”膝关节智能助行外骨骼机器人在北京千灵山完成首次实地测试,20位志愿者参与体验。该产品由北京精密机电控制设备研究所自主研发,总重仅2.6千克,可在30秒内穿戴,关节处提供最大7公斤主动动力,续航达4小时。测试数据显示,上坡时能降低使用者约15%的体能消耗,下坡时可减少膝关节冲击力约30%。具备上坡助力、下山缓冲和膝关节防护三大核心功能,旨在为中老年人、户外运动爱好者及康复期患者提供行动辅助。
Figure AI安排旗下人形机器人与一名人类实习生进行10小时分拣包裹对决。最终,人类实习生以12924件的总量,仅以192件的微弱优势险胜机器人。数据显示,人类平均单件用时2.79秒,机器人用时2.83秒。此前,该公司已连续直播机器人分拣作业,CEO宣称这将是人类最后一次赢得此类比拼。但专家指出,目前机器人因精准度问题,尚无法投入商用,相关技术仍有很长的路要走。
地平线机器人实验室发布了其开源的人形机器人全身控制模型 HoloMotion-1。这是一个拥有 4 亿参数的“小脑”大模型,通过 MoE 稀疏激活与 KV-cache 推理机制,在端侧实现了约 300FPS 的实时推理能力。该模型利用互联网视频、光学动捕、VR 遥操作等多种来源的动作数据进行训练,并在真实机器人上成功展示了舞蹈、爬行、健身、搬箱子等复杂动作的零样本迁移能力。相关代码与技术报告已公开。
特斯拉计划为其 Robotaxi 应用推出26.4.5版本重大更新,以应对大规模投放无方向盘 Cybercab 无人出租车的需求。本次更新核心包括:新增远程调度员语音通话功能,乘客可实时联系后台;上线主动远程协助,系统能预判需求并提供建议。针对无方向盘车型,新增了限速2英里/小时以内的人工临时接管与远程启动功能,用于低速维保或移车等场景。此外,约车派单功能升级,支持柔性派单与多目的地行程,并实现手机与车机的深度联动,支持远程调节车内设置。
波士顿动力于5月18日发布视频,展示其Atlas人形机器人通过AI驱动完成搬运任务。机器人能够协调全身抬起一台冰箱,准确走到桌旁并将物体放置于桌上,过程中上半身完成了180度旋转。官方指出,Atlas利用强化学习模拟训练,以适应现实环境中物体的不同位置、质量和抓力。该项目旨在将Atlas打造为通用的实体工作工具,此次演示标志着其在硬件与行为能力上的重要进展。
本文提出Code-as-Room,一个基于多模态大语言模型的智能体框架,旨在从俯视图参考图像生成精确且稳定的3D室内场景。该框架将房间表示为可执行的Blender代码,通过多阶段流程解析图像中的空间关系,并合成为几何、材质与光照代码。为克服现有多智能体框架的上下文遗忘问题,引入了跨阶段记忆模块。此外,研究还建立了专用的代码式3D房间合成基准测试,实验结果证明了所提执行框架的有效性。
研究者提出了WorldString,一种神经架构,能够直接从点云或RGB-D视频流中学习,从而建模真实世界物体的状态流形。该架构旨在作为物理世界模型的基础构建模块,充当通用的数字孪生体。其关键特点是完全可微分,这使其能够与策略学习和神经动力学模型进行无缝集成。WorldString为当前主要通过视频生成或动态场景重建来处理物体行动状态的方法,提供了一种统一且基于原理的建模新思路。
本文针对现有视觉语言模型智能体依赖文本记忆与外部教师模型的局限,提出了AtlasVA框架。该框架无需教师监督,将记忆组织为三层互补的视觉结构:空间热力图、视觉范例和符号文本技能。系统能从轨迹统计中自进化出危险图谱与亲和图谱,并将其转化为基于势函数的内在奖励,以优化强化学习。在索玛方块、冰湖、3D导航及机械臂操作等测试中,AtlasVA在空间密集型任务上显著优于文本记忆基线与同类模型。
视觉-语言-动作模型在面对训练数据未涵盖的视觉干扰时性能显著下降。为此,本文提出一种基于信息论的轻量级适配器模块(IB-Adapter),能从视觉输入中选择性过滤噪声,且无需额外数据或增强策略。该适配器以少于1000万的额外参数,平均提升性能30%。实验表明,即使骨干网络参数仅为0.5B(较现有7B模型小14倍),StableVLA在合成与真实视觉损坏场景下的长时程任务中,仍能达到与大模型相当的鲁棒性,并超越OpenPi基线。
小米米家扫拖机器人 6 Max 于 2026 年 3 月 19 日开售。京东 618 大促期间,其水箱版通过叠加 8.7 折优惠券、国补立减、以旧换新补贴等多重优惠后,到手价由原价 5168 元降至 3827.94 元新低。该产品具备 6cm 仿生机械足越障能力,吸力达 35000Pa,并搭载 AI 三摄全景识别避障系统,支持小米澎湃智联。
5月18日,上海企业矩阵超智发布了全能旗舰人形机器人MATRIX-3及工厂、模型等一整套生态。该机器人身高170cm、体重65kg,采用英伟达AGX算力实现端侧AI推理,搭载峰值推力5000N的自研直线关节,具备半吨级负载能力。其配套的MFH超智工厂一期规划年产能达1万台。MATRIX-3标准版售价58万元起,PRO版售价68万元,均已开启预订。
智元WITA(硅光动语)大模型近日完成备案,成为全国首个合规的具身智能交互大模型。该模型主要用于人形机器人交互,能实现自然拟人的情感交互,部署于导览、零售等场景。智元计划于今年三季度推出行业首个机器人原生端到端全模态交互大模型WITA Omni 1.0,将交互时延压缩至500ms以内,支持连续交流与打断纠正。公司还发布了“358宏图计划”,目标在2027年实现超100亿元营收,2030年达1000亿元。
该研究指出,Muon优化器通过Newton-Schulz迭代进行统一谱白化,虽在LLM预训练中有效,但在两个新场景存在根本局限:在跨模态视觉-语言-动作训练中,低秩动作梯度会放大噪声尾部方向;在带可验证奖励的强化学习中,低信噪比梯度使得白化过程不稳定。为此,研究提出Pion作为替代方案,采用两阶段提升-抑制机制,形成高通谱效应,将主导奇异值锚定于1而抑制噪声分量,并支持按注意力头独立更新。实验表明,在LIBERO的VLA任务中,Pion在1500步训练后达到100%成功率,优于Muon的97.0%和AdamW的32.2%。在基于通义千问(Qwen3)的RLVR后训练中,Pion在MATH和GSM8K上优于AdamW,而Muon在此场景下会崩溃。
传统视觉惯性里程计依赖高像素相机,资源消耗大。本研究提出了一种极简方案,仅需四个向下感知的光电二极管(通过光学Gabor掩膜提取速度信息)与一个IMU,即可为差速驱动机器人提供鲁棒的平面运动估计。通过物理仿真器联合优化掩膜参数与时序卷积网络,该模型能从四个光电二极管的测量中解算速度,并结合IMU的角速度输出连续轨迹。原型传感器在多样化的室内外地形验证中,无需真实场景微调即可紧密跟踪参考真值,证明了极简传感方案能够实现高效、精准的平面里程计。
NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。
小鹏汽车首台前装量产的Robotaxi于广州工厂下线,计划未来数月内在广州启动示范运营。该车型基于旗舰平台GX打造,搭载4颗自研图灵AI芯片,算力达3000TOPS,为全球车端最高,并配备第二代VLA大模型以实现L4级自动驾驶。今年1月,小鹏已获广州智能网联汽车道路测试许可;3月成立Robotaxi业务部。车内提供隐私玻璃、重力座椅及后排娱乐屏等智能座舱体验。
大疆推出第二代扫地机器人ROMO 2系列,包含P2透明旗舰版、A2进阶版及S V2标准版,售价区间4299元至6499元。该系列在核心性能上全面升级,吸力从初代的25000Pa大幅提升至36000Pa,涨幅达44%,并搭载123°超大外摆机械臂。产品设计在延续透明基站风格的基础上,将机身调整为半透明纯白,更贴近家居环境。此外,水箱版机型支持后续单独购买套件升级自动上下水功能。
法拉第未来近期完成了7000万美元机构投资者募资,并启动五大体系变革。公司宣布升级为物理AI生态公司,专注于EAI人形机器人与EAI汽车机器人两大产品引擎。贾跃亭设定了使公司市值重回2021年水平、在2027年第四季度实现经营性现金流为正等目标,并承诺在两年内实现过去十二年未完成的梦想。此次融资缓解了公司近端资金压力,使其融资决策得以从流动性驱动转向更注重长期股东价值的资本结构驱动。
研究提出了ESI-Bench基准,用于评估具身空间智能。该基准基于OmniGibson平台,涵盖10个任务类别,要求智能体主动决策以调动感知、移动和操作能力,在交互中收集证据。实验表明,主动探索显著优于被动观察,但随机多视角采集常引入噪声。研究发现,模型失败主因是“动作盲目”,即不佳的动作选择导致观测质量低下并引发连锁错误。尽管显式3D表征对深度推理有稳定作用,但不完美的3D表示会扭曲空间关系,效果反而差于2D基线。人类研究进一步揭示,与人类基于证据修正信念不同,模型倾向于过早做出高置信度决策,暴露了仅靠改进感知或交互无法弥合的元认知差距。
特斯拉已向美国和加拿大用户推送FSD V14.3.3(监督版)软件更新。本次更新的重点之一是优化智能召唤功能,其最高行驶速度从6英里/小时提升至8英里/小时(约13公里/小时),提升了在停车场等密集场景的实用性。在核心系统层面,引入了强化学习模块优化决策,并升级视觉编码器以增强空间感知和复杂路况识别能力。此外,系统反应速度提升20%,减少了无故偏道、近距离跟车等行为,并加强了对异形障碍物的识别。
World Action Models 旨在解决当前机器人AI的一个根本弱点:传统模型仅学习动作与摄像头图像的匹配,而无法理解动作如何导致世界状态变化。一项新研究梳理了约百篇论文,归纳出两种架构路径。其关键优势在于,这些模型能从不含机器人动作标签的日常视频中学习,而此类数据对传统机器人AI几乎无用。这使机器人具备了在行动前模拟后果的能力。
荣耀宣布肯尼亚长跑名将萨巴斯蒂安·萨维出任“荣耀全球首席跑步官”。同日,其自研机器人“闪电”走进南京大学参与活动,萨维通过视频向其隔空致敬。他惊叹于中国机器人技术的发展速度,指出人类将全马推进至2小时内用了118年,而立项仅7个月的“闪电”已刷新人类半马纪录。该机器人此前在北京亦庄人形机器人半程马拉松赛中以50分26秒夺冠,并带领荣耀机器人包揽赛事前六名,首次打破人类半马世界纪录。萨维期待未来能与“闪电”同场竞技。
国家人工智能应用中试基地(具身智能)在杭州揭牌,旨在抢占全球科技竞争战略制高点。该基地聚焦技术发展、成果转化和生态构建,致力于打造自主可控、安全可靠的具身智能基础设施与产业生态。摩尔线程作为共建合伙人及产业委员会委员,将提供一站式国产算力方案,并已与基地成立“具身智能算力与仿真联合实验室”,以加速具身智能的规模化落地。具身智能强调智能体通过身体与环境的交互实现自主学习,是人工智能发展的前沿领域。
特斯拉向美国监管机构解封了17份Robotaxi碰撞报告,首次披露2025年7月至2026年3月在奥斯汀测试期间的详细事故情况。报告显示,多数事故为特斯拉车辆被后车追尾,共导致13起财产损失和4起轻伤。但报告也揭示出两次因远程操作员失误导致的碰撞,以及FSD系统在转弯、倒车等场景下存在空间感知问题,发生了剐蹭障碍物的情况。此前特斯拉以商业机密为由涂黑报告,此次全面公开让外界得以审视其自动驾驶测试的真实安全表现。
国家人工智能应用中试基地(具身智能)5月16日在浙江杭州挂牌启用,为机器人提供国家级职业技能训练场。该基地是集场景体验、技术展示、研发合作、产业赋能于一体的综合性平台,旨在推动具身智能技术从实验室迈向现实应用。杭州市于5月1日施行首部具身智能机器人地方性法规,支持核心研发、平台建设和场景开放。目前杭州已集聚机器人产业相关企业700余家,2025年具身智能产业集群产值达1068亿元。
地平线创始人兼CEO余凯在轩辕汽车蓝皮书论坛上重申自动驾驶发展时间表:到2028年实现100%“脱手开”,驾驶员无需手握方向盘;2030年达到L4级“闭眼开”,特定场景下车辆完全自主;2035年实现L5级完全自动驾驶,车辆转变为“移动智能空间”。地平线已与全球超40家车企合作,其征程6系列芯片出货超百万片,HSD高阶智驾系统计划在2028年将城区平均接管里程提升至上万公里。
法拉第未来宣布完成2500万美元新融资,近两个月累计筹资达7000万美元。资金将用于加速其EAI战略实施,支持机器人战略第一阶段目标。公司已转型为物理AI公司,聚焦人形和仿生机器人及EAI汽车机器人,并将全年出货目标上调至1500台。此次融资缓解了公司近端资金压力,使其融资决策得以从流动性驱动转向资本结构驱动。随着SEC调查结束且未受处罚,以及贾跃亭团队回归,FF正将战略升级为“AI First”理念下的“五大转型”。
特斯拉正在美国内华达州拉斯维加斯附近建设一座约3345平方米的Cybercab专用洗车设施。该设施实为集清洁、充电与小规模维护于一体的高科技维护中心,专为未来Robotaxi自动驾驶出租车车队服务。项目已进入第二阶段改造,将建设完整洗车结构并升级电力系统。此类设施旨在实现车队运营的高度自动化,减少人工依赖。拉斯维加斯设施可能是首批同类枢纽,得州也有类似计划。
帕西尼(百亿估值独角兽)与百度智能云达成合作,双方将整合各自在机器人技术与云计算/AI能力上的优势,共同推动具身智能产业从技术研发到规模化落地的进程。
视觉-语言-行动模型因单帧观测训练范式而缺乏时序动态感知能力,在非平稳场景中性能严重下降。本研究提出一种免训练的推理时校正算子,可封装任何分块动作的VLA模型。该方案通过单一二次成本联合优化,分解出正交的步调与路径两个通道:前者沿规划方向压缩执行,后者施加正交空间偏移,共同吸收动作块窗口内的动态变化。在运动控制诊断基准MoveBench上的评估表明,该方法显著优于现有免训练封装器与动态自适应方法,在纯动态及动静混合环境中,将基础VLA模型的成功率绝对提升了28.8%和25.9%。
小鹏汽车董事长何小鹏透露,大众汽车在2023年7月投资前,曾购买小鹏车辆实测近50万公里并进行全面拆解,以进行极端审慎的技术尽调。随后大众斥资约7亿美元获得小鹏4.99%股权,双方签署技术合作协议,共同开发电子电气架构。按计划,自2026年起,大众在华纯电车型将搭载该架构,双方首款合作车型全尺寸纯电SUV“与众08”已量产预售。何小鹏还表示,小鹏集团去年研发投入约110亿元,其中相当比例用于AI,并预测L4级自动驾驶有望在2028年实现。
SANA-WM是一个26亿参数的高效开源世界模型,专为生成一分钟720p高清视频设计,具备精确的6自由度相机控制能力。其核心创新包括:混合线性注意力机制实现高效长上下文建模;双分支相机控制确保轨迹精准跟随;两阶段生成流程提升视频质量与一致性;以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练,在单GPU上即可生成60秒视频,其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中,其动作跟随准确性优于先前开源基线,并在保持相当画质的同时,吞吐量提升36倍。
机器人模仿数据常具多模态性,相似观测可能对应不同动作,导致现有基于单帧的视觉语言动作模型在部分可观测环境下产生动作块冲突和执行不稳定。为此,研究者提出 IntentVLA 框架,它通过编码近期视觉观测为紧凑的短时意图表示,并以此条件生成连贯的动作块,以解决歧义问题。同时,研究发布了 AliasBench 基准测试集,基于 RoboTwin2 构建,包含12项任务,专门隔离短时观测歧义进行评估。在 AliasBench、SimplerEnv、LIBERO 和 RoboCasa 等多个测试环境中,IntentVLA 显著提升了任务执行的稳定性,并超越了现有强视觉语言动作基线模型。
在2026轩辕汽车蓝皮书论坛上,小鹏汽车董事长何小鹏宣布公司更名为“小鹏集团”,以涵盖汽车与机器人深度融合的未来布局。他指出,汽车正演变为“物理世界+数字世界”的双重物种。何小鹏表示,在重构AI研发范式后,自动驾驶进化速度提升了6倍。他修正了自动驾驶时间表,认为2028年实现L4级软件能力的概率极高,而L5级自动驾驶的雏形有望在2030年左右出现。他强调,汽车产业竞争核心正从新能源化转向智能化与机器人化。
Figure AI人形机器人完成了一场持续33小时的快递分拣直播挑战,处理包裹数量超过4万个。机器人基于Helix 02模型以“完全自主”模式运行,任务包括将快递标签朝下摆放并送至传送带。尽管整体效率达到“人类性能水平”,直播中仍出现瑕疵,例如偶尔将包裹推落至传送带外。此次演示显示,多个机器人协同可大幅降低分拣站人力需求,仅需真人辅助检查遗漏包裹。机器人采用轮换机制以保障持续工作。
星动纪元与中国邮政合作,在广州邮区中心部署了人形机器人“星动M7”担任分拣员。该机器人能自主识别包裹位置,精准抓取并翻转包裹使面单朝上,协同自动化设备分拣至对应垛口。其作业效率已达人工的85%以上,最高每小时可处理1200件包裹。机器人搭载自研五指灵巧手和具身大脑,能持续学习场景数据,适应不同材质、规格的包裹分拣,并识别异常件,旨在替代高强度重复劳动,解放人力转向技术岗位。