法拉第未来宣布完成2500万美元新融资,近两个月累计筹资达7000万美元。资金将用于加速其EAI战略实施,支持机器人战略第一阶段目标。公司已转型为物理AI公司,聚焦人形和仿生机器人及EAI汽车机器人,并将全年出货目标上调至1500台。此次融资缓解了公司近端资金压力,使其融资决策得以从流动性驱动转向资本结构驱动。随着SEC调查结束且未受处罚,以及贾跃亭团队回归,FF正将战略升级为“AI First”理念下的“五大转型”。
法拉第未来宣布完成2500万美元新融资,近两个月累计筹资达7000万美元。资金将用于加速其EAI战略实施,支持机器人战略第一阶段目标。公司已转型为物理AI公司,聚焦人形和仿生机器人及EAI汽车机器人,并将全年出货目标上调至1500台。此次融资缓解了公司近端资金压力,使其融资决策得以从流动性驱动转向资本结构驱动。随着SEC调查结束且未受处罚,以及贾跃亭团队回归,FF正将战略升级为“AI First”理念下的“五大转型”。
Spent some time this week looking at the economic impact of humanoid robots and its so much bigger than digital AI The n...
特斯拉正在美国内华达州拉斯维加斯附近建设一座约3345平方米的Cybercab专用洗车设施。该设施实为集清洁、充电与小规模维护于一体的高科技维护中心,专为未来Robotaxi自动驾驶出租车车队服务。项目已进入第二阶段改造,将建设完整洗车结构并升级电力系统。此类设施旨在实现车队运营的高度自动化,减少人工依赖。拉斯维加斯设施可能是首批同类枢纽,得州也有类似计划。
帕西尼(百亿估值独角兽)与百度智能云达成合作,双方将整合各自在机器人技术与云计算/AI能力上的优势,共同推动具身智能产业从技术研发到规模化落地的进程。
视觉-语言-行动模型因单帧观测训练范式而缺乏时序动态感知能力,在非平稳场景中性能严重下降。本研究提出一种免训练的推理时校正算子,可封装任何分块动作的VLA模型。该方案通过单一二次成本联合优化,分解出正交的步调与路径两个通道:前者沿规划方向压缩执行,后者施加正交空间偏移,共同吸收动作块窗口内的动态变化。在运动控制诊断基准MoveBench上的评估表明,该方法显著优于现有免训练封装器与动态自适应方法,在纯动态及动静混合环境中,将基础VLA模型的成功率绝对提升了28.8%和25.9%。
小鹏汽车董事长何小鹏透露,大众汽车在2023年7月投资前,曾购买小鹏车辆实测近50万公里并进行全面拆解,以进行极端审慎的技术尽调。随后大众斥资约7亿美元获得小鹏4.99%股权,双方签署技术合作协议,共同开发电子电气架构。按计划,自2026年起,大众在华纯电车型将搭载该架构,双方首款合作车型全尺寸纯电SUV“与众08”已量产预售。何小鹏还表示,小鹏集团去年研发投入约110亿元,其中相当比例用于AI,并预测L4级自动驾驶有望在2028年实现。
SANA-WM是一个26亿参数的高效开源世界模型,专为生成一分钟720p高清视频设计,具备精确的6自由度相机控制能力。其核心创新包括:混合线性注意力机制实现高效长上下文建模;双分支相机控制确保轨迹精准跟随;两阶段生成流程提升视频质量与一致性;以及从公开视频中提取精确位姿的鲁棒标注流程。该模型仅使用约21.3万个视频片段训练,在单GPU上即可生成60秒视频,其量化蒸馏版本在RTX 5090上仅需34秒完成去噪。在基准测试中,其动作跟随准确性优于先前开源基线,并在保持相当画质的同时,吞吐量提升36倍。
机器人模仿数据常具多模态性,相似观测可能对应不同动作,导致现有基于单帧的视觉语言动作模型在部分可观测环境下产生动作块冲突和执行不稳定。为此,研究者提出 IntentVLA 框架,它通过编码近期视觉观测为紧凑的短时意图表示,并以此条件生成连贯的动作块,以解决歧义问题。同时,研究发布了 AliasBench 基准测试集,基于 RoboTwin2 构建,包含12项任务,专门隔离短时观测歧义进行评估。在 AliasBench、SimplerEnv、LIBERO 和 RoboCasa 等多个测试环境中,IntentVLA 显著提升了任务执行的稳定性,并超越了现有强视觉语言动作基线模型。
在2026轩辕汽车蓝皮书论坛上,小鹏汽车董事长何小鹏宣布公司更名为“小鹏集团”,以涵盖汽车与机器人深度融合的未来布局。他指出,汽车正演变为“物理世界+数字世界”的双重物种。何小鹏表示,在重构AI研发范式后,自动驾驶进化速度提升了6倍。他修正了自动驾驶时间表,认为2028年实现L4级软件能力的概率极高,而L5级自动驾驶的雏形有望在2030年左右出现。他强调,汽车产业竞争核心正从新能源化转向智能化与机器人化。
Figure AI人形机器人完成了一场持续33小时的快递分拣直播挑战,处理包裹数量超过4万个。机器人基于Helix 02模型以“完全自主”模式运行,任务包括将快递标签朝下摆放并送至传送带。尽管整体效率达到“人类性能水平”,直播中仍出现瑕疵,例如偶尔将包裹推落至传送带外。此次演示显示,多个机器人协同可大幅降低分拣站人力需求,仅需真人辅助检查遗漏包裹。机器人采用轮换机制以保障持续工作。
MIT团队开发出名为“电流体纤维肌肉”的新型人工肌肉,适用于机器人与可穿戴设备。其核心是直径小于2毫米的微型纤维泵,通过电力驱动流体产生强大力量,无需外部笨重电机或液压系统。该柔性肌肉可直接编织进普通布料,整个系统轻便、便携且完全静音,解决了传统方案重量大、噪音高的痛点。这一突破显著降低了可穿戴机器人与智能服装的实用化门槛,让增强人体力量与灵活性的“科幻服装”更接近现实。
MIT researchers have developed new artificial muscles called Electrofluidic Fiber Muscles for robots and wearable device...
星动纪元与中国邮政合作,在广州邮区中心部署了人形机器人“星动M7”担任分拣员。该机器人能自主识别包裹位置,精准抓取并翻转包裹使面单朝上,协同自动化设备分拣至对应垛口。其作业效率已达人工的85%以上,最高每小时可处理1200件包裹。机器人搭载自研五指灵巧手和具身大脑,能持续学习场景数据,适应不同材质、规格的包裹分拣,并识别异常件,旨在替代高强度重复劳动,解放人力转向技术岗位。
小米米家扫地机器人 5 Pro 正在参与京东 618 大促。其水箱版和薄嵌上下水版原价分别为 3999 元和 4699 元。消费者通过领取 8.7 折券、叠加 PLUS 会员立减及 15% 政府补贴,并参与以旧换新(可补贴 50 元)和晒单返京豆(20 元)活动,最终可将水箱版到手价降至 2117.91 元,上下水版降至 2151.75 元。活动还包含无门槛红包,需注意优惠可能随时变更。
针对现有3D数据集存在的视图冗余与标注不一致等问题,本研究提出了COVER视角筛选方法。该方法无需训练,通过将多视角观测投影至等距柱状投影探针,以增量式覆盖评分与深度冲突惩罚,筛选出低冗余的稀疏视角。基于此方法,研究构建了CM-EVS数据集,包含来自1,275个室内场景的36,373帧精选全景帧,每帧提供全视角RGB、度量级深度及校准位姿。该数据集室内部分仅用中位25帧/场景即覆盖所有13种统一房间类型,实现了紧凑而完整的场景覆盖。实验表明,COVER方法优化了覆盖与冲突的权衡,使CM-EVS成为一个稀疏、紧凑、可审计的资源,适用于几何一致的全景3D学习。
本文提出了DexJoCo,一个基于MuJoCo的面向任务的灵巧操作基准与工具包。它包含11项功能导向的任务,用于系统评估工具使用、双手协调、长程执行和推理能力。研究配套开发了低成本数据采集系统,收集了总计1.1K条任务轨迹,并支持领域随机化以检验模型鲁棒性。团队在多种设置下对现代模型进行了基准测试,包括视觉与动力学随机化、多任务训练和动作头适配。大量的实证分析揭示了当前灵巧操作策略的重要发现与普遍局限,为未来灵巧手机器人学习指明了关键挑战。项目页面已公开。
针对Marble等生成式系统创建的3D世界存在静态、不可编辑且交互性有限的问题,本文提出WorldAct框架。该框架利用多模态智能体引导场景分解,识别可操作对象,并重建几何对齐的物体级网格以支持交互,同时通过3D修复技术还原背景环境。转化后的场景在保持全局连贯性的前提下,支持物体级编辑、碰撞感知操控以及具身任务执行。实验证明,WorldAct能比原始生成场景实现更丰富的交互,为构建可编辑、可交互的3D世界模型提供了可行方案。
This is crazy - 2 hours away from 24 hours of continuous humanoid work! The robots have sorted over 28,000 packages so f...
丰田最新人形篮球机器人CUE7在东京职业篮球联赛主场完成首秀。该机器人身高2.18米,重74公斤,不仅能投篮,还新增了在球场自由移动和以接近人类的动作运球的能力。CUE系列始于2017年,此前CUE曾以连续罚球命中2020次创下吉尼斯世界纪录,CUE6则投出24.55米创下人形机器人最远投篮纪录。CUE7全身配备摄像头和传感器,可分析环境并精确控制篮球,其预估售价约为15万美元(约102.1万元人民币)。
美团技术团队主办的MARS TALK香港大学站活动,聚焦具身智能领域,探讨其从技术验证到规模化商用的演进路径与商业化落地进程。
英国科技公司Humanoid将与德国工业供应商舍弗勒合作,在其全球工厂部署人形机器人。根据协议,计划到2032年在舍弗勒的制造基地部署约1000至2000台机器人,首批部署已启动。两家公司未披露合同金额。此次合作标志着Physical AI技术在实际工业环境中的应用进一步加速,人形机器人正从实验室走向生产线。
针对视觉-语言-动作模型训练中密集轨迹数据存在的时间监督不平衡问题,研究团队提出了FrameSkip数据层帧选择框架。该框架通过动作变化、视觉-动作一致性、任务进度先验和夹爪状态转换等指标对帧进行评分,并在目标保留率下将训练样本重新映射至高重要性帧。FrameSkip仅作用于数据加载器,无需改变模型架构或训练目标。在三个基准测试中,其主要设定保留20%的唯一帧,宏观平均成功率达到了76.15%,优于全帧训练的66.50%,在成功率与数据保留率之间取得了更优的权衡。
RoboEvolve提出一种协同进化框架,以解决机器人操作中物理交互数据稀缺的难题。该框架将视觉语言模型规划器与视频生成模型模拟器耦合,形成相互强化的循环。仅需500张无标注种子图像,通过“日间探索”与“夜间巩固”的双阶段机制,并在自主渐进课程引导下,系统能从简单动作自然扩展至复杂任务。实验表明,其将基础规划器性能提升30个绝对百分点,模拟器成功率平均提高48%,数据效率较全监督基线提升50倍,且能实现无灾难性遗忘的持续学习。
针对机器人轨迹数据在构建物理常识上的局限性,PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎,从大规模人类第一视角视频中提取结构化的物理常识,用于训练视觉语言模型。随后,通过一种保持能力且语言敏感的适配设计,将这些物理先验知识迁移到视觉语言-动作策略中。实验表明,在多项具身控制基准测试上,PhysBrain 1.0 均达到当前最优水平,尤其在跨域任务中展现出强大性能。
李想在与老罗的对话中阐述了对AI的核心看法。他认为AI是生产力工具,能助力专业人士达到新高度,但难以替代其专业深度。他质疑“一人公司”模式,指出建立真实生产环境是巨大挑战。企业应用AI应聚焦“增效”而非“降本”,且AI是放大器,可能放大原有问题。在具身智能领域,商业化机会在于工业上料、家庭服务等非人形场景,而非重复自动化工作。李想最终强调战略选择的重要性,并对人类独特价值保持乐观。
Watch a team of humanoid robots running a full 8-hr shift at human performance levels. This is fully autonomous running ...
2026年5月18日至19日,Physical AI Expo北美峰会将在圣何塞麦克恩利会议中心举行。此次大会聚焦于机器人、自主系统及现实世界AI部署的未来,汇集了将智能转化为物理行动的全球工程师、构建者和AI先驱。会议旨在推动机器人技术与自主AI从前沿探索走向主流应用,标志着该领域进入规模化落地阶段。
中国科学院长春应用化学研究所张强团队开发出一款植入式水凝胶神经探针,为慢性疼痛治疗提供了新路径。该成果于5月13日发表于《先进材料》期刊。探针采用α螺旋多肽交联剂的超分子水凝胶材料,在模量匹配性、电导率和透光性之间取得平衡,能更好适配脑组织。动物实验显示,植入大脑前边缘皮层的探针可实现长达1年的稳定神经信号记录,并在慢性疼痛模型中有效增强相关脑区活动、提高疼痛阈值、缓解疼痛症状。
DR.Q 算法被提出,以解决基于模型表示方法在连续控制中因信息捕获不足和过拟合早期经验而导致的偏差问题。该算法显式最大化当前状态-动作对与下一状态表示之间的互信息,并最小化偏差,同时结合衰减优先经验回放进行过渡采样。在多个连续控制基准测试中,使用单一超参数集进行评估,DR.Q 的表现匹配或超越了近期强基线,有时性能大幅领先。代码已开源。
小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA(视觉语言动作模型)与世界模型这两条技术路线统一于同一框架,通过潜空间推理同时提升推理速度与精度,在多项基准测试中达到先进水平。此外,它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。
Unitree GD01 是一款中国制造的可骑乘变形机器人,售价53.7万美元,现已投入生产。这款机器人结合了骑乘与变形功能,标志着其从研发阶段进入商业化量产。作为高端机器人产品,它体现了中国在创新科技领域的进展,并在科技社区如Hacker News上获得100点关注度。
视觉-语言-动作模型虽在语义泛化上表现良好,但缺乏对物理动态的显式建模。为此,研究界正整合预测环境变化的世界模型,形成“世界动作模型”新范式。WAMs将状态预测与动作生成相统一,以未来状态与动作的联合分布为目标。现有方法可分为级联式与联合式两大类,其发展依托于机器人遥操作、人类演示、仿真及互联网规模第一人称视频等多元数据。评估聚焦于视觉保真度、物理常识与动作合理性。当前领域面临架构与目标碎片化的挑战,亟需建立统一框架。
世界模型被视为AI继大语言模型后的关键新范式,过去18个月已获百亿美元投资,其核心承诺是通过规模化数据推动机器人基础模型发展。然而,该术语目前被广泛滥用,含义模糊。本文系统阐述了世界模型的五大特质,对比了不同技术路径,探讨了其在机器人及其他领域的应用与未来机遇。领域参与者包括谷歌Genie、特斯拉Optimus等巨头产品,以及众多专注世界模型或机器人基础模型的初创公司。它很可能成为未来十年的奠基性技术之一。
本文提出了Pinductor,一种利用大语言模型作为先验知识,从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型,再通过基于信念的似然分数进行迭代优化。实验表明,尽管使用的信息更少,Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法,并显著超越传统基线。研究还发现,其性能随LLM能力增强而提升,并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。
针对多模态大模型在360度全景图像空间理解上的不足,研究提出PanoWorld模型。现有方法通常将全景图分解为透视图,忽略了其连续的球面几何结构。为此,本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据,并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上,PanoWorld显著超越了现有开源与专有基线。结果表明,稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。
https://x.com/UnitreeRobotics/status/2054067819634159622/video/1 At this point on, I'm too afraid to ask what Unitree's ...
Unitree正式发布全球首款量产就绪的可变形载人机甲GD01,起售价65万美元。该机甲总重500公斤,可在双足与四足模式间自由切换,适应城市街道、楼梯斜坡等多种地形。此次发布的并非概念模型,而是已具备生产条件的民用载具。Unitree在两年内从消费级四足机器人迭代至载人机甲,展现了惊人的技术演进速度。GD01融合了其四足与人形机器人技术,实现了500公斤动态平衡控制、实时人机协同操作等关键突破。公司最后附注提醒用户以友好、安全的方式使用。
进迭时空宣布完成第三代RISC-V处理器核X200的研发,基于香山昆明湖架构,预计2027年量产。相比上一代X100,其单核性能提升超100%,SPEC2006 Int分数达16分/GHz,频率可达3.3GHz。该处理器支持RVA23.1标准、4x256b向量计算及AI浮点格式,单芯片可支持128核以上,并针对Agent计算、AI超算及云计算等场景优化了向量处理与多核访存能力。目前X200已达到可量产状态,同时第四代X300已开始研发。