6月17日

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-RobotManip 技术报告：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是基于 Qwen-VL 构建的视觉-语言-操作基础模型，通过跨表示、运动和行为维度的统一对齐框架，实现大规模多源训练的一致性。仅利用开源数据集和人类视频（无需专有数据），构建约 38,100 小时预训练语料，展现出零样本指令跟随、扰动鲁棒、错误恢复及跨本体迁移等涌现能力。在 RoboCasa365、LIBERO-Plus、EBench、RoboTwin 系列等 OOD 评测上全面超越先前 SOTA（包括 π0.5），在 RoboChallenge 排名第一且相对提升 20%，并在 AgileX ALOHA、Franka、UR、ARX 等真实机器人平台上得到验证。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向对象中心残差RL的零样本仿真到真实VLA增强

针对VLA模型在精确物理交互中因模仿学习执行误差累积而脆弱的问题，提出基于对象姿态的残差强化学习框架。该方法利用物体姿态精化VLA动作，实现紧凑观测空间在仿真与真实间一致迁移。残差RL策略仅在仿真中训练（加入姿态噪声注入和dropout），零样本迁移到真实Franka Research 3机器人。在五项操作任务中，成功率从42%零样本提升至76%，且改进轨迹可进一步用于重训基础VLA，无需额外遥操作即可实现自改进。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WorldLines：长时程有状态具身智能体的基准与建模

WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹，并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem，一个基于观察者的记忆框架，维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战，而ObsMem为此场景提供了更强的参考架构。

具身智能论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

RATs：玩耍式智能体机器人学习

论文提出Playful Agentic Robot Learning范式，让具身编码智能体在任务到达前自主玩耍持续学技能。RATs（机器人智能体团队）在玩耍阶段自主提出可学新探索任务，执行代码策略、诊断失败并重试，将成功执行蒸馏为持久化代码技能库。测试时从冻结库检索技能辅助新任务。在LIBERO-PRO和MolmoSpaces上，玩耍学习技能相比CaP-Agent0分别提升20.6和17.0个百分点；该技能库可直接插入其他推理时代码策略智能体，无需微调模型，在RoboSuite和真实世界迁移中分别提升8.9和8.8个百分点。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ImageWAM：世界动作模型真的需要视频生成，还是只需要图像编辑？

ImageWAM将预训练图像编辑模型用于机器人动作预测，无需视频生成。推理时利用图像编辑去噪产生的KV缓存作为世界动作上下文，不解码目标帧。在模拟器和真实世界实验中，ImageWAM性能优于标准VLA基线和竞争WAM，同时计算量（FLOPs）降低至1/6，延迟降低至1/4。注意力分析表明编辑缓存聚焦于任务相关区域，验证了图像编辑可作为视频生成的有效替代方案。

具身智能论文/研究

06:26

Hacker News 热门（buzzing.cc 中文翻译）

Qwen-Robot Suite：一套面向物理世界智能的基础模型套件

Qwen-Robot Suite 包含三个基础模型：Qwen-RobotNav 通过可控观察编码统一指令跟随、点/物体目标导航、目标跟踪和自动驾驶五个导航域；Qwen-RobotManip 利用规范状态-动作空间和相机帧增量位姿，在超3.81万小时开源语料上实现跨具身操作对齐；Qwen-RobotWorld 以自然语言为动作接口，联合训练20余种具身，预测物理世界动态。三者可组合成通用智能体系统。

具身智能模型发布

关联讨论 1 条

00:53

MarkTechPost（RSS）

同事件精选76

Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite：Qwen-RobotManip（基于Qwen3.5-4B的VLA模型，通过统一对齐框架和3800小时开源数据（含24708小时合成）实现跨本体操作，在LIBERO-Plus OOD基准上达91.4%，跨本体迁移性能为π0.5的3.2倍）、Qwen-RobotWorld（60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型，以自然语言为统一动作接口预测未来视频）和Qwen-RobotNav（基于Qwen3-VL的导航模型，2B/4B/8B，输出航点轨迹）。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen-RobotSuite 一次性放出三个具身模型，用统一对齐策略解决了机器人数据碎片化问题，多个 SOTA 结果加上两个开源仓库，做具身智能的值得认真看一下。

00:01

IT之家（RSS）

以色列Mobileye进军美国自动驾驶出租车市场，预计2027年上线服务

Mobileye今天宣布进军美国自动驾驶出租车市场，计划2027年启动服务。公司将Mobileye Drive系统与子公司Moovit的服务及App结合，向消费者提供自动驾驶出租车。未来仍向汽车制造商等客户供应Drive系统，进军消费者市场旨在形成互补市场路径并积累运营经验。计划2026年底前公布商业化运营更多细节，并于明年在美国某城市启动商业无人驾驶出租车服务。

具身智能行业动态

6月16日

22:30

HuggingFace Daily Papers（社区热门论文）

EgoPhys：从第一人称视频学习可变形物体的可泛化物理模型

EgoPhys是一个从第一人称RGB视频构建可变形物体物理数字孪生的框架。它通过将每个物体的逆物理解蒸馏成紧凑码本，实现对未见物体预测密集弹簧刚度场，无需测试时每弹簧优化。在重建、未来预测和零样本泛化上优于基线方法。研究团队还收集了涵盖多种可变形物体、场景和操作风格的第一人称交互数据集，并在真实xArm6机器人上验证：从单个人类玩耍视频初始化的数字孪生可作为内部世界表示辅助可变形物体规划。

具身智能数据/训练论文/研究

22:30

HuggingFace Daily Papers（社区热门论文）

HUG：基于流匹配的通用人类抓取模型

研究人员提出HUG，一种基于流匹配的模型，能从单张RGB-D图像生成多样化人类抓取姿态。团队利用智能眼镜收集了1M-HUG数据集（100万帧、27.8小时、6707个物体实例）。HUG融合RGB与深度观测，输出手腕平移、手腕旋转和MANO手部姿态，并可重定向至多种机器人手，实现零样本抓取。为标准化评估构建了HUG-Bench，含90个未见过物体（5种几何类别）。在30物体真实测试集上，HUG比SOTA基线高出23%和34%。代码、数据、基准、模型检查点和交互演示已发布。

具身智能数据/训练论文/研究

21:01

IT之家（RSS）

百度旗下萝卜快跑获瑞士L4级自动驾驶出租车运营许可，计划2027年启动公众服务

百度旗下萝卜快跑在瑞士获得L4级自动驾驶出租车运营许可，覆盖东部80平方公里，涉及圣加仑、外阿彭策尔和内阿彭策尔三州。路试已于6月1日启动，当前车辆仍配备安全员。萝卜快跑将与瑞士邮政旗下PostBus合作，以AmiGo品牌运营。路试完成后将开展小范围运营，面向公众的正式商业运营预计2027年启动。运营车辆采用百度第六代自动驾驶车型Apollo RT6，纯电驱动，最多搭载3名乘客，配备超30个传感器并集成车载计算平台。

具身智能行业动态

19:30

公众号：生数科技（Vidu·视频）

生数科技携手光轮智能，推动世界模型走向真实世界

6月15日，生数科技与光轮智能宣布战略合作，围绕通用世界模型的数据标准、评测体系与场景落地深度协同。生数科技以世界行动模型MotuBrain为核心，打造具身智能通用大脑；光轮智能依托“求解—测量—生成”全栈仿真平台RoboFinals，提供数据与评测基础设施。双方将共同推进面向物理世界的数据体系、可复现评测闭环及从仿真到真机的产业验证，加速世界模型从数字走向真实场景。

具身智能行业动态

16:28

HuggingFace Daily Papers（社区热门论文）

HABC：面向稀疏回合结果的分层优势加权在线RL微调方法

针对预训练VLA策略在线RL微调中回合结果仅含单一成功/失败二元标签的问题，HABC提出分层优势加权方法。它分别训练生存性与效率两个critic head，通过状态自适应门控合并优势，优先保证生存性，仅在成功确定时转向效率，并将合并结果转化为每步权重作用于actor loss。干预感知信用分配进一步限制结果标签于当前策略自主执行片段。在三个接触丰富的双手真实机器人任务上，HABC将成功率从监督微调基线的36%、44%、12%分别提升至92%、88%、38%。

具身智能数据/训练论文/研究

14:30

公众号：通义实验室（千问）

Qwen-Robot 发布：打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot，包含三个基础模型：Qwen-RobotNav 以单套权重统一五类导航任务，五项基准达 SOTA，零样本部署于宇树 Go2 机器人（推理延迟 196ms）；Qwen-RobotManip 基于 Qwen3.5-4B VL，采用 80 维状态-动作统一表示，利用超 38,100 小时开源数据训练，在多个操作基准超越 π0.5；Qwen-RobotWorld 以 860 万视频-文本对训练，通过自然语言动作接口统一 20 余种本体，多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用，实现物理智能体闭环。

具身智能多模态模型发布

关联讨论 1 条

13:27

HuggingFace Daily Papers（社区热门论文）

几何动作模型（GAM）用于机器人策略学习

GAM（Geometric Action Model）是一种语言条件操作策略，通过直接利用预训练几何基础模型（GFM）作为共享基座，在中间层分割GFM，浅层作观察编码器，插入因果未来预测器预测未来潜在token，再经剩余GFM块解码。设计让GFM以最小架构改动获得语言条件时间世界建模能力，同时保留丰富几何先验。在模拟和真实机器人操作基准上，GAM比当前基础模型规模基线更准确、鲁棒、快速且轻量。

具身智能论文/研究

13:00

IT之家（RSS）

阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列

6月16日，阿里巴巴发布千问具身智能大模型Qwen-Robot系列，包括VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld。Qwen-RobotNav统一指令跟随、点/目标导航、目标追踪和自动驾驶四类任务；Qwen-RobotManip基于超38100小时开源语料库实现多机型训练；Qwen-RobotWorld通过自然语言动作接口跨场景预测物理规律。三个模型可单独或协同部署。此外，5月20日发布的Qwen3.7-Max在Arena全球大模型盲测总榜中位列国产模型第一。

产品更新具身智能

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

12:39

Qwen：Blog Retrieval（API）

精选72

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布

关联讨论 1 条

推荐理由：具身智能的世界模型长期受限于单一形态，Qwen-RobotWorld用语言统一动作接口，把操作、驾驶、导航合训，多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号，做机器人的别错过。

12:39

Qwen：Blog Retrieval（API）

Qwen-Robot Suite：面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务，在 VLN-CE RxR 上达 76.5% SR，HM3Dv2 物体目标导航（仅 RGB）75.6% SR，EVT-Bench 追踪率 90.0%，NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体，预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布

关联讨论 1 条

12:39

Qwen：Blog Retrieval（API）

同事件精选70

Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上，无需环境微调。

具身智能模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：把导航任务看作上下文配置问题，单一模型覆盖从跟随指令到自动驾驶五种任务，在四足机器人上零样本部署，具身智能的工程化样本。

11:27

HuggingFace Daily Papers（社区热门论文）

Qwen-RobotWorld 技术报告：基于语言条件视频生成的具身世界模型

Qwen-RobotWorld 是一个语言条件视频世界模型，以自然语言为统一动作接口，从当前观测预测物理可行的未来视觉轨迹，覆盖机器人操作、自动驾驶、室内导航和人到机器人迁移。其核心设计包括：60 层双流 Diffusion Transformer（Double-Stream MMDiT）耦合冻结的 Qwen2.5-VL 语义与视频-VAE 隐特征；具身世界知识语料库（860 万视频-文本对，超 2 亿帧，含 20 余种具身形态和 500 余种动作）；通用+专家渐进式课程训练，先学习通用视觉先验再注入具身专用知识。在 EWMBench 和 DreamGen Bench 上总分第一，在 WorldModelBench 和 PBench 上超越所有开源模型，RoboTwin-IF 零样本分析验证了泛化性与多视角一致性。

具身智能论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

DreamX-World 1.0：通用交互式世界模型

DreamX-World 1.0 是一款通用交互式文图生视频世界模型，支持可控长序列生成、相机导航、回溯已观测区域及提示事件，覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE（PRoPE 投影位置编码的轻量变体）。通过因果强制、DMD 风格蒸馏和长序列训练，将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收，并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中，相机控制得分 73.75，总体 84.76，优于 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。

具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GeneralVLA-2：几何感知重建与受控记忆用于机器人规划

GeneralVLA-2针对通用视觉-语言-动作系统的两个瓶颈提出改进：引入GeoFuse-MV3D几何先验引导的多视图重建分支，通过输入视图掩码验证外部几何线索、软视觉外壳支持及轴对齐精炼，仅融合几何信息并保留外观，缓解单目SAM3D式重建的姿态与不可见几何幻觉；将原有KnowledgeBank升级为受控长期记忆系统，显式管理质量、置信度、生命周期、验证器与冲突元数据，并配合面向精度的检索。在GSO-30上，GeoFuse-MV3D相比MV-SAM3D基线将CD降低2.20%、LPIPS降低2.02%，PSNR提升2.36%、SSIM提升1.03%。在Terminal-Bench 2.0与SWE-Bench Verified上，KnowledgeBank相比ReasoningBank在Terminal-Bench SR上提升4.53%，SWE-Bench resolve rate提升3.73%，AS分别降低4.95%和5.65%。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SR-REAL：空间视觉语言模型的双路径推理增强

SR‑REAL 为空间 VLM 配备两条互补推理路径：纯语言推理（LOR）和检测后推理（DTR）。LOR 执行逐步语言演绎，DTR 先通过区域 token 检测 3D 几何线索（中心点或边界框），再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督，随后用准确率和格式奖励进行强化学习优化，DTR 额外使用基于离散中心的检测奖励。在多个空间基准上，SR‑REAL 显著优于基线：单个 RL 训练模型支持两种路径，联合训练实现互相增强，且模型无需调优即可跨数据集和领域泛化。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Kairos：面向Physical AI的原生世界模型栈

Kairos是面向Physical AI的原生世界模型栈。它采用跨具身数据课程进行原生预训练，融合开放世界视频、人类行为数据和机器人交互。其统一架构配备混合线性时间注意力：滑动窗口捕获局部动态，扩张滑动窗口捕获中距离依赖，门控线性注意力维持持久全局记忆，理论上保证长时域状态传播误差可控。通过部署感知系统协同设计，在服务器和消费级硬件上实现低延迟的观察-行动-反馈循环。在具身世界模型、长时域和行为策略基准上，Kairos达到顶级性能并展现强效率-能力权衡。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Guava：面向具身操作的高效通用框架

Guava 是一个用于具身工具使用的框架，通过系统探索智能体工作流、动作空间和观察空间，确定了三个关键设计：迭代感知-推理-动作循环、语义动作抽象和多模态观察。研究还开发了端到端训练流程，将具身操作能力蒸馏至一个 4B 开源模型，仅用少于 2K 条模拟轨迹。仿真与真实实验表明，Guava 性能接近前沿专有模型，对未见物体、新指令和长时任务有强泛化能力。结果表明，精心设计的框架可作为模型无关的具身操作接口，以极少数据为紧凑开源模型带来涌现能力。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PAIWorld：面向机器人操作的三维一致世界基础模型

PAIWorld 是一种基于扩散 Transformer 的世界基础模型，通过三大组件解决多视图三维不一致问题：几何感知跨视图注意力模块建立显式视图间通信，几何旋转位置编码将相机光线方向和外部位姿编码进注意力机制，潜在三维 REPA 从冻结的三维基础模型中蒸馏三维感知特征。它在机器人操作基准上达到最优多视图三维一致性，WorldArena 排行榜第一，AgiBot-Challenge2026 排行榜第二，并支持基于模型的规划、世界动作模型和多视图策略后训练等下游应用。

具身智能论文/研究

6月15日

22:23

The Verge：AI（RSS）

精选70

Skydio CEO Adam Bry：硅谷不应为无人机使用画红线

Skydio是美国最大的无人机制造商，主攻公共安全、军事、能源、基建巡检等企业市场。CEO Adam Bry表示，特朗普政府去年底禁止中国产无人机后，廉价消费级无人机几乎消失，Skydio产品成为主要替代方案。公司认为无人机正从工具转向自主基础设施——通过机库、远程操控和软件整合实现规模化应用，AI在其中扮演关键角色。访谈还涉及Skydio与军方合作的态度，以及自主技术如何带动公司扩张。

具身智能大佬观点政策/监管

推荐理由：Adam Bry 的立场很鲜明，硅谷不该替前线士兵做决定。这是军工 AI 伦理争议中的一个不避讳声音，做相关产品的人值得听。

21:30

公众号：百度智能云（文心）

上海交大🤝百度智能云：首破世界-动作模型时间绑定，无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM，突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型，真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz，轻量版AHA-WAM-Flash达56.95Hz，提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究

18:43

IT之家（RSS）

三星晶圆代工首获马斯克 Neuralink 芯片订单

三星电子晶圆代工业务首次获得马斯克旗下脑机接口企业Neuralink的芯片合同制造服务订单，将为其生产“第四代”芯片，采用4nm工艺制程，目标2027年底量产，试产已于2026年5月启动。三星此前已是特斯拉AI芯片代工商，此次合作进一步深化了双方关系。Neuralink成立于2016年，专注于植入式脑机接口设备研发。

具身智能行业动态

18:43

IT之家（RSS）

电动车、职业司机、AI 计算机、生活助手合为一体，理想 CEO 李想定义"四位一体"具身智能汽车

理想创始人、董事长兼 CEO 李想在 Livis Day 发布会上提出具身智能汽车应是“四位一体”：一辆电动汽车、一位职业司机、一台 AI 计算机、一位生活助手。其中电动汽车和 AI 计算机是“具身”，职业司机和生活助手是“智能”。李想指出，传统智能汽车仍是功能驱动，而非真正智能体，在安全、能力和效率三个维度与具身智能汽车存在本质区别。

具身智能大佬观点

17:43

IT之家（RSS）

理想CEO李想：今天的智能手机和汽车都并不是真的智能，本质上还是"功能驱动"

理想汽车CEO李想在Livis Day发布会上指出，当前智能手机和智能汽车并非真正的智能，本质仍是功能驱动。他认为真正的具身智能需聚焦三个维度：安全上以保护人类为核心并比人更安全；能力上全面学习人类技能并独立完成任务；效率上必须超越人类。同时理想将带来同级最大最流畅的CarPlay，支持HUD联动显示地图、方向盘控制及Apple Music杜比全景声空间音频，并兼容所有主流旗舰手机互联。

具身智能大佬观点

17:43

IT之家（RSS）

理想汽车宣布下半年马赫VLA能力持续进化，第四季度对齐特斯拉FSD V14能力

理想汽车在 Livis Day 发布会上宣布，第三季度 AD Max 推送全新马赫 VLA，第四季度对齐特斯拉 FSD V14 能力。双马赫 M100 芯片算力 2560TOPS，模仿学习规模提升 50%、强化学习提升 15 倍、模型参数量提升 10 倍、计算量提升 15 倍。自研马赫 Mind-4 系列基座大模型包括 Mind-Pro 和 Mind-Edge；Mind-Pro 在多项基准及 Agent 评测中领先，Mind-Edge 为端侧原生具身智能体，数据不上传。

具身智能模型发布端侧

17:43

IT之家（RSS）

理想马赫 M100 发布：全球首款动态数据流 AI 芯片，5nm 车规级工艺，单芯算力 1280 TOPS

今日理想汽车在 Livis Day 发布会上推出全球首款动态数据流 AI 芯片——理想马赫 M100。该芯片采用 5nm 车规级工艺，单芯片算力 1280 TOPS，是目前量产最强大的车规级推理芯片。因数据流架构设计，实际运行效率超过 82%。

产品更新具身智能推理

16:43

IT之家（RSS）

赛力斯人形机器人"小赛"首次亮相，副总裁康波透露更多种类今年内登场

赛力斯集团董事、副总裁康波今日通过视频展示人形机器人“小赛”，该机器人具备视觉识别、主动打招呼和语音互动能力。康波透露，更多种类具身智能机器人在筹备，今年内亮相。赛力斯超级工厂已配备地空一体物流、具身智能AI检测机器人“小赛01”“小赛02”等多款机器人，拥有1600+台智能化设备、3000+台工业机器人及完整数字生态系统。去年10月，赛力斯凤凰与字节火山引擎签署具身智能合作协议，重庆凤凰技术有限公司于去年3月成立。

产品更新具身智能多模态

15:42

IT之家（RSS）

全球首个，智元全尺寸人形机器人远征 A3 实现自主打乒乓球

智元远征 A3 成功实现自主打乒乓球，成为全球首个全程自主决策、完成乒乓球对抗的全尺寸双足人形机器人。在无遥控、无脚本、无人工干预下，机器人自主完成视觉感知、轨迹预测、全身运动规划与精准击球的全闭环控制。该技术基于智元与北大合作，依托人形机器人乒乓运动控制算法 SpikePingpong 及 20kHz 高频脉冲相机，视觉响应速度提升 10 倍，实现毫米级预判。智元已累计出货超 10000 台，部署于导览导购、工业制造等场景。

产品更新具身智能

12:40

IT之家（RSS）

行业首款开源鸿蒙消费级人形机器人：松延动力 N2 亮相华为开发者大会 HDC 2026

松延动力在华为开发者大会 HDC 2026 上展出 OpenHarmony 版 N2 人形机器人，定位行业首款开源鸿蒙消费级产品。针对生态孤岛、跨设备开发繁琐、系统占用率高等痛点，N2 凭借开源鸿蒙微内核及 AI 智能体实现语音交互和长程任务自规划，可与手机、智慧屏、智能家居等终端联动，充当家庭管家或教育陪伴角色。同步启动“百人百机”计划，为 100 位开发者提供 N2 及原生 SDK，支持 Ubuntu 与开源鸿蒙生态。

产品更新具身智能开源生态

08:00

HuggingFace Daily Papers（社区热门论文）

ACE-EGO-0：统一自我中心人类与机器人数据的VLA预训练框架

视觉-语言-动作（VLA）模型受限于机器人轨迹数据采集的高昂成本。ACE-EGO-0提出统一预训练框架，构建可扩展的第一人称视频到动作流水线，将原始人类视频转化为机器人格式伪动作轨迹。框架采用基于相机空间动作的统一表示、形态条件化和时间对齐动作分块，使伪标签与机器人演示可比。针对人类视频中的噪声伪动作，设计可靠性感知训练目标并引入人类辅助损失。模型在4.53K小时机器人/仿真数据和1.48K小时伪动作人类数据上训练，在RoboCasa GR1 TableTop和RoboTwin 2.0上达到最优，并展现对真实世界双臂操作的强迁移能力。

具身智能数据/训练论文/研究

6月14日

20:06

HuggingFace Daily Papers（社区热门论文）

LaWAM：用于高效动力学感知机器人策略的潜在世界动作模型

LaWAM是一种潜在世界动作模型，通过在预训练视觉基础模型的特征空间中训练潜在动作模型，并利用其前向解码器预测未来观察特征，从而将预测动力学引入机器人策略，而非依赖高计算开销的未来视频重建。LaWAM在LIBERO上取得98.6%成功率、RoboTwin上取得91.22%成功率，在真实世界操作任务中也达到竞争性表现。其推理延迟为每个动作块预测187毫秒，比像素空间WAMs降低24倍壁钟延迟。

arXiv 具身智能论文/研究

18:38

IT之家（RSS）

通用汽车高管：主攻乘用车自动驾驶，未来可用于无人网约车

通用汽车关停自动驾驶出租车子公司后，首席产品官斯特林·安德森表示，公司目前主攻乘用车自动驾驶，先攻克高速路段，再拓展至城市区域；未来技术也可用于无人驾驶网约车服务。

具身智能行业动态