6月17日

08:00

HuggingFace Daily Papers（社区热门论文）

Qwen-RobotManip 技术报告：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是基于 Qwen-VL 构建的视觉-语言-操作基础模型，通过跨表示、运动和行为维度的统一对齐框架，实现大规模多源训练的一致性。仅利用开源数据集和人类视频（无需专有数据），构建约 38,100 小时预训练语料，展现出零样本指令跟随、扰动鲁棒、错误恢复及跨本体迁移等涌现能力。在 RoboCasa365、LIBERO-Plus、EBench、RoboTwin 系列等 OOD 评测上全面超越先前 SOTA（包括 π0.5），在 RoboChallenge 排名第一且相对提升 20%，并在 AgileX ALOHA、Franka、UR、ARX 等真实机器人平台上得到验证。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向对象中心残差RL的零样本仿真到真实VLA增强

针对VLA模型在精确物理交互中因模仿学习执行误差累积而脆弱的问题，提出基于对象姿态的残差强化学习框架。该方法利用物体姿态精化VLA动作，实现紧凑观测空间在仿真与真实间一致迁移。残差RL策略仅在仿真中训练（加入姿态噪声注入和dropout），零样本迁移到真实Franka Research 3机器人。在五项操作任务中，成功率从42%零样本提升至76%，且改进轨迹可进一步用于重训基础VLA，无需额外遥操作即可实现自改进。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WorldLines：长时程有状态具身智能体的基准与建模

WorldLines是一个项目驱动的长时程家庭辅助具身智能体基准。它构建包含对话、动作、执行反馈、物体与设备状态变化的长期家庭轨迹，并转化为证据关联样本用于Memory QA和具身任务规划。同时提出ObsMem，一个基于观察者的记忆框架，维护可见性感知记忆和动作原生状态痕迹以支持状态感知决策。实验揭示了部分可观测性、被覆盖的世界状态及将长期记忆转化为具身规划方面的持续挑战，而ObsMem为此场景提供了更强的参考架构。

具身智能论文/研究评测/基准

08:00

HuggingFace Daily Papers（社区热门论文）

RATs：玩耍式智能体机器人学习

论文提出Playful Agentic Robot Learning范式，让具身编码智能体在任务到达前自主玩耍持续学技能。RATs（机器人智能体团队）在玩耍阶段自主提出可学新探索任务，执行代码策略、诊断失败并重试，将成功执行蒸馏为持久化代码技能库。测试时从冻结库检索技能辅助新任务。在LIBERO-PRO和MolmoSpaces上，玩耍学习技能相比CaP-Agent0分别提升20.6和17.0个百分点；该技能库可直接插入其他推理时代码策略智能体，无需微调模型，在RoboSuite和真实世界迁移中分别提升8.9和8.8个百分点。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ImageWAM：世界动作模型真的需要视频生成，还是只需要图像编辑？

ImageWAM将预训练图像编辑模型用于机器人动作预测，无需视频生成。推理时利用图像编辑去噪产生的KV缓存作为世界动作上下文，不解码目标帧。在模拟器和真实世界实验中，ImageWAM性能优于标准VLA基线和竞争WAM，同时计算量（FLOPs）降低至1/6，延迟降低至1/4。注意力分析表明编辑缓存聚焦于任务相关区域，验证了图像编辑可作为视频生成的有效替代方案。

具身智能论文/研究

07:57

宝玉@dotey

NVIDIA GEAR 发布 ENPIRE：AI 编程 agent 在真实世界自主做机器人实验

NVIDIA GEAR 实验室联合 CMU、UC Berkeley 发布 ENPIRE，让 AI 编程 agent 自主操控真实机器人做实验。系统自动搭建环境、重置场景、改进操控策略（从启发式到强化学习）、收集数据、分析失败并迭代代码，全程无需人类参与。高精度测试任务（细针脚插入、穿剪扎带、安装 GPU）中自主训练策略达 99% 成功率（pass@8）。测试了 Codex、Claude Code、Kimi Code 三款 agent，发现“物理 scaling law”：8 台机器人并行探索比 1 台或 4 台推进快得多。所有代码将开源。

Jim Fan: Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...

智能体具身智能开源/仓库

06:26

Hacker News 热门（buzzing.cc 中文翻译）

Qwen-Robot Suite：一套面向物理世界智能的基础模型套件

Qwen-Robot Suite 包含三个基础模型：Qwen-RobotNav 通过可控观察编码统一指令跟随、点/物体目标导航、目标跟踪和自动驾驶五个导航域；Qwen-RobotManip 利用规范状态-动作空间和相机帧增量位姿，在超3.81万小时开源语料上实现跨具身操作对齐；Qwen-RobotWorld 以自然语言为动作接口，联合训练20余种具身，预测物理世界动态。三者可组合成通用智能体系统。

具身智能模型发布

05:55

jason@jxnlco

NVIDIA GEAR实验室推出ENPIRE项目，首次实现物理世界自动研究。8个Codex智能体被授权控制机器人舰队、GPU及token预算，自主完成绑扎带、整理精密插针、安装GPU等高精度任务。系统无需人类干预，agent可自学视觉线索、复位场景、调参、翻阅论文、辩论反思，并直接硬件试错。团队发现"物理规模扩展"效应：8台机器人并行探索效率显著高于少数台。部分实验室已实现夜间自主改进，每天早上看报告。ENPIRE将全部开源，支持在家搭建自运行机器人实验室。

Jim Fan: Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...

GitHub 产品更新具身智能开源/仓库

02:04

AYi@AYi_AInotes

仿人机器人无需像人。Eno 是 Genesis 的首款通用机器人--不是假装成人的机器，而是赋予身体的智能。它冷静、能干、乐于助人，将于今年 Q4 面市。

Genesis AI: Humanoid robots don't need to look human. Meet Eno, our first general-purpose robot. Not a machine pretending to be huma...

产品更新具身智能

01:00

AK@_akhaliq

μ_0 一个可扩展的3D交互追踪世界模型

具身智能论文/研究

00:53

MarkTechPost（RSS）

同事件精选76

Qwen团队发布三个具身AI模型套件 Qwen-RobotSuite

Qwen团队发布三个具身AI模型组成的套件Qwen-RobotSuite：Qwen-RobotManip（基于Qwen3.5-4B的VLA模型，通过统一对齐框架和3800小时开源数据（含24708小时合成）实现跨本体操作，在LIBERO-Plus OOD基准上达91.4%，跨本体迁移性能为π0.5的3.2倍）、Qwen-RobotWorld（60层MMDiT+冻结Qwen2.5-VL编码器的语言条件视频世界模型，以自然语言为统一动作接口预测未来视频）和Qwen-RobotNav（基于Qwen3-VL的导航模型，2B/4B/8B，输出航点轨迹）。RobotManip与RobotNav已开源GitHub。

具身智能多模态开源/仓库模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen-RobotSuite 一次性放出三个具身模型，用统一对齐策略解决了机器人数据碎片化问题，多个 SOTA 结果加上两个开源仓库，做具身智能的值得认真看一下。

00:52

Jim Fan@DrJimFan

NVIDIA GEAR 实验室推出 ENPIRE：首次在物理世界启用 AutoResearch

NVIDIA GEAR 实验室首次在物理世界启用 AutoResearch，推出 ENPIRE 项目。给 8 个 Codex 智能体分配机器人舰队、GPU 和 token 预算，目标快速安全完成任务。人类退出后，机器人舰队自主学会寻找视觉线索、重置场景、练习新技能、调整控制栈、阅读论文、辩论反思。ENPIRE 能高精度完成扎带、整理细针、安装 GPU 等任务。发现物理扩展：8 机器人并行探索比少机器人效率显著提升。实验室部分可整夜自我改进，早上读取报告。所有内容将开源。

智能体产品更新具身智能开源生态

00:28

Rohan Paul@rohanpaul_ai

Charlotte Xia谈Jim Fan"Great Parallel"：机器人缺乏数据与基准瓶颈

Rohan Paul引用Charlotte Xia的博客，讨论Jim Fan的“Great Parallel”论点：具身AI将像LLM一样扩展。与语言不同，文本是压缩共享接口，物理行动分散于不同实体。尽管已有$5B+投资世界模型、$18B投入机器人，领域仍缺乏共享基准、架构收敛，且存在10万年的数据差距。世界模型能预测行动结果，但无法解决数据收集、评估、实时控制和部署可靠性。真正的创业机会在于数据循环、评估系统、记忆层、推理栈和垂直部署引擎等瓶颈。

Charlotte Xia: Jim Fan's "Great Parallel" thesis: embodied AI will scale like LLMs did. $5B+ is already betting on #worldmodels. $18B i...

具身智能现象/趋势

00:04

AYi@AYi_AInotes

可能要被杠，但我真觉得再过几年普通人的羽毛球水平，连四足机器人都打不过了🐶

Space and Technology: Researchers at ETH Zurich have developed ANYmal, a quadruped robot that can play badminton with humans. The robot tracks...

具身智能行业动态

00:01

IT之家（RSS）

以色列Mobileye进军美国自动驾驶出租车市场，预计2027年上线服务

Mobileye今天宣布进军美国自动驾驶出租车市场，计划2027年启动服务。公司将Mobileye Drive系统与子公司Moovit的服务及App结合，向消费者提供自动驾驶出租车。未来仍向汽车制造商等客户供应Drive系统，进军消费者市场旨在形成互补市场路径并积累运营经验。计划2026年底前公布商业化运营更多细节，并于明年在美国某城市启动商业无人驾驶出租车服务。

具身智能行业动态

6月16日

22:30

HuggingFace Daily Papers（社区热门论文）

EgoPhys：从第一人称视频学习可变形物体的可泛化物理模型

EgoPhys是一个从第一人称RGB视频构建可变形物体物理数字孪生的框架。它通过将每个物体的逆物理解蒸馏成紧凑码本，实现对未见物体预测密集弹簧刚度场，无需测试时每弹簧优化。在重建、未来预测和零样本泛化上优于基线方法。研究团队还收集了涵盖多种可变形物体、场景和操作风格的第一人称交互数据集，并在真实xArm6机器人上验证：从单个人类玩耍视频初始化的数字孪生可作为内部世界表示辅助可变形物体规划。

具身智能数据/训练论文/研究

22:30

HuggingFace Daily Papers（社区热门论文）

HUG：基于流匹配的通用人类抓取模型

研究人员提出HUG，一种基于流匹配的模型，能从单张RGB-D图像生成多样化人类抓取姿态。团队利用智能眼镜收集了1M-HUG数据集（100万帧、27.8小时、6707个物体实例）。HUG融合RGB与深度观测，输出手腕平移、手腕旋转和MANO手部姿态，并可重定向至多种机器人手，实现零样本抓取。为标准化评估构建了HUG-Bench，含90个未见过物体（5种几何类别）。在30物体真实测试集上，HUG比SOTA基线高出23%和34%。代码、数据、基准、模型检查点和交互演示已发布。

具身智能数据/训练论文/研究

21:44

Alibaba Cloud@alibaba_cloud

阿里云发布 Qwen-Robot 套件：Qwen-RobotNav、Qwen-RobotManip、Qwen-RobotWorld 三个基础模型

阿里云推出 Qwen-Robot 套件，包含三个基础模型：Qwen-RobotNav 统一指令跟随、点目标、对象目标、目标追踪和自动驾驶 5 种导航任务，提供可控观测协议和智能体工具接口；Qwen-RobotManip 统一异构机器人状态-动作空间，基于 38,100+ 小时开源语料预训练；Qwen-RobotWorld 单个世界模型支持 20+ 种具身形态，通过自然语言动作接口预测操控、驾驶、导航等物理可行未来。三者可独立使用，也可组合为通用智能体系统的底层物理世界工具。

具身智能模型发布

21:15

Qwen@Alibaba_Qwen

通义千问发布Qwen-Robot Suite，含三个具身智能基础模型

通义千问推出Qwen-Robot Suite，包含三个基础模型：Qwen-RobotNav统一5种导航任务（指令跟随、点目标、物体目标、目标追踪、自动驾驶），具备可控观测协议和智能体工具接口；Qwen-RobotManip实现异构机器人统一状态-动作空间，基于38,100+小时开源语料预训练；Qwen-RobotWorld是单一世界模型，支持20+具身形态，通过自然语言动作接口预测物理世界未来（涵盖操作、驾驶、导航）。三个模型可独立使用或组合，构成通用智能体的底层工具包。

具身智能模型发布

21:01

IT之家（RSS）

百度旗下萝卜快跑获瑞士L4级自动驾驶出租车运营许可，计划2027年启动公众服务

百度旗下萝卜快跑在瑞士获得L4级自动驾驶出租车运营许可，覆盖东部80平方公里，涉及圣加仑、外阿彭策尔和内阿彭策尔三州。路试已于6月1日启动，当前车辆仍配备安全员。萝卜快跑将与瑞士邮政旗下PostBus合作，以AmiGo品牌运营。路试完成后将开展小范围运营，面向公众的正式商业运营预计2027年启动。运营车辆采用百度第六代自动驾驶车型Apollo RT6，纯电驱动，最多搭载3名乘客，配备超30个传感器并集成车载计算平台。

具身智能行业动态

19:30

公众号：生数科技（Vidu·视频）

生数科技携手光轮智能，推动世界模型走向真实世界

6月15日，生数科技与光轮智能宣布战略合作，围绕通用世界模型的数据标准、评测体系与场景落地深度协同。生数科技以世界行动模型MotuBrain为核心，打造具身智能通用大脑；光轮智能依托“求解—测量—生成”全栈仿真平台RoboFinals，提供数据与评测基础设施。双方将共同推进面向物理世界的数据体系、可复现评测闭环及从仿真到真机的产业验证，加速世界模型从数字走向真实场景。

具身智能行业动态

16:28

HuggingFace Daily Papers（社区热门论文）

HABC：面向稀疏回合结果的分层优势加权在线RL微调方法

针对预训练VLA策略在线RL微调中回合结果仅含单一成功/失败二元标签的问题，HABC提出分层优势加权方法。它分别训练生存性与效率两个critic head，通过状态自适应门控合并优势，优先保证生存性，仅在成功确定时转向效率，并将合并结果转化为每步权重作用于actor loss。干预感知信用分配进一步限制结果标签于当前策略自主执行片段。在三个接触丰富的双手真实机器人任务上，HABC将成功率从监督微调基线的36%、44%、12%分别提升至92%、88%、38%。

具身智能数据/训练论文/研究

14:30

公众号：通义实验室（千问）

Qwen-Robot 发布：打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot，包含三个基础模型：Qwen-RobotNav 以单套权重统一五类导航任务，五项基准达 SOTA，零样本部署于宇树 Go2 机器人（推理延迟 196ms）；Qwen-RobotManip 基于 Qwen3.5-4B VL，采用 80 维状态-动作统一表示，利用超 38,100 小时开源数据训练，在多个操作基准超越 π0.5；Qwen-RobotWorld 以 860 万视频-文本对训练，通过自然语言动作接口统一 20 余种本体，多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用，实现物理智能体闭环。

具身智能多模态模型发布

13:27

HuggingFace Daily Papers（社区热门论文）

几何动作模型（GAM）用于机器人策略学习

GAM（Geometric Action Model）是一种语言条件操作策略，通过直接利用预训练几何基础模型（GFM）作为共享基座，在中间层分割GFM，浅层作观察编码器，插入因果未来预测器预测未来潜在token，再经剩余GFM块解码。设计让GFM以最小架构改动获得语言条件时间世界建模能力，同时保留丰富几何先验。在模拟和真实机器人操作基准上，GAM比当前基础模型规模基线更准确、鲁棒、快速且轻量。

具身智能论文/研究

13:00

IT之家（RSS）

阿里巴巴发布千问具身智能大模型 Qwen-Robot 系列

6月16日，阿里巴巴发布千问具身智能大模型Qwen-Robot系列，包括VLA操作模型Qwen-RobotManip、VLN移动模型Qwen-RobotNav和世界模型Qwen-RobotWorld。Qwen-RobotNav统一指令跟随、点/目标导航、目标追踪和自动驾驶四类任务；Qwen-RobotManip基于超38100小时开源语料库实现多机型训练；Qwen-RobotWorld通过自然语言动作接口跨场景预测物理规律。三个模型可单独或协同部署。此外，5月20日发布的Qwen3.7-Max在Arena全球大模型盲测总榜中位列国产模型第一。

产品更新具身智能

12:39

Qwen：Blog Retrieval（API）

同事件精选72

Qwen-RobotManip：对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作（VLA）基础模型，引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频，构建约 38,100 小时预训练语料，涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%，RoboTwin-C2R Hard 达 69.4%，RoboCasa365 Composite-Unseen 达 14.9%，EBench 达 45.6%，RoboTwin-IF 达 72.0%，并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道（1,933 小时第一人称视频转 24,808 小时数据）及上下文策略适配。

具身智能开源生态数据/训练模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：Qwen 这次发布的机器人模型，用统一对齐框架把跨实体数据规模化训练跑通了，OOD 泛化大幅领先，做具身智能的值得认真看一下。

12:39

Qwen：Blog Retrieval（API）

精选72

Qwen-RobotWorld：具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口，采用双流Multimodal Diffusion Transformer（MMDiT）架构，将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩，统一20余种机器人形态，基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别，支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布

推荐理由：具身智能的世界模型长期受限于单一形态，Qwen-RobotWorld用语言统一动作接口，把操作、驾驶、导航合训，多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号，做机器人的别错过。

12:39

Qwen：Blog Retrieval（API）

Qwen-Robot Suite：面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务，在 VLN-CE RxR 上达 76.5% SR，HM3Dv2 物体目标导航（仅 RGB）75.6% SR，EVT-Bench 追踪率 90.0%，NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体，预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布

12:39

Qwen：Blog Retrieval（API）

同事件精选70

Qwen-RobotNav：面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav，基于 Qwen3-VL 在 15.6M 样本上训练，统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域，无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA：VLN-CE RxR 成功率 76.5%，HM3Dv2 目标导航 75.6%（仅 RGB），EVT-Bench 跟踪率 90.0%，NAVSIM PDMS 91.4，以及三项 EQA 新标杆。模型暴露四个可调轴（视觉 token 预算、时间衰减、相机权重、帧采样模式）。作为智能体系统的一部分，上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%，导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上，无需环境微调。

具身智能模型发布

同一事件，精选展示《Qwen-RobotWorld：具身智能体的无界世界》

推荐理由：把导航任务看作上下文配置问题，单一模型覆盖从跟随指令到自动驾驶五种任务，在四足机器人上零样本部署，具身智能的工程化样本。

12:30

Berryxia.AI@berryxia

NVIDIA 开源 SOMA-X v0.2：单一骨架适配所有体型

NVIDIA 推出开源 3D 人体模型 SOMA-X v0.2，采用单一骨架即可表达各种体型，专为机器人和物理 AI 设计。模型支持关节扭转自动修正、骨骼自动缩放、高级姿态反转及超轻量数据，以 Apache 2.0 协议开源。该模型解决了不同硬件之间体型不统一导致动作数据难以复用的问题，通过通用骨架实现同一动作数据跨硬件迁移，显著提升机器人训练、物理仿真与动作迁移的效率。

Sadao Tokuyama: NVIDIAの人間3Dモデル「SOMA-X v0.2」が公開。 1つの骨組みであらゆる体型を表現でき、ロボットや物理AIに最適。関節のねじれ補正による自然な変形、骨の自動スケール、高度な姿勢反転、超軽量データを備えてます。 Apache ...

具身智能开源/仓库

11:27

HuggingFace Daily Papers（社区热门论文）

Qwen-RobotWorld 技术报告：基于语言条件视频生成的具身世界模型

Qwen-RobotWorld 是一个语言条件视频世界模型，以自然语言为统一动作接口，从当前观测预测物理可行的未来视觉轨迹，覆盖机器人操作、自动驾驶、室内导航和人到机器人迁移。其核心设计包括：60 层双流 Diffusion Transformer（Double-Stream MMDiT）耦合冻结的 Qwen2.5-VL 语义与视频-VAE 隐特征；具身世界知识语料库（860 万视频-文本对，超 2 亿帧，含 20 余种具身形态和 500 余种动作）；通用+专家渐进式课程训练，先学习通用视觉先验再注入具身专用知识。在 EWMBench 和 DreamGen Bench 上总分第一，在 WorldModelBench 和 PBench 上超越所有开源模型，RoboTwin-IF 零样本分析验证了泛化性与多视角一致性。

具身智能论文/研究

11:27

HuggingFace Daily Papers（社区热门论文）

DreamX-World 1.0：通用交互式世界模型

DreamX-World 1.0 是一款通用交互式文图生视频世界模型，支持可控长序列生成、相机导航、回溯已观测区域及提示事件，覆盖写实、游戏和风格化域。其数据引擎结合虚幻引擎渲染、动作丰富的游戏录制及带恢复相机几何的真实视频。相机控制引入 E-PRoPE（PRoPE 投影位置编码的轻量变体）。通过因果强制、DMD 风格蒸馏和长序列训练，将双向视频生成器转为自回归模型。采用记忆条件场景持久性与残差回收，并加入事件指令微调和强化学习对齐。混合精度 DiT、残差重用、75% 剪枝 VAE 解码及异步流水线并行在八块 RTX 5090 GPU 上达 16 FPS。5 秒基础评估中，相机控制得分 73.75，总体 84.76，优于 HY-WorldPlay 1.5（80.79）和 LingBot-World（80.45）。

具身智能视频论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

GeneralVLA-2：几何感知重建与受控记忆用于机器人规划

GeneralVLA-2针对通用视觉-语言-动作系统的两个瓶颈提出改进：引入GeoFuse-MV3D几何先验引导的多视图重建分支，通过输入视图掩码验证外部几何线索、软视觉外壳支持及轴对齐精炼，仅融合几何信息并保留外观，缓解单目SAM3D式重建的姿态与不可见几何幻觉；将原有KnowledgeBank升级为受控长期记忆系统，显式管理质量、置信度、生命周期、验证器与冲突元数据，并配合面向精度的检索。在GSO-30上，GeoFuse-MV3D相比MV-SAM3D基线将CD降低2.20%、LPIPS降低2.02%，PSNR提升2.36%、SSIM提升1.03%。在Terminal-Bench 2.0与SWE-Bench Verified上，KnowledgeBank相比ReasoningBank在Terminal-Bench SR上提升4.53%，SWE-Bench resolve rate提升3.73%，AS分别降低4.95%和5.65%。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SR-REAL：空间视觉语言模型的双路径推理增强

SR‑REAL 为空间 VLM 配备两条互补推理路径：纯语言推理（LOR）和检测后推理（DTR）。LOR 执行逐步语言演绎，DTR 先通过区域 token 检测 3D 几何线索（中心点或边界框），再进行几何推理。框架先经冷启动有监督微调构建两条路径的思维链监督，随后用准确率和格式奖励进行强化学习优化，DTR 额外使用基于离散中心的检测奖励。在多个空间基准上，SR‑REAL 显著优于基线：单个 RL 训练模型支持两种路径，联合训练实现互相增强，且模型无需调优即可跨数据集和领域泛化。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Kairos：面向Physical AI的原生世界模型栈

Kairos是面向Physical AI的原生世界模型栈。它采用跨具身数据课程进行原生预训练，融合开放世界视频、人类行为数据和机器人交互。其统一架构配备混合线性时间注意力：滑动窗口捕获局部动态，扩张滑动窗口捕获中距离依赖，门控线性注意力维持持久全局记忆，理论上保证长时域状态传播误差可控。通过部署感知系统协同设计，在服务器和消费级硬件上实现低延迟的观察-行动-反馈循环。在具身世界模型、长时域和行为策略基准上，Kairos达到顶级性能并展现强效率-能力权衡。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Guava：面向具身操作的高效通用框架

Guava 是一个用于具身工具使用的框架，通过系统探索智能体工作流、动作空间和观察空间，确定了三个关键设计：迭代感知-推理-动作循环、语义动作抽象和多模态观察。研究还开发了端到端训练流程，将具身操作能力蒸馏至一个 4B 开源模型，仅用少于 2K 条模拟轨迹。仿真与真实实验表明，Guava 性能接近前沿专有模型，对未见物体、新指令和长时任务有强泛化能力。结果表明，精心设计的框架可作为模型无关的具身操作接口，以极少数据为紧凑开源模型带来涌现能力。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PAIWorld：面向机器人操作的三维一致世界基础模型

PAIWorld 是一种基于扩散 Transformer 的世界基础模型，通过三大组件解决多视图三维不一致问题：几何感知跨视图注意力模块建立显式视图间通信，几何旋转位置编码将相机光线方向和外部位姿编码进注意力机制，潜在三维 REPA 从冻结的三维基础模型中蒸馏三维感知特征。它在机器人操作基准上达到最优多视图三维一致性，WorldArena 排行榜第一，AgiBot-Challenge2026 排行榜第二，并支持基于模型的规划、世界动作模型和多视图策略后训练等下游应用。

具身智能论文/研究

6月15日

22:23

The Verge：AI（RSS）

精选70

Skydio CEO Adam Bry：硅谷不应为无人机使用画红线

Skydio是美国最大的无人机制造商，主攻公共安全、军事、能源、基建巡检等企业市场。CEO Adam Bry表示，特朗普政府去年底禁止中国产无人机后，廉价消费级无人机几乎消失，Skydio产品成为主要替代方案。公司认为无人机正从工具转向自主基础设施——通过机库、远程操控和软件整合实现规模化应用，AI在其中扮演关键角色。访谈还涉及Skydio与军方合作的态度，以及自主技术如何带动公司扩张。

具身智能大佬观点政策/监管

推荐理由：Adam Bry 的立场很鲜明，硅谷不该替前线士兵做决定。这是军工 AI 伦理争议中的一个不避讳声音，做相关产品的人值得听。

21:30

公众号：百度智能云（文心）

上海交大🤝百度智能云：首破世界-动作模型时间绑定，无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM，突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型，真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz，轻量版AHA-WAM-Flash达56.95Hz，提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究

18:43

IT之家（RSS）

三星晶圆代工首获马斯克 Neuralink 芯片订单

三星电子晶圆代工业务首次获得马斯克旗下脑机接口企业Neuralink的芯片合同制造服务订单，将为其生产“第四代”芯片，采用4nm工艺制程，目标2027年底量产，试产已于2026年5月启动。三星此前已是特斯拉AI芯片代工商，此次合作进一步深化了双方关系。Neuralink成立于2016年，专注于植入式脑机接口设备研发。

具身智能行业动态