7月2日

11:28

HuggingFace Daily Papers（社区热门论文）

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换（如从Panda换为UR5e）时通常无法完成已学任务。传统适配需为每个任务收集多次演示，成本高昂。DART（Domain ARiThmetic）提出基于类比推理的方法，通过权重向量算术添加特定领域信息，仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中，DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXiv GitHub 具身智能开源/仓库

10:28

HuggingFace Daily Papers（社区热门论文）

Valdi：价值扩散世界模型

Valdi（Value Diffusion World Models）将端到端在线训练模型预测控制（MPC）与潜在扩散动力学模型相结合，利用单步扩散同时用于训练和推理，在保证低延迟的同时建模不确定的未来。在CarRacing环境中的初步实验显示，Valdi的性能与确定性MLP基线相当，同时揭示了预测多模态性与控制效果之间的权衡。代码已开源。

具身智能论文/研究

10:28

HuggingFace Daily Papers（社区热门论文）

ABot-M0.5：统一的移动与操作世界动作模型

ABot-M0.5 是一种面向机器人移动操作的新型 World Action Model（WAM）。它从三个层面解决现有 WAM 的对齐问题：时间粒度对齐通过引入中间潜在动作捕捉局部视觉状态转换，作为视频潜在与具身控制之间的桥接；动作空间对齐采用双级 Mixture-of-Transformers 架构，解耦模态表示与异构动作子空间（如底座移动与机械臂操作）；推理条件对齐提出 dream-forcing 训练策略，在模型预测视频上逐步训练逆动力学，提升自回归推理时的对齐与鲁棒性。在移动与精细操作基准上，ABot-M0.5 在长程任务成功率与细粒度控制精度上均达到当前最优。

具身智能数据/训练论文/研究

7月1日

23:22

Jim Fan@DrJimFan

继EMPIRE后，Jim Fan团队发布ASPIRE，为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹，对控制程序进行进化搜索，将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略，而是通过传递"技能知识"绕过sim2real和跨本体迁移难题，相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证，计划开源全栈。

Jim Fan: Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...

智能体具身智能开源/仓库论文/研究

01:20

Jim Fan@DrJimFan

Jim Fan 团队发布 ASPIRE：机器人技能库自我进化、持续累积

Jim Fan 团队推出 ASPIRE，一种让机器人通过进化搜索自动扩充技能库的持续学习系统。编码智能体观察仿真与真实机器人的多模态感知痕迹，对控制程序进行进化搜索，将最佳知识蒸馏到不断扩展的技能库中，使机器人解决第 100 个任务时不再像第 1 个那样从零开始。ASPIRE 实现约 10 倍“迁移学习 token”的削减，支持 sim2real 及单臂到双臂硬件的跨实体迁移。项目展示了 150+ 任务和 90+ 技能，将开源完整代码栈。

具身智能论文/研究

6月30日

15:26

HuggingFace Daily Papers（社区热门论文）

视频扩散模型在手部运动重建中的惊人有效性

ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态，通过手部叠加渲染目标适配扩散模型特征，保留世界先验的同时专门化手部特征，再由解码器恢复度量级姿态。整个管道直接处理全帧，无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上，ViDiHand 显著优于现有方法，表明视频扩散模型可作为手部运动重建的新基础，并为具身智能的可扩展野外数据收集提供途径。

arXiv 具身智能多模态论文/研究

11:26

HuggingFace Daily Papers（社区热门论文）

Orca：一个通用世界基础模型

Orca通过下一状态预测（Next-State-Prediction）统一建模多模态世界信号，学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注，包含无意识学习（连续视频中的密集自然状态转换）和有意识学习（语言描述事件和VQA监督下的稀疏状态转换）。冻结主干后，仅训练轻量级模态特定解码器，即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv 具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

ASPIRE：通过迭代机器人探索的自主技能编程系统

ASPIRE是一个持续学习系统，在代码即策略范式下自主编写和优化机器人控制程序，并累积经验为可复用的技能库。其三个组件为：闭环执行引擎（提供细粒度多模态轨迹，支持故障诊断、修复验证）、持续扩展的技能库（将修复蒸馏为可迁移知识）、进化搜索（生成多样化任务序列与控制程序）。在LIBERO-Pro扰动测试中比先前方法提升77%，Robosuite双臂交接提升72%，BEHAVIOR-1K长周期家务提升32%。其技能库实现零样本泛化：在LIBERO-Pro Long上ASPIRE成功率31%，对比方法仅4%。模拟发现的技能初步验证了仿真到真实迁移，减少了不同机器人与API上的编程工作量。

arXiv 具身智能论文/研究

00:34

AK@_akhaliq

PhysisForcing 用于机器人操作的物理强化世界模拟器

具身智能论文/研究

6月28日