AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态论文 · 251 条
全部一手资讯X论文
标签「具身智能」清除
7月2日周四
11:28HuggingFace Daily Papers(社区热门论文)47域算术:环境变化下的一次性VLA适配
10:28HuggingFace Daily Papers(社区热门论文)41Valdi:价值扩散世界模型
10:28HuggingFace Daily Papers(社区热门论文)39ABot-M0.5:统一的移动与操作世界动作模型
7月1日周三
23:22Jim Fan71Jim Fan团队推出ASPIRE:机器人自我进化的技能库系统
01:20Jim Fan53Jim Fan 团队发布 ASPIRE:机器人技能库自我进化、持续累积
6月30日周二
15:26HuggingFace Daily Papers(社区热门论文)56视频扩散模型在手部运动重建中的惊人有效性
11:26HuggingFace Daily Papers(社区热门论文)52Orca:一个通用世界基础模型
08:00HuggingFace Daily Papers(社区热门论文)49ASPIRE:通过迭代机器人探索的自主技能编程系统
00:34AK36PhysisForcing 机器人物理强化世界模拟器
6月28日周日
08:00HuggingFace Daily Papers(社区热门论文)56无姿态多视图的实例结构化3D Token化框架
08:00HuggingFace Daily Papers(社区热门论文)41A2World:从动作到世界建模学习可迁移的动力学先验
6月26日周五
08:00HuggingFace Daily Papers(社区热门论文)56丢弃-恢复:视觉-语言-动作模型有多冗余?
08:00HuggingFace Daily Papers(社区热门论文)34平移作为桥接动作:从人类到机器人的操作技能迁移
08:00HuggingFace Daily Papers(社区热门论文)47PhysisForcing:面向机器人操作的物理增强世界模拟器
08:00HuggingFace Daily Papers(社区热门论文)52SimFoundry:面向策略学习与评估的模块化自动化场景生成系统
6月25日周四
08:00HuggingFace Daily Papers(社区热门论文)39LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)
08:00HuggingFace Daily Papers(社区热门论文)51PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动
08:00HuggingFace Daily Papers(社区热门论文)51面向鲁棒视频理解的置信感知工具编排
08:00HuggingFace Daily Papers(社区热门论文)48机器人控制的上下文世界建模
08:00HuggingFace Daily Papers(社区热门论文)50世界模型中的幻觉可预测且可预防
04:12HuggingFace Daily Papers(社区热门论文)54InSight: 通过可控VLA实现自主技能获取
6月24日周三
11:55HuggingFace Daily Papers(社区热门论文)54FlowR2A:多模态驾驶规划的奖励到动作分布学习
10:49HuggingFace Daily Papers(社区热门论文)47世界价值模型(WVM)用于机器人操作
08:00HuggingFace Daily Papers(社区热门论文)49Play2Perfect:灵巧玩耍预训练对精确装配的关键因素
08:00HuggingFace Daily Papers(社区热门论文)40Fast LeWorldModel
03:06HuggingFace Daily Papers(社区热门论文)42ShotcreteDepth:用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集
6月23日周二
15:13HuggingFace Daily Papers(社区热门论文)44Foresight:基于动作条件世界模型潜在表示的长时域机器人操作故障检测
12:13HuggingFace Daily Papers(社区热门论文)46密集可验证奖励框架 DR-MV3D:全局地图与局部视图驱动的多视角 3D 推理
6月21日周日
08:00HuggingFace Daily Papers(社区热门论文)47PolicyTrim:提升VLA模型内在策略效率
6月20日周六
23:28AK44S-Agent 空间工具使用推理
08:00HuggingFace Daily Papers(社区热门论文)45EBench:通用移动操控策略的细粒度诊断基准
6月19日周五
15:55HuggingFace Daily Papers(社区热门论文)75精选HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据
11:47HuggingFace Daily Papers(社区热门论文)50S-Agent:空间工具使用智能体范式实现空间推理
10:47HuggingFace Daily Papers(社区热门论文)56当前世界模型缺乏持久状态核心
10:47HuggingFace Daily Papers(社区热门论文)45ENPIRE:真实世界中机器人策略的自主改进框架
08:00HuggingFace Daily Papers(社区热门论文)44PoLAR:将潜在动作中的程度和模式分解用于机器人策略学习
01:24Rohan Paul68Claude Opus 4.7 编程机器狗:独立完成任务快 20 倍,但未能取球
01:21Anthropic68Opus 4.7编程机器狗速度提升20倍
00:22Anthropic:Research(发表成果 · 网页)77精选Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
6月18日周四
21:44HuggingFace Daily Papers(社区热门论文)49MolmoMotion:基于语言指令的3D点轨迹预测模型
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月2日
11:28
HuggingFace Daily Papers(社区热门论文)
47
域算术:环境变化下的一次性VLA适配

Vision-Language-Action (VLA) 模型在相机位姿改变或机器人更换(如从Panda换为UR5e)时通常无法完成已学任务。传统适配需为每个任务收集多次演示,成本高昂。DART(Domain ARiThmetic)提出基于类比推理的方法,通过权重向量算术添加特定领域信息,仅需单次演示即可适配目标环境。DART对权重向量中的奇异成分进行子空间对齐以滤除噪声。在模拟和真实实验中,DART在一次性场景下优于现有VLA适配方法。代码已开源。

arXivGitHub具身智能开源/仓库
10:28
HuggingFace Daily Papers(社区热门论文)
41
Valdi:价值扩散世界模型

Valdi(Value Diffusion World Models)将端到端在线训练模型预测控制(MPC)与潜在扩散动力学模型相结合,利用单步扩散同时用于训练和推理,在保证低延迟的同时建模不确定的未来。在CarRacing环境中的初步实验显示,Valdi的性能与确定性MLP基线相当,同时揭示了预测多模态性与控制效果之间的权衡。代码已开源。

具身智能论文/研究
10:28
HuggingFace Daily Papers(社区热门论文)
39
ABot-M0.5:统一的移动与操作世界动作模型

ABot-M0.5 是一种面向机器人移动操作的新型 World Action Model(WAM)。它从三个层面解决现有 WAM 的对齐问题:时间粒度对齐通过引入中间潜在动作捕捉局部视觉状态转换,作为视频潜在与具身控制之间的桥接;动作空间对齐采用双级 Mixture-of-Transformers 架构,解耦模态表示与异构动作子空间(如底座移动与机械臂操作);推理条件对齐提出 dream-forcing 训练策略,在模型预测视频上逐步训练逆动力学,提升自回归推理时的对齐与鲁棒性。在移动与精细操作基准上,ABot-M0.5 在长程任务成功率与细粒度控制精度上均达到当前最优。

具身智能数据/训练论文/研究
7月1日
23:22
Jim Fan@DrJimFan
71
继EMPIRE后,Jim Fan团队发布ASPIRE,为机器人构建可自我进化、无限累积的技能库。编码智能体观察仿真和真实机器人的多模态感官轨迹,对控制程序进行进化搜索,将最佳策略蒸馏进不断扩展的库中。ASPIRE无需梯度下降或端到端策略,而是通过传递"技能知识"绕过sim2real和跨本体迁移难题,相比从头训练实现约10倍迁移学习token缩减。已在150+任务和90+技能上验证,计划开源全栈。

Jim Fan: Today, we give robots a /skills library that self-evolves and compounds indefinitely! Introducing ASPIRE: a robot solvin...

智能体具身智能开源/仓库论文/研究
01:20
Jim Fan@DrJimFan
53
Jim Fan 团队发布 ASPIRE:机器人技能库自我进化、持续累积

Jim Fan 团队推出 ASPIRE,一种让机器人通过进化搜索自动扩充技能库的持续学习系统。编码智能体观察仿真与真实机器人的多模态感知痕迹,对控制程序进行进化搜索,将最佳知识蒸馏到不断扩展的技能库中,使机器人解决第 100 个任务时不再像第 1 个那样从零开始。ASPIRE 实现约 10 倍“迁移学习 token”的削减,支持 sim2real 及单臂到双臂硬件的跨实体迁移。项目展示了 150+ 任务和 90+ 技能,将开源完整代码栈。

具身智能论文/研究
6月30日
15:26
HuggingFace Daily Papers(社区热门论文)
56
视频扩散模型在手部运动重建中的惊人有效性

ViDiHand 利用预训练视频扩散模型的表征重建 4D 双手姿态,通过手部叠加渲染目标适配扩散模型特征,保留世界先验的同时专门化手部特征,再由解码器恢复度量级姿态。整个管道直接处理全帧,无需检测器、填充器或测试时优化。在 ARCTIC、HOT3D 和 HOI4D 基准上,ViDiHand 显著优于现有方法,表明视频扩散模型可作为手部运动重建的新基础,并为具身智能的可扩展野外数据收集提供途径。

arXiv具身智能多模态论文/研究
11:26
HuggingFace Daily Papers(社区热门论文)
52
Orca:一个通用世界基础模型

Orca通过下一状态预测(Next-State-Prediction)统一建模多模态世界信号,学习统一的世界潜空间。预训练使用125K小时视频和1.6亿事件标注,包含无意识学习(连续视频中的密集自然状态转换)和有意识学习(语言描述事件和VQA监督下的稀疏状态转换)。冻结主干后,仅训练轻量级模态特定解码器,即可在文本生成、图像预测和具身动作生成三项下游任务上超越类似规模的专用基线模型。

arXiv具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
ASPIRE:通过迭代机器人探索的自主技能编程系统

ASPIRE是一个持续学习系统,在代码即策略范式下自主编写和优化机器人控制程序,并累积经验为可复用的技能库。其三个组件为:闭环执行引擎(提供细粒度多模态轨迹,支持故障诊断、修复验证)、持续扩展的技能库(将修复蒸馏为可迁移知识)、进化搜索(生成多样化任务序列与控制程序)。在LIBERO-Pro扰动测试中比先前方法提升77%,Robosuite双臂交接提升72%,BEHAVIOR-1K长周期家务提升32%。其技能库实现零样本泛化:在LIBERO-Pro Long上ASPIRE成功率31%,对比方法仅4%。模拟发现的技能初步验证了仿真到真实迁移,减少了不同机器人与API上的编程工作量。

arXiv具身智能论文/研究
00:34
AK@_akhaliq
36
PhysisForcing 用于机器人操作的物理强化世界模拟器
具身智能论文/研究
6月28日
08:00
HuggingFace Daily Papers(社区热门论文)
56
无姿态多视图的实例结构化3D Token化框架

一项前馈式3D场景重建框架,直接从无姿态多视图图像将场景分解为实例结构化3D token组。每组包含一个捕获实体级身份的实例token和多个编码局部几何与外观的锚点token,解码为一组3D高斯。通过可微渲染联合重建与分割监督学习,无需3D标注。该模型在类无关实例分割上超越逐场景优化基线,在新视图合成上具有竞争力。token组可直接实现实例级场景编辑(移除、平移、插入对象)以及高效开放词汇3D实例检索,检索复杂度随实例数而非基元数增长。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
41
A2World:从动作到世界建模学习可迁移的动力学先验

研究提出A2World,一个多视图交互基础扩散世界模型。通过在大规模机器人操作数据上预训练,学习将动作驱动的视觉演变建模为可迁移的动力学先验。预训练权重可适配两类模型:A2World-sim作为任务/场景专用模拟器,用于策略评估与假设分析;A2World-policy作为视频-动作联合预测模型,在视觉和指令条件下预测动作。实验表明,该预训练能为模拟器中心和策略中心的机器人学习提供可迁移的动力学先验。

具身智能论文/研究
6月26日
08:00
HuggingFace Daily Papers(社区热门论文)
56
丢弃-恢复:视觉-语言-动作模型有多冗余?

视觉-语言-动作(VLA)模型继承预训练VLM中过大的语言骨干,引发冗余质疑。Drop-Then-Recovery(DTR)协议通过删除Transformer块并微调恢复,结合单次虚拟门控敏感度指标GateProbe评测容量必要性。在LIBERO上,删除半数LLM块后OpenVLA-OFT在相同微调预算下从95.0%升至98.3%,仅保留两个语言块仍恢复基线性能;但视觉与动作路径对删除耐受性显著更低。结果表明现有VLA基准对深层语言理解压力不足,未来架构应更均衡分配语言、视觉、动作容量。代码已开源。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
34
平移作为桥接动作:从人类到机器人的操作技能迁移

研究从人类动作数据向双臂平行夹爪机器人转移操作技能的方法。针对6DoF人体姿态估计噪声大、接触模式差异大的问题,提出桥接动作表示——初始头部相机帧内的相对手腕平移,作为人类与机器人共有的动作空间。构建π_0-like视觉-语言-动作模型,通过交错动作token和注意力掩码处理不同形态间动作分量的缺失。在双臂操作任务上,该方法比噪声6DoF动作更有效地转移人类操作知识,且效果随人类数据量增加而提升。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
PhysisForcing:面向机器人操作的物理增强世界模拟器

视频生成模型常生成物理不合理的操作。PhysisForcing 通过联合优化像素级和语义级特征,重点监督物理信息区域来强化物理一致性,包括像素级轨迹对齐损失和语义级关系对齐损失。在 R-Bench、PAI-Bench 和 EZS-Bench 上,PhysisForcing 一致提升基线模型:Wan2.2-I2V-A14B 和 Cosmos3-Nano 在 R-Bench 分别提升 22.3% 和 9.2%(优于普通微调的 7.1% 和 3.7%),Cosmos3-Nano 变体取得最佳总分。作为 WorldArena 世界模型,闭环成功率从 16.0% 提升至 24.0%,并改善下游策略。

具身智能视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
52
SimFoundry:面向策略学习与评估的模块化自动化场景生成系统

SimFoundry是一个模块化自动化系统,能从视频零样本构建真实到仿真的场景,生成可用的数字孪生,并支持对象、场景和任务的编辑,自动生成保持原始功能但经过变化的数字表亲。基于SimFoundry数据训练的策略可零样本迁移到真实世界的多步操作、铰接物体交互和双手交互任务;数字表亲有助于泛化到新真实条件。在7个操作任务和5种策略架构上,SimFoundry仿真评估与真实性能高度相关(平均Pearson相关系数0.911,最大排序违反0.018)。使用对象、场景和任务表亲训练的仿真策略在零样本真实评测中,任务成功率分别提升17%、21%和40%。

具身智能数据/训练论文/研究
6月25日
08:00
HuggingFace Daily Papers(社区热门论文)
39
LeHome Challenge 2026 衣物折叠竞赛获奖方案(在线第1、真实世界第2)

该方案在 LeHome Challenge 2026(ICRA 2026 双臂衣物折叠竞赛)中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作(VLA)策略:策略同时作为价值函数,预测动作、成功、进度及任务相关未来量,用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化,以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
PhysiFormer: 世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型,用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格,输入初始顶点位置、速度及材料类型(刚性或弹性),通过去噪扩散过程直接采样未来顶点轨迹,不依赖显式归纳偏置。概率性公式捕捉动力学不确定性,生成多种合理未来。模型在时间、空间和物体维度上分解注意力,实现置换不变的多物体推理。基于 10 万+模拟轨迹训练,可生成刚体和弹性力学,并泛化至混合材料、未见真实几何及更多物体场景,在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
51
面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠,在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段:通过统一接口组织异构视觉工具,每个工具接收子查询和经可靠性-相关性评分筛选的可信帧,返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合(高/中/低)与置信-成本GRPO奖励,联合优化正确性、可靠性和效率。在八个任务上,Robust-TO清洗输入准确率56.4%,超过最强开源基线10.6%p和Gemini-2.5-Pro(46.2%);五种腐蚀下保持54.3%,高出最强开源基线5.8%p,且准确率下降最小。

智能体具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
48
机器人控制的上下文世界建模

传统VLA模型因仅依赖当前观测和语言指令,难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling(ICWM)将系统辨识作为上下文适应问题:机器人通过短暂自生成、任务无关交互历史,自主推断系统变量,从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式,无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明,ICWM在新相机视角下显著优于标准VLA基线。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
世界模型中的幻觉可预测且可预防

现代生成式世界模型渲染逼真未来时产生幻觉,集中于状态-动作空间低覆盖区域。研究引入MMBench2(427小时、210任务)数据集,训练350M参数世界模型,识别出三种幻觉模式(感知、动作边缘化、场景发散),并开发相应预测信号。训练时采用覆盖感知采样;在线时预测信号作为好奇心奖励指导数据收集,仅需50条真实轨迹即可微调模型全新环境。结论:世界模型幻觉本质是数据覆盖问题,检测信号可用于缓解。

具身智能论文/研究
04:12
HuggingFace Daily Papers(社区热门论文)
54
InSight: 通过可控VLA实现自主技能获取

InSight是一个框架,通过让视觉-语言-动作(VLA)模型在原始动作层面(如“将夹爪移动到碗边”“向上抬起”)变得可控,实现自主技能获取。包含两个阶段:(1)自动化分割管道,利用VLM规划分解和末端执行器位姿将演示分割为带标签原始动作;(2)VLM引导的数据飞轮,识别缺失原始动作,自主尝试并标注存储成功演示。在模拟和真实操作任务(方块翻转、抽屉关闭、清扫、扭转、倾倒)上的评估表明,无需人类演示目标技能即可习得,且原始动作可组合执行新任务。

具身智能论文/研究
6月24日
11:55
HuggingFace Daily Papers(社区热门论文)
54
FlowR2A:多模态驾驶规划的奖励到动作分布学习

FlowR2A通过flow-matching解码器学习奖励条件动作分布,将基于评分方法(密集奖励监督但固定动作词汇)与基于锚点方法(动态生成提案但稀疏监督)统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布,引入细粒度每时间步奖励条件和奖励噪声增强,以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果,多模态提案质量显著高于此前方法。

具身智能多模态论文/研究
10:49
HuggingFace Daily Papers(社区热门论文)
47
世界价值模型(WVM)用于机器人操作

现有机器人价值模型基于缺乏时间建模能力的VLM骨干。世界模型擅长时间建模与未来规划,由此将世界模型与价值估计结合,构建了世界价值模型(WVM)。WVM在标准基准上取得SOTA的价值序相关(VOC)结果。为补充仅含专家数据的评测,新引入Suboptimal-Value-Bench(含800条次优轨迹及人工标注),WVM同样保持SOTA。在策略学习中,WVM在模拟和真实部署中提升了多种策略提取方法的操作性能。

具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
49
Play2Perfect:灵巧玩耍预训练对精确装配的关键因素

Play2Perfect 提出一种基于强化学习的任务无关预训练框架,让多指机器人在多样化对象和目标上通过“玩耍”习得可复用的操作先验(如抓取、手中重定向、姿态到达),再微调用于精确装配任务。系统研究表明,对象多样性、训练目标、轨迹多样性和目标精度是关键设计因素。该先验使样本效率比从零强化学习提升 33 倍。零样本 sim-to-real 迁移实现了 0.5 mm 间隙紧配插入 60% 成功率,以及长时序多部件装配和拧螺丝超过 50% 成功率。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
40
Fast LeWorldModel

Fast-LeWM是一种快速潜空间世界模型,基于JEPA和LeWM。它用动作前缀预测替代LeWM逐次单步潜状态展开:将候选动作序列的前缀编码后并行预测对应未来潜状态。前缀级监督使模型学习不同前缀下状态的连续演化,规划时可直接利用最后一个前缀token评估未来潜状态,无需逐一遍历中间想象状态。在多个任务上,Fast-LeWM相比LeWM提高了平均成功率,大幅缩短了规划时间,并实现了随展开步长增长显著变慢的开环潜损失。

具身智能论文/研究
03:06
HuggingFace Daily Papers(社区热门论文)
42
ShotcreteDepth:用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

ShotcreteDepth是一个来自建筑领域的双模态数据集,包含立体RGB图像与LiDAR点云,采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件(高浊度、低光照)下获取,导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成,其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。

arXiv具身智能数据/训练论文/研究
6月23日
15:13
HuggingFace Daily Papers(社区热门论文)
44
Foresight:基于动作条件世界模型潜在表示的长时域机器人操作故障检测

Foresight 是一个利用动作条件世界模型潜在表示来监控操作轨迹的故障检测框架,仅使用最终任务级成功/失败标签训练。它通过预测性世界模型嵌入为不同策略提供统一的故障检测,并用功能共形预测(FCP)自适应校准阈值。在 LIBERO-Long、ManiSkill-Long、BEHAVIOR-1K 仿真环境及真实机器人(ReactorX-200 机械臂三项任务、Franka 机械臂一项任务)上验证,结果表明该嵌入为长时域操作中的可靠故障监控提供了可扩展表示。

具身智能论文/研究
12:13
HuggingFace Daily Papers(社区热门论文)
46
密集可验证奖励框架 DR-MV3D:全局地图与局部视图驱动的多视角 3D 推理

多视角 3D 视觉问答(MV3D-VQA)需整合局部观测为 3D 场景并规划信息视角。现有多模态大模型仅用答案级稀疏监督,导致跨视角推理不一致。DR-MV3D 提出地图级密集可验证奖励框架,将任务分解为异心全局地图构建、问题条件化视角轨迹规划、自我中心定位回答预测。引入全局一致性奖励(利用冻结 3D 视觉基础模型 VGGT 和 SAM3 对齐预测地图)和局部轨迹奖励(监督有序视角选择),并通过轨迹级策略优化(GRPO)训练全流程。在 MindCube、VSI-Bench 和 BLINK 上优于强多图像基线,验证过程级密集监督的有效性。

具身智能多模态论文/研究
6月21日
08:00
HuggingFace Daily Papers(社区热门论文)
47
PolicyTrim:提升VLA模型内在策略效率

VLA模型部署受执行效率制约,现有工作多聚焦单步推理延迟,未充分探索内在策略效率。PolicyTrim提出基于强化学习的后训练框架,通过动态探索策略奖励更长可执行动作块长度,并设计冗余感知奖励减少冗余物理步。在三个基准与三个VLA模型上,动作块利用率提升3倍,物理执行步减少51.4%,端到端部署速度提升5.83倍,任务成功率未受影响。

具身智能数据/训练论文/研究
6月20日
23:28
AK@_akhaliq
44
S-Agent 空间工具使用催生空间智能的推理
智能体具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
45
EBench:通用移动操控策略的细粒度诊断基准

EBench是一个模拟基准,用于细粒度诊断通用移动操控策略的能力,而非仅评估单一成功率。它包含26个多样化任务,沿5个能力维度和4个泛化维度标注。评估了π₀、π₀.₅、XVLA和InternVLA-A1等当前最先进的通用操控模型,发现成功率相近的模型能力画像存在显著差异:π₀.₅测试成功率最高且训练-测试保留最佳;InternVLA-A1在移动操控任务上占优,但在灵巧任务上崩溃;XVLA在原子技能上与其他策略互补。EBench还从4个代表性角度分析泛化能力,揭示了不同分布偏移因素的影响。

arXiv具身智能论文/研究
6月19日
15:55
HuggingFace Daily Papers(社区热门论文)
精选75
HumanScale:自我中心人类视频在具身预训练中可超越真实机器人数据

HumanScale项目比较了自我中心人类视频与遥操作真实机器人轨迹作为具身基础模型预训练数据源。经精心设计的过滤与标注流程后,基于自我中心数据预训练的模型在真实机器人动作预测上验证损失降低24%,分布内任务成功率高52.5%,分布外任务成功率高90%。研究验证了一种可扩展范式:先以人类视频预训练学习多样世界表征,再以少量标注机器人数据微调对齐动作空间。

具身智能数据/训练论文/研究

推荐理由:让机器人看人类干活视频,预训练效果居然比直接用真实机器人数据更好,这个反直觉发现可能彻底改变具身智能的数据策略,做机器人的值得认真读一读。
11:47
HuggingFace Daily Papers(社区热门论文)
50
S-Agent:空间工具使用智能体范式实现空间推理

S-Agent 将空间推理视为时空证据积累,以 VLM 为语义规划器,通过分层空间工具和专家将 2D 物体提升为 3D 几何证据,聚合为计数、测量等高级空间知识;Scene Memory 和 Agent Memory 实现跨帧证据整合。在多视角与视频空间推理基准上,S-Agent 无需训练一致提升开源和闭源 VLM。在 S-Agent 生成的空间轨迹数据集 S-300K 上微调得到的 S-Agent-8B 显著超越同规模基线 Qwen3-VL-8B,性能媲美 GPT-5.4 和 Gemini 3。

智能体具身智能论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
56
当前世界模型缺乏持久状态核心

世界模型现有基准仅奖励帧保真度、运动控制和摄像机可控性,忽略了无人观察时世界是否持续演化。新诊断基准WRBench将摄像机运动视为对可观测性的干预,通过链式评估:摄像机是否执行请求动作、场景在视野内是否连续可识别、返回目标是否与之前设定事件一致。对23个模型(9600个视频,覆盖四种控制范式)的测试表明,当前系统维持的是跟踪镜头——返回目标停留在被遗弃时的状态,而非不可见期间继续演进。这一失败跨控制范式、模型家族和规模,表明鲁棒的世界状态演化不会随更清晰的图像、更紧的控制、更丰富的几何先验或参数数量自动实现。物理状态核的稳定性和视角干预下的世界线一致性应成为世界模型设计的一等目标。

具身智能视频论文/研究
10:47
HuggingFace Daily Papers(社区热门论文)
45
ENPIRE:真实世界中机器人策略的自主改进框架

ENPIRE 提出一个闭环框架,让编码智能体通过环境(自动重置与验证)、策略改进、回滚(并行评估策略)和进化(分析日志、查阅文献、改进训练与算法代码)四个模块,自主完成真实世界的策略学习。该框架将操作任务转化为可控优化流程,在整理针盒、扎带紧固与工具使用等精细操作中达到 99% 成功率,并通过机器人集群加速迭代。

智能体具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
44
PoLAR:将潜在动作中的程度和模式分解用于机器人策略学习

PoLAR 在潜在动作空间上施加径向结构,使半径编码过渡程度、方向保留过渡模式。利用两帧观测间的时间偏移作为过渡程度的弱代理,在双曲空间中实例化,借助其随半径膨胀的体积容纳更大程度下的多样化模式。在任务内和大规模预训练中,PoLAR 在仿真和真实机器人实验里提升了下游策略性能,优于潜在动作基线及强预训练 VLA 模型。

具身智能数据/训练论文/研究
01:24
Rohan Paul@rohanpaul_ai
68
Claude Opus 4.7 编程机器狗:独立完成任务快 20 倍,但未能取球

Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务,约为去年人类团队(借助 Opus 4.1)耗时 264 分钟的 20 倍,代码量从 10,309 行降至 1,045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球,失败原因在于闭环控制——机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码,但实时物理判断仍具挑战。

Anthropic: New Frontier Red Team blog: Phase 2 of Project Fetch, where we test how well Claude can program a robodog. Opus 4.7, on ...

Anthropic具身智能编码论文/研究
01:21
Anthropic@AnthropicAI
68
New Frontier Red Team 博客:Project Fetch 第二阶段,我们测试 Claude 编程机器狗的能力。 Opus 4.7 单独完成任务的速度比去年最佳人类团队(辅以 Opus 4.1)快约 20 倍。(可惜,机器狗仍然未能取回沙滩球。) https://www.anthropic.com/research/project-fetch-phase-two
Anthropic具身智能论文/研究
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究

推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
6月18日
21:44
HuggingFace Daily Papers(社区热门论文)
49
MolmoMotion:基于语言指令的3D点轨迹预测模型

MolmoMotion将运动预测形式化为目标条件的3D点运动预测:给定短视觉历史、物体上的3D查询点集和语言描述的目标,预测每个点的未来3D轨迹。研究包含三个组件:MolmoMotion-1M数据集(从116万段无约束视频中标注动作描述和3D点轨迹)、PointMotionBench人工验证基准(覆盖111类物体和61种运动类型)以及MolmoMotion模型(支持自回归坐标预测和流匹配轨迹生成)。该模型能根据语言指令预测多样化运动,在基准上显著超越现有方法,且学到的3D运动先验可迁移至机器人操作和视频生成。

具身智能多模态论文/研究
‹ 上一页
1234567
下一页 ›