5月15日

09:41

IT之家（RSS）

高温洗烘自清洁：小米米家扫地机器人 5 Pro 水箱版 2117 元、上下水版 2151 元

小米米家扫地机器人 5 Pro 正在参与京东 618 大促。其水箱版和薄嵌上下水版原价分别为 3999 元和 4699 元。消费者通过领取 8.7 折券、叠加 PLUS 会员立减及 15% 政府补贴，并参与以旧换新（可补贴 50 元）和晒单返京豆（20 元）活动，最终可将水箱版到手价降至 2117.91 元，上下水版降至 2151.75 元。活动还包含无门槛红包，需注意优惠可能随时变更。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

CM-EVS：用于完整场景覆盖的稀疏全景RGB-D-Pose数据

针对现有3D数据集存在的视图冗余与标注不一致等问题，本研究提出了COVER视角筛选方法。该方法无需训练，通过将多视角观测投影至等距柱状投影探针，以增量式覆盖评分与深度冲突惩罚，筛选出低冗余的稀疏视角。基于此方法，研究构建了CM-EVS数据集，包含来自1,275个室内场景的36,373帧精选全景帧，每帧提供全视角RGB、度量级深度及校准位姿。该数据集室内部分仅用中位25帧/场景即覆盖所有13种统一房间类型，实现了紧凑而完整的场景覆盖。实验表明，COVER方法优化了覆盖与冲突的权衡，使CM-EVS成为一个稀疏、紧凑、可审计的资源，适用于几何一致的全景3D学习。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

DexJoCo：面向任务的灵巧操作基准与工具包

本文提出了DexJoCo，一个基于MuJoCo的面向任务的灵巧操作基准与工具包。它包含11项功能导向的任务，用于系统评估工具使用、双手协调、长程执行和推理能力。研究配套开发了低成本数据采集系统，收集了总计1.1K条任务轨迹，并支持领域随机化以检验模型鲁棒性。团队在多种设置下对现代模型进行了基准测试，包括视觉与动力学随机化、多任务训练和动作头适配。大量的实证分析揭示了当前灵巧操作策略的重要发现与普遍局限，为未来灵巧手机器人学习指明了关键挑战。项目页面已公开。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

WorldAct：将单体式3D世界激活为以对象为中心的可交互场景

针对Marble等生成式系统创建的3D世界存在静态、不可编辑且交互性有限的问题，本文提出WorldAct框架。该框架利用多模态智能体引导场景分解，识别可操作对象，并重建几何对齐的物体级网格以支持交互，同时通过3D修复技术还原背景环境。转化后的场景在保持全局连贯性的前提下，支持物体级编辑、碰撞感知操控以及具身任务执行。实验证明，WorldAct能比原始生成场景实现更丰富的交互，为构建可编辑、可交互的3D世界模型提供了可行方案。

具身智能多模态论文/研究

5月14日

22:40

IT之家（RSS）

丰田推出人形机器人 CUE7：篮球实力再进化，能自由移动、运球

丰田最新人形篮球机器人CUE7在东京职业篮球联赛主场完成首秀。该机器人身高2.18米，重74公斤，不仅能投篮，还新增了在球场自由移动和以接近人类的动作运球的能力。CUE系列始于2017年，此前CUE曾以连续罚球命中2020次创下吉尼斯世界纪录，CUE6则投出24.55米创下人形机器人最远投篮纪录。CUE7全身配备摄像头和传感器，可分析环境并精确控制篮球，其预估售价约为15万美元（约102.1万元人民币）。

产品更新具身智能

19:58

公众号：龙猫LongCat（美团）

MARS TALK 香港大学站|共话具身智能的技术演进与商业化进程

美团技术团队主办的MARS TALK香港大学站活动，聚焦具身智能领域，探讨其从技术验证到规模化商用的演进路径与商业化落地进程。

具身智能行业动态

18:00

Artificial Intelligence News（RSS）

Physical AI向工厂场景迈进：企业开始测试人形机器人

英国科技公司Humanoid将与德国工业供应商舍弗勒合作，在其全球工厂部署人形机器人。根据协议，计划到2032年在舍弗勒的制造基地部署约1000至2000台机器人，首批部署已启动。两家公司未披露合同金额。此次合作标志着Physical AI技术在实际工业环境中的应用进一步加速，人形机器人正从实验室走向生产线。

具身智能行业动态

16:46

HuggingFace Daily Papers（社区热门论文）

FrameSkip：在视觉-语言-动作模型训练中从更少但信息量更大的帧中学习

针对视觉-语言-动作模型训练中密集轨迹数据存在的时间监督不平衡问题，研究团队提出了FrameSkip数据层帧选择框架。该框架通过动作变化、视觉-动作一致性、任务进度先验和夹爪状态转换等指标对帧进行评分，并在目标保留率下将训练样本重新映射至高重要性帧。FrameSkip仅作用于数据加载器，无需改变模型架构或训练目标。在三个基准测试中，其主要设定保留20%的唯一帧，宏观平均成功率达到了76.15%，优于全帧训练的66.50%，在成功率与数据保留率之间取得了更优的权衡。

具身智能数据/训练论文/研究

11:45

HuggingFace Daily Papers（社区热门论文）

RoboEvolve：面向数据稀缺场景的机器人操作规划器-模拟器协同进化框架

RoboEvolve提出一种协同进化框架，以解决机器人操作中物理交互数据稀缺的难题。该框架将视觉语言模型规划器与视频生成模型模拟器耦合，形成相互强化的循环。仅需500张无标注种子图像，通过“日间探索”与“夜间巩固”的双阶段机制，并在自主渐进课程引导下，系统能从简单动作自然扩展至复杂任务。实验表明，其将基础规划器性能提升30个绝对百分点，模拟器成功率平均提高48%，数据效率较全监督基线提升50倍，且能实现无灾难性遗忘的持续学习。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysBrain 1.0 技术报告

针对机器人轨迹数据在构建物理常识上的局限性，PhysBrain 1.0 提出了一种互补方案。该研究构建了一个数据引擎，从大规模人类第一视角视频中提取结构化的物理常识，用于训练视觉语言模型。随后，通过一种保持能力且语言敏感的适配设计，将这些物理先验知识迁移到视觉语言-动作策略中。实验表明，在多项具身控制基准测试上，PhysBrain 1.0 均达到当前最优水平，尤其在跨域任务中展现出强大性能。

具身智能多模态数据/训练论文/研究

5月13日

21:43

Artificial Intelligence News（RSS）

物理人工智能大会登陆圣何塞：机器人与自主AI走向主流

2026年5月18日至19日，Physical AI Expo北美峰会将在圣何塞麦克恩利会议中心举行。此次大会聚焦于机器人、自主系统及现实世界AI部署的未来，汇集了将智能转化为物理行动的全球工程师、构建者和AI先驱。会议旨在推动机器人技术与自主AI从前沿探索走向主流应用，标志着该领域进入规模化落地阶段。

具身智能行业动态

20:39

IT之家（RSS）

我国科研人员探索脑机接口神经探针技术，为慢性疼痛治疗提供新路径

中国科学院长春应用化学研究所张强团队开发出一款植入式水凝胶神经探针，为慢性疼痛治疗提供了新路径。该成果于5月13日发表于《先进材料》期刊。探针采用α螺旋多肽交联剂的超分子水凝胶材料，在模量匹配性、电导率和透光性之间取得平衡，能更好适配脑组织。动物实验显示，植入大脑前边缘皮层的探针可实现长达1年的稳定神经信号记录，并在慢性疼痛模型中有效增强相关脑区活动、提高疼痛阈值、缓解疼痛症状。

具身智能论文/研究

17:44

HuggingFace Daily Papers（社区热门论文）

用于样本高效连续控制的去偏基于模型表示

DR.Q 算法被提出，以解决基于模型表示方法在连续控制中因信息捕获不足和过拟合早期经验而导致的偏差问题。该算法显式最大化当前状态-动作对与下一状态表示之间的互信息，并最小化偏差，同时结合衰减优先经验回放进行过渡采样。在多个连续控制基准测试中，使用单一超参数集进行评估，DR.Q 的表现匹配或超越了近期强基线，有时性能大幅领先。代码已开源。

具身智能论文/研究

17:39

IT之家（RSS）

小米开源 Xiaomi OneVL 自动驾驶模型，业内率先实现 VLA、世界模型等多技术路线统一

小米开源了Xiaomi OneVL一步式潜空间语言视觉推理框架。该模型在业内首次将VLA（视觉语言动作模型）与世界模型这两条技术路线统一于同一框架，通过潜空间推理同时提升推理速度与精度，在多项基准测试中达到先进水平。此外，它还能为决策提供语言和视觉双维度的可解释性。小米已全面开源其模型权重、训练及推理代码。

具身智能多模态模型发布

15:58

Hacker News 热门（buzzing.cc 中文翻译）

Unitree GD01：中国这款售价53.7万美元的可骑乘变形机器人现已投产

Unitree GD01 是一款中国制造的可骑乘变形机器人，售价53.7万美元，现已投入生产。这款机器人结合了骑乘与变形功能，标志着其从研发阶段进入商业化量产。作为高端机器人产品，它体现了中国在创新科技领域的进展，并在科技社区如Hacker News上获得100点关注度。

产品更新具身智能

13:44

HuggingFace Daily Papers（社区热门论文）

世界动作模型：具身AI的新前沿

视觉-语言-动作模型虽在语义泛化上表现良好，但缺乏对物理动态的显式建模。为此，研究界正整合预测环境变化的世界模型，形成“世界动作模型”新范式。WAMs将状态预测与动作生成相统一，以未来状态与动作的联合分布为目标。现有方法可分为级联式与联合式两大类，其发展依托于机器人遥操作、人类演示、仿真及互联网规模第一人称视频等多元数据。评估聚焦于视觉保真度、物理常识与动作合理性。当前领域面临架构与目标碎片化的挑战，亟需建立统一框架。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

基于语言模型先验从观测中学习POMDP世界模型

本文提出了Pinductor，一种利用大语言模型作为先验知识，从少量的观测-动作序列中自动构建部分可观察马尔可夫决策过程世界模型的方法。该方法的核心流程是让LLM先生成候选模型，再通过基于信念的似然分数进行迭代优化。实验表明，尽管使用的信息更少，Pinductor在性能和样本效率上能匹配那些依赖隐藏状态特权的LLM方法，并显著超越传统基线。研究还发现，其性能随LLM能力增强而提升，并在环境语义信息缺失时仍能保持稳定。这证明了语言模型先验是实现在部分可观察环境下高效学习世界模型的一个实用途径。

智能体具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PanoWorld：迈向360度全景世界的空间超感知

针对多模态大模型在360度全景图像空间理解上的不足，研究提出PanoWorld模型。现有方法通常将全景图分解为透视图，忽略了其连续的球面几何结构。为此，本研究构建了大规模几何感知、语言接地且包含深度信息的指令调优数据，并在模型中引入球面空间交叉注意力机制来注入球面几何。在专门构建的诊断性基准PanoSpace-Bench及其他基准测试上，PanoWorld显著超越了现有开源与专有基线。结果表明，稳健的全景推理需要专门的全景原生监督和几何感知的模型适配。所有代码与数据将公开。

arXiv 具身智能多模态论文/研究

5月12日

18:36

IT之家（RSS）

进迭时空第三代 RISC-V 处理器核 X200 完成研发：香山昆明湖架构，性能翻倍

进迭时空宣布完成第三代RISC-V处理器核X200的研发，基于香山昆明湖架构，预计2027年量产。相比上一代X100，其单核性能提升超100%，SPEC2006 Int分数达16分/GHz，频率可达3.3GHz。该处理器支持RVA23.1标准、4x256b向量计算及AI浮点格式，单芯片可支持128核以上，并针对Agent计算、AI超算及云计算等场景优化了向量处理与多核访存能力。目前X200已达到可量产状态，同时第四代X300已开始研发。

具身智能端侧行业动态

17:36

IT之家（RSS）

"全球最强算力"：李想官宣公司自研马赫 M100 芯片，理想 L9 Livis 首发

理想汽车创始人李想正式发布自研马赫 M100 芯片。该芯片采用动态数据流架构和5nm车规级工艺，单芯算力达1280TOPs，号称全球最强。其架构突破传统GPU效率瓶颈，使端到端延迟下降40%，车辆反应速度比人类快一倍。全新理想L9 Livis车型将首发搭载此芯片，并配备3D ViT感知模型，可视距离提升50%，多模态计算量增加10倍，实现自动驾驶、智能交互等功能。李想表示，自研芯片旨在解决供应商技术难题，推动AI在物理世界的实际应用。

产品更新具身智能推理端侧

16:44

HuggingFace Daily Papers（社区热门论文）

RoboMemArena：一个全面且具有挑战性的机器人记忆基准

研究团队推出机器人记忆基准 RoboMemArena，包含26个长轨迹任务，平均轨迹长度超1,000步，其中68.9%的子任务依赖记忆。该基准利用视觉语言模型生成子任务与轨迹，并提供记忆相关标注，同时配备真实世界任务以支持物理评估。团队进一步提出 PrediMem 双系统架构，通过高层VLM规划器管理包含近期与关键帧缓冲的记忆库，并利用预测编码头提升对任务动态的敏感性。实验表明 PrediMem 在基准上优于所有基线模型，为复杂记忆系统的设计提供了新见解。

智能体 arXiv 具身智能论文/研究

16:44

HuggingFace Daily Papers（社区热门论文）

CapVector：在参数空间中为视觉-语言-动作模型学习可迁移的能力向量

本文提出CapVector方法，以解决预训练视觉-语言-动作模型在标准微调中性能提升有限的问题。该方法将辅助目标微调的两个核心目标——增强通用能力与拟合任务特定分布——在参数空间进行解耦。仅需在小规模任务集上使用两种策略训练至收敛，所得两模型间的参数差值即构成“能力向量”。该向量与预训练参数合并后，能形成能力增强的元模型。实验表明，结合轻量正交正则化的标准微调，能以更低计算成本达到与辅助微调基线相当的性能，且所得向量在不同模型与新环境中均表现出有效性和泛化能力。

具身智能论文/研究

16:36

IT之家（RSS）

特斯拉 FSD 在欧洲势头渐盛，爱尔兰考虑批准其上路运行

特斯拉FSD在欧洲监管准入取得新进展，正与爱尔兰主管部门磋商以争取上路许可。此前，特斯拉已在荷兰获得欧盟首张监督版FSD型式认证，并推动其成为欧盟范本。爱尔兰独特的道路环境对验证FSD的适配能力具有战略意义。特斯拉目标最早于2026年夏季在欧盟大范围部署FSD，但具体时间仍取决于欧盟审批及各成员国的态度。欧洲市场的落地将加速其数据积累，但系统目前仍需驾驶员随时接管，并面临法规与复杂路况等挑战。

具身智能政策/监管

13:36

IT之家（RSS）

首次定义具身智能发展曲线：智元彭志辉称 2027 年营收目标超 100 亿元、2030 年超 1000 亿元

在香港具身智能产业峰会上，智元机器人联合创始人彭志辉发布“智元358宏图计划”，提出2027年营收超100亿元、2030年超1000亿元的目标。他首次定义了具身智能产业发展的三条曲线：X曲线为基础技术突破，使机器人“像人一样动起来”，目前已进入平稳阶段；Y曲线由开发工具与数据飞轮驱动，旨在让机器人像人一样干活和交互，实现更高商业价值；Z曲线则通过物理世界部署与模型突破，期待实现智能涌现，使机器人工作成果与人类难以区分。

具身智能行业动态

13:36

IT之家（RSS）

总设计师揭秘"九三阅兵"机器狼：自带云脑协同作战，搭载专属"战靴"

在去年“九三阅兵”亮相的国产“机器狼”由总设计师揭秘核心性能。其搭载“云脑”系统，能进行任务分配，实现狼群协同作战，个体可承担侦察、物资输送或火力打击等不同角色。该装备在复杂地形中表现出色，具备快速上楼、强负重和高稳定性，并能通过姿态调整自主脱困。其关键优势在于配备了多款专用“战靴”，如钉爪足底和防滑足底，通过更换适配不同路面，确保稳健行走。

具身智能行业动态

12:36

IT之家（RSS）

宇树发布全球首款量产版载人机甲 GD01，售价 390 万元起

宇树科技发布全球首款量产版载人变形机甲GD01，起售价为390万元。该机甲具备变形功能，整备质量约为500公斤（含乘员）。作为首款实现量产的载人机甲产品，它标志着此类前沿科技装备正式进入商业化阶段。

产品更新具身智能

11:36

IT之家（RSS）

人形机器人即将"上户口"，湖北率先启动"数字身份证"登记

湖北人形机器人创新中心在全国率先启动人形机器人“数字身份证”登记，实现一机一码、全程可溯。该身份证是机器人的全生命周期唯一身份标识，由国家码、企业码等四部分组成，涵盖生产主体、硬件参数等关键信息。通过它可实时追溯关节损耗、电池状态等动态数据，并支持跨平台通用调拨，提升流转效率，降低交易与监管成本。中心已完成首批企业及产品备案与制码测试，待标准发布后即可正式发证，覆盖光谷东智、格蓝若等七家省内头部企业。

具身智能政策/监管

11:36

IT之家（RSS）

李想：理想做芯片不是烧钱跟风，希望把 AI 带进物理世界并给大家像苹果一样的体验

理想汽车CEO李想展示了自研的马赫M100芯片及相关硬件，并解释布局芯片并非跟风烧钱，而是为了解决供应商的技术瓶颈，旨在让AI能在物理世界中真正运行。他表示，理想的目标是像苹果一样，通过同步自研芯片、操作系统、大模型与硬件，实现全域联合设计，提供卓越的软硬件一体化体验。李想认为，AI时代的竞争是系统化能力的比拼，需在芯片架构、操作系统、模型等多领域做到“N项全能”，才能赢得用户体验。

具身智能端侧行业动态

10:36

IT之家（RSS）

智元机器人扮成李小龙表演飞踢，还会蝴蝶步

智元机器人在香港具身智能产业峰会上展示了多款产品。其双足机器人远征A3扮成李小龙，现场表演了飞踢、高抬腿和蝴蝶步等高难度动作。该机器人采用新一代自研关节，峰值电流150A，瞬时功率12kW，机身重量降至55公斤，综合推重比达0.218 kW/kg。远征A3支持空翻、空中漫步，标称续航10小时，并支持10秒快速换电。同时展出的灵巧手产品能以“捏网球”、手指屈伸等方式展现高度灵活性。

具身智能行业动态

10:36

IT之家（RSS）

智元董事长邓泰华：具身智能有望成为未来最大单品工业品，甚至超过手机数量

在香港具身智能产业峰会上，智元机器人董事长邓泰华指出，具身智能产业潜力巨大，未来可能成为规模最大的单品工业品，市场规模可达“单车价格×手机数量”，长远甚至可能超过手机数量。他透露，智元已实现规模量产，3月底累计下线1万台机器人，2026年目标为数万台量产，并在香港落地行业首批7大部署态解决方案。同时，公司发布香港产业共创计划，未来5年将设立香港国际研发总部，通过“个十百千万”目标培育企业、发展伙伴，目标创造数千亿营收和数万亿港交所市值。

具身智能行业动态部署/工程

08:00

HuggingFace Daily Papers（社区热门论文）

OmniHumanoid：通过免配对适配实现流式跨具身视频生成

针对跨具身视频生成中运动动态可迁移而外观形态具身特定的挑战，OmniHumanoid框架提出了一种分解式方法。它首先在多具身的配对视频上学习共享运动迁移模型，随后仅需非配对视频，通过轻量级适配器即可适应新机器人形态。其核心创新是分支隔离注意力机制，有效分离运动条件与具身调制以减少干扰。该研究还构建了包含多样人形资产与场景的合成数据集。实验表明，该方法在合成与真实基准上均能保持高运动保真度与具身一致性，且无需重新训练核心模型即可扩展至未见过的具身，突破了现有方法对配对数据的依赖与可扩展性限制。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

世界-动作交互模型的曙光：DAWN

研究团队提出世界-动作交互模型（WAIMs）概念，并针对自动驾驶实例化出DAWN模型。DAWN在紧凑的语义潜在空间中，通过世界预测器与条件动作去噪器的耦合进行交互式推理：预测的世界为动作去噪提供条件，而去噪后的动作又反馈以更新世界预测，两者在推理中递归优化。该方法无需在像素空间展开完整未来预测，仅通过短时潜在推演即可支持复杂交互场景中的长时程轨迹生成。实验表明，DAWN在多个自动驾驶基准测试中取得了优异的规划性能与安全相关结果，证明交互式世界-动作生成是构建真正可操作世界模型的有效路径。

arXiv 具身智能论文/研究

5月11日

18:34

IT之家（RSS）

消息称2026款乐道L60汽车将于本月底开启预售，下月正式上市

据报道，蔚来旗下2026款乐道L60将于本月底开启预售，并于下月正式上市。新车已在工信部亮相，主要对前脸设计进行了微调。其核心亮点是搭载了蔚来自研的全球首颗5nm车规级智驾芯片“神玑NX9031”、中国首个面向自动驾驶的“蔚来世界模型”以及行业唯一的AI整车全域操作系统“SkyOS·天枢”。作为参考，现款乐道L60定位中型SUV，提供单电机和双电机版本，并配备不同容量的电池组，续航里程覆盖530km至740km。

具身智能端侧行业动态

16:34

IT之家（RSS）

李想详解理想 L9 Livis"完全体"线控底盘：面向 L3 辅助驾驶和 L4 自动驾驶布局

理想汽车CEO李想介绍了理想L9 Livis的“完全体”线控底盘，其核心特点是支持OTA持续进化。该底盘整合线控转向、线控刹车和后轮转向，带来三大价值：安全性上，电子信号响应更快，能有效缩短制动距离；成长性上，转向手感、刹车脚感等均可自定义升级，实现个性化驾乘体验；战略上，为2027-2033年间落地的L3/L4级自动驾驶提供了车辆控制系统反应速度比人快50%以上的必要基础。L9 Livis旨在兼顾驾驶者操控与全家乘坐舒适性。

产品更新具身智能

16:34

IT之家（RSS）

优必选与日立达成战略合作，Walker S2 机器人将进厂参与"造电梯"

优必选与日立（中国）有限公司签署战略合作协议，共同探索人形机器人在智能制造场景中的应用，以推动制造业智能化转型。合作涵盖电梯、楼宇系统、医疗健康、工业设备及半导体制造设备等领域，结合优必选的技术优势和日立的系统集成经验。目前合作已进入实质性验证阶段，日立在部分制造场景引入优必选的工业级人形机器人Walker S2，并围绕电梯智能制造现场开展深度二次开发，实现全流程柔性化智能流转与数据贯通。

具身智能行业动态部署/工程

11:34

IT之家（RSS）

Vbot 维他动力完成近 5 亿元 Pre-A 轮融资，12988 元超能机器狗开启量产交付

Vbot维他动力宣布完成近5亿元Pre-A轮融资，资金将用于大规模量产、销售网络建设及新一代人形机器人研发。其首款产品Vbot超能机器狗已启动量产交付，首批500台正式下线。该产品售价12988元，搭载双目深度感知激光雷达，AI算力达128TOPS，续航超5小时，官方称其为全球首款无需遥控的智能机器狗。

具身智能行业动态

08:34

IT之家（RSS）

贾跃亭回归出任法拉第未来全球 CEO，FF 官宣将升级为物理 AI 生态公司

贾跃亭宣布回归并出任法拉第未来全球CEO，同时任命Jerry为全球执行董事长，标志着创始团队的“终极回归”。他回顾了FF从创立、低谷到创始团队逐步回归的四个发展阶段。公司战略将升级为美国物理AI生态系统公司，专注于具身智能机器人业务，包括EAI人形与仿生机器人、EAI汽车机器人两大产品引擎。第一阶段以人形和仿生机器人业务为主，汽车机器人业务需在引入足够战略投资、满足量产交付需求后才会全面启动。此外，FF计划首批量产交付的Super One将调整为800V纯电或AIHER混增车型。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

AR-VLA：视觉语言动作模型的真正自回归动作专家

本文提出AR-VLA，一种独立的自回归动作专家模型。它通过可刷新的视觉-语言前缀生成连续的动作序列，并维护长期记忆以保持上下文感知，克服了传统模型每次观测都重置时序的局限。该架构解决了快速控制与慢速推理间的频率失配问题，实现了运动学语法的独立预训练，并可与复杂感知网络模块化集成。通过重锚定机制处理感知延迟，实验证明AR-VLA能生成更平滑的动作轨迹，其任务成功率保持或超越现有最优反应式模型，为机器人策略训练提供了可扩展的上下文感知框架。

智能体具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

SleepWalk：一个用于压力测试指令引导视觉语言导航的三级基准

SleepWalk 是一个用于评估单场景3D世界中指令接地轨迹预测能力的基准。它基于文本描述生成可导航3D环境，要求模型根据视觉观察和语言指令，预测符合场景几何、避免碰撞且能终止于可操作位置的轨迹。该基准涵盖多样环境，并将任务按时空难度分为三级，以分析组合复杂性增加时的接地能力。在2,472个场景上对三个前沿视觉语言模型的测试显示，它们在遮挡、交互约束及多步指令下存在系统性空间推理缺陷，任务难度增加时性能显著下降。SleepWalk为推进接地的多模态推理与具身智能体研究提供了关键基准。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Continual Harness：面向具身智能体的在线自适应与自我改进框架

研究团队提出Continual Harness，一种无需环境重置、可在线自我改进的具身智能体框架。该框架源于Gemini Plays Pokemon实验，其智能体在人工优化后首次实现了《宝可梦》系列游戏的无败绩通关。Continual Harness实现了完全自动化：智能体仅从基础环境接口出发，在单一运行中交替执行行动与自我优化，动态改进提示、子智能体、技能和记忆。在《宝可梦红/绿宝石》测试中，该框架显著降低了操作成本，并弥补了与人工设计专家系统的大部分性能差距。研究进一步实现了在线过程-奖励协同学习循环，通过前沿教师模型标注轨迹并更新模型，最终在无需重置的情况下持续推动了游戏进展。

智能体具身智能论文/研究