AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 760 条
全部一手资讯X论文
标签「具身智能」清除
5月30日周六
17:48MarkTechPost(RSS)61Genesis AI 发布 Nyx、Quadrants 和 Genesis World 1.0 物理平台,用于可扩展的机器人基础模型评估
17:21IT之家(RSS)45多名特斯拉前员工坦言不信赖 FSD,更有人称"给钱我都不坐"
16:21IT之家(RSS)61何小鹏:很多机器人公司没做好小脑,他们做的是"脑干、脊椎"
12:41Hacker News 热门(buzzing.cc 中文翻译)48Shift将免费提供家政服务,以此培训未来的机器人
11:21IT之家(RSS)62英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象
08:00HuggingFace Daily Papers(社区热门论文)65RoboStressBench:面向具身场景物理视觉压力的VLM鲁棒性基准测试
01:45The Verge:AI(RSS)62科技公司迫切希望拍摄你做家务的画面
00:30HuggingFace Daily Papers(社区热门论文)64DynaFLIP:通过三模态动态引导表示重新思考机器人感知
00:18Ars Technica:AI(RSS)51机器人训练初创公司将派戴摄像头的人上门清洁
5月29日周五
23:13Qwen:Blog Retrieval(API)66精选Qwen-VLA:从理解世界到付诸行动
22:53公众号:通义实验室(千问)61同事件精选Qwen-VLA:迈向通用具身智能的统一动作框架同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
22:21IT之家(RSS)53宝马德国工厂迎来新一批机器人员工,有望给 1 系 / 2 系 / 纯电 MINI"打螺丝"
21:21IT之家(RSS)53亚洲首店,宇树科技具身智能体验馆 5 月 31 日在上海开业
20:15The Verge:AI(RSS)43这家 AI 创业公司将免费为你打扫房屋,以训练未来的机器人
18:21IT之家(RSS)46美初创公司 Shift 声称可以免费帮你打扫房屋,代价是全程录像以训练自家 AI
16:30HuggingFace Daily Papers(社区热门论文)60PhyGenHOI:动态人-物交互的物理感知4D生成
14:21IT之家(RSS)41全程无人:鸿蒙智行全新一代问界 M9 实现工厂内部自动驾驶,自动过检测线、自动强化路试、自动泊车入库
11:29HuggingFace Daily Papers(社区热门论文)70同事件精选Qwen-VLA:统一跨任务、环境与机器人形态的视觉-语言-动作建模同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
11:10Hacker News 热门(buzzing.cc 中文翻译)42据诉讼称,一家旧金山初创公司正在Airbnb房源中测试机器人,并将其损毁
08:00HuggingFace Daily Papers(社区热门论文)56SpatialAct: 探测VLM智能体在3D场景中的空间推理至行动能力
08:00HuggingFace Daily Papers(社区热门论文)61StressDream:引导视频世界模型以实现稳健的策略评估与改进
08:00HuggingFace Daily Papers(社区热门论文)56轨迹中的捉迷藏:发现VLA运行时监控的故障信号
07:21IT之家(RSS)55国产"机器獒"系列地面无人装备首次全谱系亮相
00:19IT之家(RSS)59华为余承东:全新途灵龙行平台首创全域融合架构、全链路八大冗余设计,为 L3 时代做好了准备
5月28日周四
20:19IT之家(RSS)50何小鹏:面向量产版本的小鹏 IRON 机器人预计 Q3 亮相、年底量产
19:58公众号:龙猫LongCat(美团)36美团无人机低空航网正式投入运营,M-Drone 4L索降版发布
17:15IT之家(RSS)63特斯拉得州 Optimus 专属机器人工厂动工,规划年产能最高达千万台
16:15IT之家(RSS)69何小鹏称 L4 自动驾驶有望两年内实现,可能未来买车一半的钱是为软件买单
14:15IT之家(RSS)582026 世界智能产业博览会今日在天津开幕,具身智能首次独立成馆
12:28HuggingFace Daily Papers(社区热门论文)65GEM:生成式监督助力具身智能
11:15IT之家(RSS)48星尘智能绳驱机器人 T1 发布:能做饭、晾衣服,8.99 万元起
08:00HuggingFace Daily Papers(社区热门论文)49工业视觉Sim-to-Real中的先验可用性:CAD引导与CAD不可用设置综述
08:00HuggingFace Daily Papers(社区热门论文)55VisualThink-VLA: 用于高效低延迟视觉-语言-动作策略的视觉中间推理框架
5月27日周三
22:14IT之家(RSS)44波士顿动力 Atlas 人形机器人学踢足球,计划亮相 2026 世界杯
18:14IT之家(RSS)58刘强东最新内部讲话:京东必须想尽一切办法保住兄弟们的饭碗
18:14IT之家(RSS)45Waymo自动驾驶汽车半路"撂挑子",客服建议乘客改打 Uber 或 Lyft
14:14IT之家(RSS)56消息称小鹏机器人进入量产冲刺阶段:年底量产,预计 2027 年一季度进入线下门店担任导购
12:35公众号:生数科技(Vidu·视频)42实力认证!MotuBrain荣获BEYOND创新大奖
11:13IT之家(RSS)49Hugging Face 推出双足机器人:开源、低成本、3D 打印
10:19HuggingFace Daily Papers(社区热门论文)68空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月30日
17:48
MarkTechPost(RSS)
61
Genesis AI 发布 Nyx、Quadrants 和 Genesis World 1.0 物理平台,用于可扩展的机器人基础模型评估

Genesis AI 发布 Genesis World 1.0 仿真平台。该平台包含物理、渲染、编译、工具四大组件,其仿真与真实机器人部署的相关性达 0.8996。策略评估时间从超过 200 小时缩短至不足 0.5 小时。

产品更新具身智能
17:21
IT之家(RSS)
45
多名特斯拉前员工坦言不信赖 FSD,更有人称"给钱我都不坐"
具身智能行业动态
16:21
IT之家(RSS)
61
何小鹏:很多机器人公司没做好小脑,他们做的是"脑干、脊椎"
具身智能大佬观点
12:41
Hacker News 热门(buzzing.cc 中文翻译)
48
Shift将免费提供家政服务,以此培训未来的机器人

AI训练数据初创公司Shift宣布将免费提供家政清洁服务,以此收集真实家庭环境中的操作数据,用于训练未来的家政服务机器人。Shift通过让人类执行清洁任务并记录动作数据,为机器人学习复杂家庭任务提供高质量训练素材。

具身智能数据/训练行业动态
11:21
IT之家(RSS)
62
英伟达推出 LocateAnything,主打 AI 高速、高精度检测对象

英伟达联合香港理工大学、南京大学推出 LocateAnything 模型,专为机器人感知与 AI 智能体设计,可高速高精度从图像或截图中定位指定对象并输出检测框。该模型采用并行框解码技术,提供快速、慢速与混合三种模式。其训练数据集 LocateAnything-Data 包含 12M 图像、138M 语言查询与 785M 边界框。在单张 H100 GPU 上,混合模式速度达 12.7 Boxes Per Second,超过 Qwen3-VL(1.1 BPS)与 Rex-Omni(5.0 BPS)。在 LVIS(IoU=0.95)评测中得分 31.1,高于 Rex-Omni 的 20.7。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
65
RoboStressBench:面向具身场景物理视觉压力的VLM鲁棒性基准测试

RoboStressBench是一个用于评估视觉语言模型在具身场景中对物理视觉压力鲁棒性的基准测试。它从逆向图形学角度出发,将视觉压力系统性地分解为材质、视角、光照和几何四个基于物理的维度。该研究通过对先进模型的全面评估,揭示了特定压力下的失败模式,并发现不同物理因素对识别、推理和规划等能力的影响存在差异。此外,研究还引入了一种压力感知智能体求解器,它能在推理前检测视觉压力源并调用视觉编辑技能,以提升模型在复杂场景中的鲁棒性。

具身智能多模态论文/研究评测/基准
01:45
The Verge:AI(RSS)
62
科技公司迫切希望拍摄你做家务的画面

AI训练数据初创公司Shift宣布将为纽约人提供免费家庭清洁服务,并计划扩展至伦敦等城市。作为交换,Shift要求拍摄其清洁人员工作的视频,记录洗碗、擦柜台、扫地、拖地等所有家务劳动。这些视频数据正被机器人公司竞相收集,用于训练机器完成家务,最终目的是销售家用服务机器人。

具身智能数据/训练现象/趋势
00:30
HuggingFace Daily Papers(社区热门论文)
64
DynaFLIP:通过三模态动态引导表示重新思考机器人感知

DynaFLIP 是一个动力学感知的多模态预训练框架,旨在将运动理解能力前置到感知阶段。该框架利用异构的人类与机器人视频构建图像-语言-3D光流三元组作为训练监督信号,以单纯形体积最小化为核心思想,结合余弦正则化与对比学习目标,优化单一图像编码器在共享超球面空间中的对齐。分析表明,该模型能聚焦于对机械臂操作至关重要的控制相关区域。其生成的视觉表示可作为可复用骨干网络,在多种下游策略(包括视觉语言动作模型)中均优于基线。在分布外场景下,性能提升高达 +22.5%。

具身智能多模态论文/研究
00:18
Ars Technica:AI(RSS)
51
机器人训练初创公司将派戴摄像头的人上门清洁

一家初创公司正采用一种新方式为机器人训练收集数据:支付费用,让人类佩戴头戴摄像头,上门执行清洁任务,从而获取第一人称视角的操作数据。

具身智能数据/训练行业动态
5月29日
23:13
Qwen:Blog Retrieval(API)
精选66
Qwen-VLA:从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布

推荐理由:Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型,在多个基准上打平甚至超越专用模型,这是通用具身智能的一个重要信号,但离实际可用还有距离。
22:53
公众号:通义实验室(千问)
同事件精选61
Qwen-VLA:迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA,以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示,将操作、导航与轨迹预测统一在同一框架下,支持11种机器人平台。在5个仿真基准中,单一通用模型在3个上超越最佳专用模型;ALOHA真机in-domain成功率83.6%,OOD泛化76.9%,分别超越π₀.₅超35和40个百分点;DOMINO动态操作零样本达26.6%;VLN-CE导航R2R和RxR分别达57.5%和59.6%,均超越专用模型。

具身智能模型发布
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
推荐理由:通义把操作、导航和轨迹预测塞进一个脑子,在11种机器人上通用,这是具身智能从'专家'走向'通才'的关键一步,做机器人的值得翻翻论文。
22:21
IT之家(RSS)
53
宝马德国工厂迎来新一批机器人员工,有望给 1 系 / 2 系 / 纯电 MINI"打螺丝"

宝马集团将从今年夏季开始,在德国莱比锡工厂部署由瑞士 Hexagon Robotics 公司开发的 AEON 人形机器人,参与高压电池组装和零部件制造。这些身高 1.65 米、重约 60 公斤的机器人预计主要用于生产纯电 MINI Countryman E,也可能参与宝马 1 系和 2 系的轻混车型制造。

具身智能行业动态
21:21
IT之家(RSS)
53
亚洲首店,宇树科技具身智能体验馆 5 月 31 日在上海开业

宇树科技宣布其亚洲首家具身智能体验馆将于5月31日在上海开业。该店位于静安区久光百货,面积超100平方米,将集中展示G1人形机器人、R1人形机器人及Go2机器狗全系列C端产品,顾客可现场互动体验。此前,宇树科技已于4月29日在北京王府井开设全国首家直营店。

具身智能行业动态
20:15
The Verge:AI(RSS)
43
这家 AI 创业公司将免费为你打扫房屋,以训练未来的机器人

AI训练数据初创公司Shift宣布了一项独特的服务:为用户免费提供房屋清洁。条件是,公司会录制清洁工清洁、吸尘、除尘、整理和清洗的全过程,并将这些视频数据用于训练机器人。Shift解释称,由此生成的训练数据价值足以支付整个服务的成本。其宣传语称:“你获得一尘不染的公寓。我们获得训练数据。每个人都赢。”

具身智能数据/训练行业动态
18:21
IT之家(RSS)
46
美初创公司 Shift 声称可以免费帮你打扫房屋,代价是全程录像以训练自家 AI

美国公司 Shift 在纽约市提供免费公寓清洁服务,作为交换,专业清洁人员需全程佩戴设备录制第一视角画面。这些视频将被用于制作数据集,授权给机器人和人工智能训练,以学习人类完成日常任务的操作数据。Shift 声称,所有画面会在使用前进行匿名化处理,模糊所有可识别个人信息,且录像仅用于训练,不会公开分享或出售。目前服务范围限于纽约,未来计划扩展至全球并提供上门维修、跑腿等更多免费服务。

具身智能数据/训练行业动态
16:30
HuggingFace Daily Papers(社区热门论文)
60
PhyGenHOI:动态人-物交互的物理感知4D生成

PhyGenHOI是一个用于生成物理准确、视觉逼真的4D人-物交互场景的新框架。给定静态3D人体和目标物体的3D高斯表示,该框架旨在合成人体与物体主动交互的动态场景。它将人体建模为由运动扩散模型驱动的语义智能体,物体则通过物质点方法模拟为物理智能体,并以3D高斯作为统一可微表示。交互通过三个耦合机制监督:时间同步的窗口吸引力损失、碰撞触发的接触驱动重模拟,以及增强接触保真度的遮罩视频-SDS目标。实验证明,PhyGenHOI能生成物理一致的交互,性能优于基线方法。

arXiv具身智能多模态论文/研究
14:21
IT之家(RSS)
41
全程无人:鸿蒙智行全新一代问界 M9 实现工厂内部自动驾驶,自动过检测线、自动强化路试、自动泊车入库
产品更新具身智能
11:29
HuggingFace Daily Papers(社区热门论文)
同事件精选70
Qwen-VLA:统一跨任务、环境与机器人形态的视觉-语言-动作建模

Qwen-VLA是一个统一的具身基础模型,将Qwen的视觉-语言建模从感知、理解与推理扩展至连续动作和轨迹生成。它通过基于DiT的动作解码器实现,使用包含机器人操作轨迹、人类第一人称示范、仿真及导航数据等在内的大规模数据进行联合预训练。为支持多种平台,引入了感知载体感知的提示条件机制,并将操作、导航与轨迹预测统一到一个框架中。实验显示,Qwen-VLA-Instruct在多个基准上表现优异,例如在LIBERO达到97.9%,在真实世界ALOHA实验中平均分布外成功率为76.9%。

具身智能多模态论文/研究
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
推荐理由:Qwen-VLA 让一个模型同时搞定操作、导航和轨迹,在具身智能统一化上迈出了关键一步。虽然还停在实验室阶段,但 97.9% LIBERO 和真实世界泛化结果证明这条路走得通,做机器人的值得认真读。
11:10
Hacker News 热门(buzzing.cc 中文翻译)
42
据诉讼称,一家旧金山初创公司正在Airbnb房源中测试机器人,并将其损毁

旧金山一家初创公司因在未告知房东的情况下,于Airbnb房源内测试机器人并造成损坏而被起诉。诉讼称,该公司秘密安装摄像头和机器人设备进行测试,导致房屋受损。原告要求赔偿损失并停止相关测试活动。

具身智能行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
56
SpatialAct: 探测VLM智能体在3D场景中的空间推理至行动能力

SpatialAct是一个基于模拟器的基准,用于评测视觉语言模型(VLM)智能体在3D场景中的行动条件空间推理。基准从多轮交互改进任务出发,设计了单步错误检测与修复任务及五项基础空间能力任务。实验显示,当前VLM在孤立空间推理任务上表现良好,但在多轮反馈中难以维持一致的空间信念并产生可靠行动,表现显著低于人类。结果表明,即便底层控制被抽象,现有VLM智能体仍缺乏在行动导致环境变化下的鲁棒空间状态跟踪能力。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
61
StressDream:引导视频世界模型以实现稳健的策略评估与改进

本文提出StressDream方法,旨在引导基于扩散的视频世界模型(WM)的想象过程。该方法通过优化初始噪声,将模型的想象引向推理时指定的高影响且合理的场景。它采用两个互补目标:一个利用视觉语言模型的语义目标,另一个是防止噪声偏移的可行性目标。在自动驾驶和机器人操作领域的验证表明,StressDream能有效将想象引向指定的文本场景(如任务失败),从而通过识别那些合理未来包含不良结果的动作,实现稳健的策略评估与改进。

具身智能视频论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
56
轨迹中的捉迷藏:发现VLA运行时监控的故障信号

为解决视觉-语言-动作(VLA)模型在机器人执行任务时易发生故障的问题,研究提出了Hide-and-Seek框架。该框架将故障检测视为弱监督学习问题,通过结合轨迹间与轨迹内的对比学习目标,仅利用轨迹级标注来定位故障动作并生成时序故障信号,无需步骤级标注。研究在LIBERO、VLABench和真实机器人平台上,对OpenVLA、π_0和π_{0.5}策略进行了评估。该方法在保形预测下取得了先进的多任务故障检测性能,并对已见和未见任务展现出良好的泛化能力。

具身智能论文/研究
07:21
IT之家(RSS)
55
国产"机器獒"系列地面无人装备首次全谱系亮相

在第十一届中国(北京)军事智能技术装备博览会上,国产“机器獒”系列地面无人装备首次全谱系亮相。该系列分为“影獒”与“铁獒”两大平台:“影獒”体型紧凑,具备静音机动能力,适用于隐蔽侦察与渗透;“铁獒”采用轮足复合结构,轮式速度约50公里/小时,能跨越1.6米宽战壕和80厘米高垂直障碍,搭载7.62毫米机枪或榴弹发射器及三光侦察系统,支持自主跟随。该装备旨在实现“机器主战、人类主控”的未来地面作战模式。

产品更新具身智能
00:19
IT之家(RSS)
59
华为余承东:全新途灵龙行平台首创全域融合架构、全链路八大冗余设计,为 L3 时代做好了准备

鸿蒙智行发布全新问界 M9,全系搭载华为乾崑智驾 ADS 5,起售价 47.98 万元。余承东在发布会强调,新车采用的华为途灵龙行平台首创全域融合架构与全链路八大冗余设计,已为 L3 时代做好准备。他直言就等国家 L3 牌照发放,并期待国内 L3、L4 自动驾驶早日到来。

具身智能行业动态
5月28日
20:19
IT之家(RSS)
50
何小鹏:面向量产版本的小鹏 IRON 机器人预计 Q3 亮相、年底量产
产品更新具身智能
19:58
公众号:龙猫LongCat(美团)
36
美团无人机低空航网正式投入运营,M-Drone 4L索降版发布

5月21日,2026世界无人机大会上,美团宣布“城市低空物流航网”正式常态化运营,并发布第四代无人机长程索降版M-Drone 4L Winch、智能接驳机场M-Port 3和无人机云枢M-DaaS 3。M-Drone 4L可在-20℃至50℃、大雨、中雪及6级大风下稳定飞行,覆盖国内97%以上城市场景;M-Port 3占地仅1.4平方米,可极简部署;M-DaaS 3能在100毫秒内对异常状况判断,配合三级安全保障体系,已安全完成超90万单配送。同时启动授权服务商招募,首批签约10家,覆盖浙江、湖南、广西等省份,场景从餐饮外卖拓展至医疗、工业等领域。

产品更新具身智能端侧
17:15
IT之家(RSS)
63
特斯拉得州 Optimus 专属机器人工厂动工,规划年产能最高达千万台

特斯拉位于得州超级工厂的专属 Optimus 机器人工厂已正式动工,规划年产能最高可达 1000 万台。新厂房长度将超过 4000 英尺,并同步布局 Terafab 晶圆厂。为提前启动生产,加州弗里蒙特工厂已关停部分产线用于 Optimus 初期制造,预计今年 7 月或 8 月投产。得州工厂计划于 2027 年夏季实现大规模量产。马斯克认为,Optimus 的价值未来可能超越特斯拉整个汽车业务。该项目总投资额可能高达数十亿美元,但仍面临制造体系、人工智能系统及供应链等挑战。

具身智能行业动态
16:15
IT之家(RSS)
69
何小鹏称 L4 自动驾驶有望两年内实现,可能未来买车一半的钱是为软件买单

小鹏集团董事长何小鹏表示,公司已进行重大战略转向,放弃原有“缝合怪”体系,全面押注“物理AI”架构。新路径有望在18到24个月内(约2027年底前)实现L4级自动驾驶。他同时透露,高等级人形机器人的商业化量产元年很可能在2027年。何小鹏预测,未来10年硬件与软件价值可能各占50%,用户为软件付费的价值占比将大幅提升。

具身智能大佬观点
14:15
IT之家(RSS)
58
2026 世界智能产业博览会今日在天津开幕,具身智能首次独立成馆
具身智能行业动态
12:28
HuggingFace Daily Papers(社区热门论文)
65
GEM:生成式监督助力具身智能

当前具身视觉语言模型(VLM)在高层语义与底层物理操作能力间存在差距。GEM 模型通过在预训练阶段集成深度图生成这一生成式监督任务来弥补该差距,联合训练显著提升了模型的语义理解与物理操作能力。配套发布的 GEM-4M 大规模数据集包含定位、推理和规划数据,并附带高质量深度监督。实验表明,GEM 在多项具身基准测试中达到领先水平,其部署的行动模型 GEM-VLA 在仿真与真实环境评估中均展现出卓越的任务执行能力。代码、模型与数据集已开源。

arXiv具身智能开源生态数据/训练
11:15
IT之家(RSS)
48
星尘智能绳驱机器人 T1 发布:能做饭、晾衣服,8.99 万元起
产品更新具身智能
08:00
HuggingFace Daily Papers(社区热门论文)
49
工业视觉Sim-to-Real中的先验可用性:CAD引导与CAD不可用设置综述

该综述将工业视觉Sim-to-Real重新框架为基于先验可用性的域差距问题,区分了CAD可用(支持渲染、标定、位姿估计、分割及测试时几何验证)、CAD不可用(依赖法向参考外观、特征分布、教师‑学生残差、合成异常假设、基础特征或视觉‑语言先验)以及边界先验(仅保留部分CAD作用的近似模型、模板、参考视图或语义对应)三种设置。以T‑LESS/BOP、MVTec AD和VisA为实证锚点,发现CAD渲染数量本身并不能弥合迁移差距,源分布设计、检测器容量和小规模真实校准更为关键。测试时CAD通过掩码、姿态和深度一致性提供了独立验证通道,而CAD不可用检测则依赖校准的正常性和特征偏差。该文反对单一跨任务排行榜,主张根据先验可用性来部署决策。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
55
VisualThink-VLA: 用于高效低延迟视觉-语言-动作策略的视觉中间推理框架

本文提出 VisualThink-VLA,一个用于 VLA 策略的视觉中间推理框架,旨在解决文本思维链在具身控制中因信息干扰和解码延迟高导致的实时执行难题。该框架通过一个紧凑的视觉证据接口引导动作预测,在保留空间精度的同时避免了解码开销。其采用选择性路由机制学习视觉证据 token,以实现低延迟推理。研究引入了 VisualEvidence-Kit,其中包含一个构建了 754.7k VLA 指令集的视觉证据智能体。在多项基准和真实机器人评估中,该框架在大多数任务上成功率最高,并将推理增强基线的多秒级延迟降至亚秒级。例如,在 BridgeData V2 上,其将步骤延迟从 ECoT 的 8.377 秒降至 0.367 秒,实现了 22.8 倍的加速。

智能体具身智能推理论文/研究
5月27日
22:14
IT之家(RSS)
44
波士顿动力 Atlas 人形机器人学踢足球,计划亮相 2026 世界杯

波士顿动力发布视频,展示其 Atlas 人形机器人通过观看屏幕上的足球比赛录像,学习并复刻推球、庆祝等动作。该公司此前演示过 Atlas 借助强化学习与仿真技术搬运约 45 公斤重物。企业透露,计划让 Atlas 与四足机器人 Spot 亮相 2026 年世界杯,但具体职责未公布。

具身智能行业动态
18:14
IT之家(RSS)
58
刘强东最新内部讲话:京东必须想尽一切办法保住兄弟们的饭碗
具身智能大佬观点
18:14
IT之家(RSS)
45
Waymo自动驾驶汽车半路"撂挑子",客服建议乘客改打 Uber 或 Lyft

本月,一名乘客在旧金山乘坐Waymo自动驾驶出租车,距离酒店仅约0.48公里时车辆突然停止并拒绝前进。Waymo客服称前方存在“巨大阻塞”,并建议乘客改用Uber或Lyft。Waymo事后解释,因获悉当地有“计划中的抗议活动”而对车辆设置了限制。该乘客最终步行返回酒店,其妻子因残障步行不便,Waymo退还了车费。乘客认可Waymo技术表现,但此次经历让他怀疑该服务在纽约等更复杂城市的推广能力。此前,Waymo还曾因车辆误入积水区域而发布召回并暂停了部分城市的服务。

具身智能行业动态部署/工程
14:14
IT之家(RSS)
56
消息称小鹏机器人进入量产冲刺阶段:年底量产,预计 2027 年一季度进入线下门店担任导购
具身智能行业动态
12:35
公众号:生数科技(Vidu·视频)
42
实力认证!MotuBrain荣获BEYOND创新大奖

生数科技MotuBrain获BEYOND Awards 2026创新大奖,从全球800余项目突围。它统一建模“看懂世界”与“执行动作”,打破感知/规划/执行割裂,具备一脑多能、多型、贯通、预见核心能力,可适配多机器人,端到端完成连续长程任务。未来将赋能全球机器人生态。

具身智能行业动态
11:13
IT之家(RSS)
49
Hugging Face 推出双足机器人:开源、低成本、3D 打印

Hugging Face 推出开源双足机器人项目 LeRobot Humanoid,起步价 2500 美元。该项目面向开发者和研究人员,使用 3D 打印件与现成硬件以降低成本,并非成品,需自行组装。它提供硬件装配文件与软件控制工具,支持在仿真环境中训练 AI 模型,再部署到实体机器人上进行测试。目前公开的是双腿平台,后续计划集成上半身。

Hugging Face具身智能开源/仓库开源生态
10:19
HuggingFace Daily Papers(社区热门论文)
68
空间基础模型基准测试 SpatialBench:你的模型是全能选手吗?

空间基础模型虽在标准数据集上表现优异,但其在不同任务、视角、场景、输入密度和硬件下的真实泛化能力尚未得到全面评估。为此,研究者提出了跨范式、多领域的基准测试 SpatialBench,包含19个数据集、546个场景,覆盖5个空间领域。该基准对41个模型在6种范式和4种输入密度下进行了评估,发现当前模型尚未达到“全能”水平。研究表明,全上下文注意力能最大化精度,有界内存策略可提升长序列扩展能力,且在具身任务中,严格的领域对齐与数据质量远比单纯增加数据量更重要。此外,研究还引入了大规模数据集 DA-Next-5M 及强基线模型 DA-Next。

arXiv具身智能多模态数据/训练
‹ 上一页
1…89101112…19
下一页 ›