AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态
全部一手资讯X论文
标签「具身智能」清除
6月19日周五
08:00HuggingFace Daily Papers(社区热门论文)44PoLAR:将潜在动作中的程度和模式分解用于机器人策略学习
01:24Rohan Paul68Claude Opus 4.7 编程机器狗:独立完成任务快 20 倍,但未能取球
01:21Anthropic68Opus 4.7编程机器狗速度提升20倍
00:22Anthropic:Research(发表成果 · 网页)77精选Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
6月18日周四
23:49TechCrunch:AI(RSS)56General Intuition 洽谈约3亿美元融资,估值超20亿美元
23:14IT之家(RSS)76精选我国首部L3/L4自动驾驶强制性国标公示:2027年7月起实施
22:14IT之家(RSS)37逮捕0人开0罚单,俄亥俄州警方停用巡逻机器人DubBot
21:44HuggingFace Daily Papers(社区热门论文)49MolmoMotion:基于语言指令的3D点轨迹预测模型
18:26Alibaba Cloud45Qwen-Robot Suite 亮相:连接语言与物理动作
18:14IT之家(RSS)56Momenta 港股 IPO 获证监会备案
17:14IT之家(RSS)82精选八部门:用好个人消费贷款财政贴息政策,支持消费者购买 AI 相关产品
16:14IT之家(RSS)35曹操出行宣布全面AI转型,到2030年累计部署10万辆Robotaxi
14:14IT之家(RSS)19奔驰轴向磁通电机量产落地,首搭跑车 AMG GT 零百加速 2.1 秒
14:14IT之家(RSS)64英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务
11:43Berryxia.AI58李飞飞谈空间智能前沿,UCSD黄碧薇创Aether AI推因果世界模型
09:43Berryxia.AI52UCSD 黄碧薇提出 Causal World Models,Aether AI 获 2000 万美元融资
08:00HuggingFace Daily Papers(社区热门论文)46Vesta:通用具身推理模型
08:00HuggingFace Daily Papers(社区热门论文)43Qwen-RobotNav技术报告:为智能体导航系统设计的可扩展导航模型
08:00HuggingFace Daily Papers(社区热门论文)47EventVLA: 面向长时程视觉-语言-动作策略的事件驱动视觉证据记忆
08:00HuggingFace Daily Papers(社区热门论文)53Robusto-2:在利马与纽约市自动驾驶场景中的人类与VLM基准测试
08:00HuggingFace Daily Papers(社区热门论文)37World Action Models 综述
03:47Ars Technica:AI(RSS)55AI编码智能体教会机器人安装GPU和剪扎带--NVIDIA GEAR等团队开发ENPIRE框架
02:02TechCrunch:AI(RSS)58世界模型公司Odyssey完成3.1亿美元B轮融资,估值14.5亿美元
00:35Jim Fan81精选NVIDIA GEAR实验室发布ENPIRE:8个Codex智能体自主控制机器人完成物理实验
6月17日周三
23:43Hugging Face:Blog(RSS)69精选MolmoMotion:语言引导的3D运动预测模型
23:16The Decoder:AI News(RSS)50Nvidia 研究:AI 编程智能体让机器人自我训练
23:02TechCrunch:AI(RSS)60XDOF获7000万美元融资,构建机器人训练数据基础设施
22:07IT之家(RSS)58京津冀首个万台级具身智能机器人超级工厂规模投用,预计2030年产能达50万台套
20:07IT之家(RSS)50理想汽车詹锟:除特斯拉FSD外国内无智驾第一梯队,下半年马赫VLA对齐FSD V14
18:39Hugging Face:Blog(RSS)66精选Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人
17:56The Verge:AI(RSS)39Genesis AI 发布人形机器人 Eno:"围绕人类能力"设计,不追求外观像人
17:07IT之家(RSS)56Stellantis、Wayve、Uber三方携手,全球范围推动L4 Robotaxi开发部署
16:48Alibaba Cloud47Qwen 进入物理世界:EdgeAgent Arena 启动
15:05IT之家(RSS)49星动XHAND 1 PRO"大脑手"发布:21自由度全直驱,支持多种遥操作
12:05IT之家(RSS)66大晓机器人开源 ACE-Ego 具身操作 VLA 模型
10:33HuggingFace Daily Papers(社区热门论文)52ActWorld:通过动作感知记忆从可探索走向可交互的世界模型
10:03IT之家(RSS)47开普勒发布重载四足机器人"机械麒麟"系列
09:03IT之家(RSS)42错过出口、拐错弯,特斯拉 FSD 被导航拖后腿
08:03IT之家(RSS)63美国参议员要求NHTSA核查特斯拉FSD安全数据
08:00HuggingFace Daily Papers(社区热门论文)53VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月19日
08:00
HuggingFace Daily Papers(社区热门论文)
44
PoLAR:将潜在动作中的程度和模式分解用于机器人策略学习

PoLAR 在潜在动作空间上施加径向结构,使半径编码过渡程度、方向保留过渡模式。利用两帧观测间的时间偏移作为过渡程度的弱代理,在双曲空间中实例化,借助其随半径膨胀的体积容纳更大程度下的多样化模式。在任务内和大规模预训练中,PoLAR 在仿真和真实机器人实验里提升了下游策略性能,优于潜在动作基线及强预训练 VLA 模型。

具身智能数据/训练论文/研究
01:24
Rohan Paul@rohanpaul_ai
68
Claude Opus 4.7 编程机器狗:独立完成任务快 20 倍,但未能取球

Anthropic 在 Project Fetch 第二阶段展示 Claude Opus 4.7 独立编程机器狗。Opus 4.7 用 12 分 7 秒完成 5 项任务,约为去年人类团队(借助 Opus 4.1)耗时 264 分钟的 20 倍,代码量从 10,309 行降至 1,045 行。速度提升源于快速选择正确接口并写出无需人类试错的脚本。但机器狗仍未能取球,失败原因在于闭环控制——机器人需根据飘移的球实时调整动作。AI 擅长将杂乱硬件转为可运行代码,但实时物理判断仍具挑战。

Anthropic: New Frontier Red Team blog: Phase 2 of Project Fetch, where we test how well Claude can program a robodog. Opus 4.7, on ...

Anthropic具身智能编码论文/研究
01:21
Anthropic@AnthropicAI
68
New Frontier Red Team 博客:Project Fetch 第二阶段,我们测试 Claude 编程机器狗的能力。 Opus 4.7 单独完成任务的速度比去年最佳人类团队(辅以 Opus 4.1)快约 20 倍。(可惜,机器狗仍然未能取回沙滩球。) https://www.anthropic.com/research/project-fetch-phase-two
Anthropic具身智能论文/研究
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究

推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
6月18日
23:49
TechCrunch:AI(RSS)
56
General Intuition 洽谈约3亿美元融资,估值超20亿美元

从游戏剪辑平台Medal剥离的AI初创公司General Intuition正洽谈约3亿美元融资,估值超20亿美元。本轮距其1.34亿美元种子轮仅8个月,投资方包括Jeff Bezos、Eric Schmidt及现有投资者Khosla Ventures、General Catalyst。公司利用Medal每年20亿条视频(来自1000万月活用户)训练具身AI与世界模型,通过第一人称交互数据实现空间-时间推理。OpenAI曾试图收购Medal。资金将用于扩大算力,计划夏末或初秋发布新产品。

OpenAI具身智能行业动态
23:14
IT之家(RSS)
精选76
我国首部L3/L4自动驾驶强制性国标公示:2027年7月起实施

工信部6月16日就《智能网联汽车自动驾驶系统安全要求》等2项强制性国标公开征求意见,公示至6月24日,建议2027年7月1日起实施。该标准系我国首部针对L3/L4的强制性国标,要求系统安全水平至少达到“合格且专注驾驶人”,引入Safety Case机制。L3重点规范人机交接,L4强调自身风险处置、不得依赖远程协助。新申请车型实施日起执行,已获批车型有约一年过渡期。

具身智能政策/监管

推荐理由:首部 L3/L4 强制国标公示,意味着自动驾驶从推荐性标准升级为强制性安全底线,车企靠模糊宣传抢市场的阶段正式结束,行业竞争逻辑从此由功能展示转向安全实证。
22:14
IT之家(RSS)
37
逮捕0人开0罚单,俄亥俄州警方停用巡逻机器人DubBot

俄亥俄州都柏林市上月停用警察机器人DubBot。该机器人型号K5,高约1.52米、重约181千克,无四肢,两轮移动,用于360度监控及紧急呼叫。2025年7月起在停车楼巡逻,未促成任何逮捕、立案或罚单,也未发现需警察处理的事件。警方为此支付67548美元。原计划2年部署两台、合同总额238440美元,实际仅用一台,费用128080美元,Knightscope将退还60533美元。此前纽约地铁和圣安东尼奥机场部署的同款机器人也因技术问题或效率低下被停用。

其他具身智能行业动态
21:44
HuggingFace Daily Papers(社区热门论文)
49
MolmoMotion:基于语言指令的3D点轨迹预测模型

MolmoMotion将运动预测形式化为目标条件的3D点运动预测:给定短视觉历史、物体上的3D查询点集和语言描述的目标,预测每个点的未来3D轨迹。研究包含三个组件:MolmoMotion-1M数据集(从116万段无约束视频中标注动作描述和3D点轨迹)、PointMotionBench人工验证基准(覆盖111类物体和61种运动类型)以及MolmoMotion模型(支持自回归坐标预测和流匹配轨迹生成)。该模型能根据语言指令预测多样化运动,在基准上显著超越现有方法,且学到的3D运动先验可迁移至机器人操作和视频生成。

具身智能多模态论文/研究
18:26
Alibaba Cloud@alibaba_cloud
45
看看 Qwen-Robot Suite 的实际表现吧!🤖 桥接语言与物理动作,Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld 通过无缝的指令泛化与遵循物理定律,重新定义了机器人技术。
具身智能模型发布
18:14
IT之家(RSS)
56
Momenta 港股 IPO 获证监会备案

6月18日,中国证监会公布Momenta境外发行上市备案通知书。Momenta拟发行不超过43754060股普通股并在香港联合交易所上市,完成境外发行上市后15个工作日内需通过备案管理信息系统报告发行情况。Momenta此前已于3月在香港秘密提交首次公开募股申请。

具身智能行业动态
17:14
IT之家(RSS)
精选82
八部门:用好个人消费贷款财政贴息政策,支持消费者购买 AI 相关产品

商务部等八部门6月18日发布关于加快“人工智能+消费”发展的实施意见。其中提到加大财政资金支持,落实数码和智能产品购新政策,鼓励地方在消费品以旧换新框架内自主制定补贴,重点支持新一代智能终端消费。增加AI手机、智能电脑、智能电视、智能家居、AI眼镜、智能网联汽车、人形机器人等产品供给,培育智能穿戴消费市场。同时加快AI在居家服务、养老服务、文化旅游、住宿餐饮、教育教学等领域的应用,建设AI商品首发平台,举办“人工智能进万家”活动。

具身智能多模态政策/监管

推荐理由:八部门联合推AI消费补贴,从手机、机器人到养老教育全覆盖,这是国家层面推动AI产品普及的强烈信号,终端厂商和消费者都将迎来实质利好。
16:14
IT之家(RSS)
35
曹操出行宣布全面AI转型,到2030年累计部署10万辆Robotaxi

曹操出行在2026国际汽车及供应链博览会(香港)发布RoboX战略,提出“双十万计划”:到2030年累计部署10万辆Robotaxi与10万辆Robovan。公司宣布全面AI转型,已成立AI事业部,并与吉利远程新能源商用车战略合作推进Robovan规模化。2025年总收入202亿元,同比增长37.7%,覆盖国内195城,月活用户4130万。Robotaxi已部署超100辆,完全定制Robotaxi于2026年4月亮相,2027年量产。

具身智能行业动态
14:14
IT之家(RSS)
19
奔驰轴向磁通电机量产落地,首搭跑车 AMG GT 零百加速 2.1 秒

6月18日,奔驰宣布轴向磁通电机在柏林工厂启动大规模量产。生产过程包含98道工序,其中65道为奔驰首次应用、35道全球首创,开发超30项新技术并提交专利申请。装配中“婚礼”环节需在9000牛磁力下将定子固定于磁中心平面,公差小于0.1毫米。全新AMG GT高性能四门跑车为首款量产搭载该电机的纯电车型,零百加速2.1秒,峰值功率860千瓦,峰值扭矩2000牛·米。

其他具身智能
14:14
IT之家(RSS)
64
英伟达GEAR实验室首次启用AutoResearch,机器人自学完成装显卡等高精度任务

英伟达GEAR实验室联合负责人Jim Fan于6月17日宣布,基于ENPIRE编码智能体框架,首次在物理世界中启用AutoResearch。团队为8个Codex智能体配备机器人、GPU和Token预算,设定目标高效完成任务。机器人自主学会寻找视觉线索、重置场景、练习技能、调整控制堆栈、在线阅读论文等,并通过物理世界API独立完成系扎带、整理钉子、插显卡等高精度任务。Jim Fan表示将开源该技术,使爱好者可居家托管自动运行机器人实验室。

智能体具身智能论文/研究
11:43
Berryxia.AI@berryxia
58
李飞飞谈空间智能前沿,UCSD黄碧薇创Aether AI推因果世界模型

李飞飞在YC访谈中称“空间智能是AI下一个前沿”,要求世界模型超越像素和语言,捕捉3D结构。现有VLA模型仅学统计相关性,物理场景易失败(如桌子高2cm即翻车)。UCSD黄碧薇在CVPR 2026提出因果世界模型框架,并宣布旗下Aether AI融资2000万美金,为全球首个因果世界模型公司。她拥有12年因果AI研究(CMU PhD,causal-learn作者,100+顶会论文)。

Berryxia.AI: 兄弟们!这个研究有点牛逼啊! Physical AI 的瓶颈根本不是「模型不够大」,是一开始范式就错了。 先说一个真实场景:桌子高了 2cm,当前最强的 VLA 模型直接失败。 为什么? 因为它只学到了「手伸到某个位置」的相关性,根本不知道...

具身智能行业动态
09:43
Berryxia.AI@berryxia
52
UCSD 黄碧薇提出 Causal World Models,Aether AI 获 2000 万美元融资

UCSD 黄碧薇教授在 CVPR 2026 提出 Causal World Models 框架,让 AI 从模仿动作进化到理解因果。她同时宣布其公司 Aether AI 完成 2000 万美元融资,成为全球首个专注因果世界模型的公司。她拥有 12 年因果 AI 经验,CMU 博士,100+ 顶会论文,是因果发现库 causal-learn 作者。推文指出当前 VLA/LLM 路线仅学到统计相关性,因果世界模型被视为具身智能的范式转折点。

Biwei Huang: I've spent over a decade working on causal discovery and causal AI. A lot of late nights, a lot of papers, and a lot of ...

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
46
Vesta:通用具身推理模型

Vesta是一个统一的具身通用基础模型,将定位、空间推理、导航和长期规划能力整合于单一模型。通过大规模空间感知数据集和简单的多模态记忆机制,Vesta在多种基准测试中平均超过单个SOTA基线20%以上,并优于按类别最佳基线集成的结果10%以上。在需要记忆与推理的真实机器人任务中,Vesta将任务成功率提升35%以上,表明单一通用模型在可行性和可扩展性上优于多模型组合方案。

具身智能推理论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
43
Qwen-RobotNav技术报告:为智能体导航系统设计的可扩展导航模型

Qwen-RobotNav通过参数化接口支持多种任务模式(如指令跟随、目标搜索)和可控观察参数(模型token预算、每摄像头权重),训练时随机化所有参数,推理时无需修改骨干架构。模型在15.6M样本上训练,与视觉语言数据共同训练避免仅轨迹训练导致的崩溃。上层规划器可在回合中动态切换其任务模式与上下文策略,通过重复调用同一模型组合复杂行为。Qwen-RobotNav在多项导航基准上取得新最优结果,参数从2B扩展到8B表现出良好缩放规律,多任务联合训练形成跨任务家族共享的空间规划基板,并在真实机器人上展现强零样本泛化能力。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
47
EventVLA: 面向长时程视觉-语言-动作策略的事件驱动视觉证据记忆

EventVLA是一种端到端机器人操作框架,其核心为稀疏视觉证据记忆,包含基础视觉锚点和动态关键帧证据记忆(KEM)模块。KEM从VLA潜在嵌入直接预测未来关键帧概率,自主捕获并存储任务关键的视觉事件,解决了标准VLA模型在长时程操作中因遮挡或不可观测导致的失败。研究还提出诊断基准RoboTwin-MeM。在17个需记忆的仿真任务和4个真实双臂任务上,EventVLA平均成功率比现有最优记忆增强VLA高出40%。

具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
53
Robusto-2:在利马与纽约市自动驾驶场景中的人类与VLM基准测试

研究对比视觉语言模型(VLM)与来自利马和纽约的人类驾驶员在两地行车记录仪视频上的表现。使用VQA范式提出事实、评级、反事实和推理四类问题,测试泛化能力。结果发现人类与VLM的回答存在差异,但地理来源对双方回答均无显著影响。数据集已公开。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
37
World Action Models 综述

World Action Models(WAM)是具身预测动作模型,通过重用水视频生成模型或依赖语言/视觉-语言骨干实现未来预测。该综述厘清了WAM与视频生成模型、动作基础视频世界模型、视觉-语言-动作策略等概念的边界,从生成内容(渲染未来、潜在未来、无视频生成的动作推理)和设计维度(预测基质、骨干、动作耦合、部署机制)两个视角组织现有方法。分析表明:WAM并非仅带动作头的视频生成器,其设计在表示丰富性与计算、内存、延迟、动作标签成本之间权衡。领域正朝向生成更少未来但保留控制所需信息的方向发展。

具身智能视频论文/研究
03:47
Ars Technica:AI(RSS)
55
AI编码智能体教会机器人安装GPU和剪扎带--NVIDIA GEAR等团队开发ENPIRE框架

NVIDIA GEAR实验室联合卡内基梅隆大学和UC Berkeley开发了ENPIRE框架,让AI编码智能体自主训练机器人。测试了OpenAI Codex(GPT-5.5)、Anthropic Claude Code(Opus 4.7)和月之暗面Kimi Code(Kimi K2.6)。在Push-T、插针盒、剪扎带和GPU安装等任务中,智能体达到99%成功率;插针任务中AI智能体比人类参与方法更快接近100%。8个智能体协作2小时完成Push-T(4个需3小时,单个近5小时)。局限包括机器人闲置、智能体耗时总结彼此想法和token消耗高。团队将开源全部内容。

智能体具身智能开源/仓库
02:02
TechCrunch:AI(RSS)
58
世界模型公司Odyssey完成3.1亿美元B轮融资,估值14.5亿美元

由自动驾驶领域连续创业者Oliver Cameron(CEO)和Jeff Hawke(CTO)联合创立的世界模型AI公司Odyssey完成3.1亿美元B轮融资,估值14.5亿美元。本轮由Natural Capital领投,Amazon、AMD Ventures、GV等跟投。Odyssey成立于2023年,其世界模型通过人员背负相机采集物理世界数据并模拟真实物理效果。公司提供面向游戏制作和机器人等场景的多款世界模型,以从文本提示生成交互视频而知名。AWS成为首选云服务商,模型将针对AWS Trainium芯片优化。天使投资者包括Jeff Dean、Elad Gil等,累计融资3.37亿美元。

Google具身智能行业动态
00:35
Jim Fan@DrJimFan
精选81
NVIDIA GEAR实验室发布ENPIRE:8个Codex智能体自主控制机器人完成物理实验

NVIDIA GEAR实验室推出ENPIRE系统,首次实现物理世界自主研究。系统让8个Codex智能体控制8台机器人,配备GPU和token预算。安全方面采用硬运动极限切断和扭矩受限夹爪两层硬件保障,支持通宵无人运行。奖励函数通过视觉分类器离线固定并冻结,防止智能体作弊。实时监测机器人利用率(MRU)、token利用率(MTU)和GPU利用率,以Tokens-to-Success和Time-to-Success评估效率。ENPIRE自主完成扎带、整理细针、安装GPU等高精度任务,发现8机器人并行探索显著更快。系统将开源。

Jim Fan: Today, we enable AutoResearch in the physical world for the first time! Introducing ENPIRE: we give 8 Codex agents a fle...

智能体具身智能论文/研究

推荐理由:Jim Fan团队让8个机器人在真实世界自主研究,从安装GPU到发现物理扩展定律,这是具身智能第一次真正脱离人类监督探索物理任务,比任何虚拟环境的Agent实验都更接近AGI的物理锚点,做机器人的必须关注。
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
23:16
The Decoder:AI News(RSS)
50
Nvidia 研究:AI 编程智能体让机器人自我训练

Nvidia、卡内基梅隆大学和 UC Berkeley 联合开发的 ENPIRE 项目,利用 AI 编程智能体让机器人在现实世界中自主进行灵巧抓取训练。8 台双臂 YAM 机器人通过 Git 共享试验结果,智能体自主编写奖励函数、阅读论文并编辑训练代码。在 Push-T 测试、插针和剪扎带等任务上最高达 99% 成功率;从 1 个智能体扩展到 8 个后,Push-T 完成时间从约 5 小时降至 2 小时,插针从 90 分钟降至约 40 分钟。测试了 Codex(GPT-5.5)、Claude Code(Opus 4.7)和 Kimi Code(Kimi K2.6),Codex 表现最佳。现实环境仍比模拟困难,但该方法为机器人自主改进提供了可行路径。

具身智能论文/研究
23:02
TechCrunch:AI(RSS)
60
XDOF获7000万美元融资,构建机器人训练数据基础设施

机器人训练数据初创公司XDOF结束隐身,获Thrive Capital、a16z等7000万美元投资。公司为AI实验室和机器人公司构建数据管道、采集工具和标注系统,填补物理交互训练数据缺口。XDOF联合UC Berkeley发布ABC数据集,含13万条机器人操作轨迹、300小时仿真数据及100小时评估数据,号称迄今最大高质量机器人训练数据集。公司计划通过三层数据金字塔采集数据,已与20家客户合作。

具身智能数据/训练行业动态
22:07
IT之家(RSS)
58
京津冀首个万台级具身智能机器人超级工厂规模投用,预计2030年产能达50万台套

京津冀首个万台级具身智能机器人超级工厂(领益智造北京具身智能超级工厂)近日规模投用。工厂覆盖核心零部件到整机组装全链条制造,模组自动组装线采用力觉+视觉双引导精密装配,换型时间小于15分钟;整机总装自动流水线实现节拍式装配。测试体系配备行业首创的整机环形吊轨测试线,可同时承载6-12台机器人,较传统线体节能约25%。质量管理通过自研MES、WMS、QMS系统实现全流程数字化追溯,每台机器绑定唯一SN码,24小时内完成质量闭环。根据规划,年产能逐步爬坡,预计2030年达50万台套。

具身智能行业动态
20:07
IT之家(RSS)
50
理想汽车詹锟:除特斯拉FSD外国内无智驾第一梯队,下半年马赫VLA对齐FSD V14

詹锟在理想汽车Livis Day上表示,国内除特斯拉FSD外暂无智驾系统能入第一梯队。他于2026年5月赴美体验FSD V14.3后坦言差距真实。理想公布下半年路线:第三季度向AD Max车型推送马赫VLA新版本,第四季度全场景智驾对齐FSD V14。目前L9 Livis搭载马赫VLA 2.1,基于自研5nm马赫M100芯片(单芯1280 TOPS,双芯2560 TOPS)。小鹏何小鹏此前称其VLA将于2026年8月达FSD V14.2的硅谷效果。

具身智能大佬观点
18:39
Hugging Face:Blog(RSS)
精选66
Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人

AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。

Hugging Face产品更新具身智能开源生态

推荐理由:AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里,代码几乎不变就能从模拟切到物理机器人,对具身智能开发者是省掉胶水代码的实用工具。
17:56
The Verge:AI(RSS)
39
Genesis AI 发布人形机器人 Eno:"围绕人类能力"设计,不追求外观像人

法国初创公司 Genesis AI(获前 Google CEO Eric Schmidt 支持)推出机器人 Eno。该机器人被设计为“通用型”而非单一任务专用,外观没有头部和腿部,采用轮式底座且可折叠,但双手精确匹配人类手部形态与功能以使用现有工具。Genesis 计划 2026 年底开始生产和客户部署,率先覆盖制造、实验室和物流,随后拓展至医院、酒店和消费者市场,并透露正在开发“额外形态”。

产品更新具身智能
17:07
IT之家(RSS)
56
Stellantis、Wayve、Uber三方携手,全球范围推动L4 Robotaxi开发部署

6月17日,Stellantis、Wayve、Uber宣布达成三方合作,共同探索在全球范围内开发和部署L4自动驾驶Robotaxi。Stellantis负责车辆制造与传感器集成,Wayve提供端到端AI自动驾驶软件,Uber则在其全球出行网络上部署Robotaxi并帮助扩大运营规模。三方计划联合开展车辆集成、测试、验证和部署,目标是为欧洲、北美等地区带来安全、可靠且可扩展的自动驾驶出行服务。

具身智能行业动态
16:48
Alibaba Cloud@alibaba_cloud
47
将Qwen带入物理世界!🤖欢迎来到EdgeAgent Arena! 构建通过边缘传感器感知并在本地行动的机器人和物联网设备,赢取超过7万美元的奖金池中的份额。 🔗立即注册:https://click.qwencloud.com/m/20000000281/
智能体具身智能行业动态
15:05
IT之家(RSS)
49
星动XHAND 1 PRO"大脑手"发布:21自由度全直驱,支持多种遥操作

6月17日,星动纪元发布星动XHAND 1 PRO“大脑手”,采用全直驱21自由度设计。五指最大展开135°,包络抓握直径超160mm,可抓取篮球等大物体。整手搭载18个分布式触觉传感器及电容式压力传感器,测力区间0.1-25N,分辨率0.01N,支持厘米级非接触预检测。单关节背隙<±0.25mm,重复定位精度±0.1mm,循环测试超20万次。支持VR头显、动捕手套、外骨骼手套遥操作,兼容Ubuntu,SDK支持C++、Python、ROS 2,适配x86与ARM架构。

产品更新具身智能
12:05
IT之家(RSS)
66
大晓机器人开源 ACE-Ego 具身操作 VLA 模型

6 月 17 日,大晓机器人联合香港中文大学发布并开源具身操作 VLA 模型 ACE-Ego。在 RoboCasa GR1 TableTop 基准上,ACE-Ego 以 72.8% 平均成功率刷新纪录,超越英伟达 GR00T 等模型;在 RoboTwin 2.0 强域随机化测试中成功率达 90.62%。该模型已能稳定完成塑料袋打包、鞋子装入鞋盒等长周期复杂零售操作。

具身智能模型发布
10:33
HuggingFace Daily Papers(社区热门论文)
52
ActWorld:通过动作感知记忆从可探索走向可交互的世界模型

现有交互式世界模型的动作词汇局限于导航(行走、转向、环顾),缺乏物体交互。ActWorld 在分块自回归框架中扩展导航生成器,支持 rollout 过程中的物体交互。它解决数据瓶颈(缺乏带密集标签的人-物交互数据)和记忆瓶颈(历史压缩丢弃因果决定物体状态的帧)。团队构建 100K 交互视频数据集,每条视频通过链式推理生成每块描述;引入分层动作感知记忆设计,按交互重要性路由历史压缩,辅以持久记忆库维护事件更新和物体身份 token。实验表明,单个模型同时支持灵活导航与丰富物体交互,在不牺牲视点控制的前提下显著提升交互逼真度。

具身智能多模态数据/训练论文/研究
10:03
IT之家(RSS)
47
开普勒发布重载四足机器人"机械麒麟"系列

在6月16日的2026张江具身智能开发者大会上,开普勒发布机械麒麟系列重载四足机器人。整机尺寸2175×800×1630mm,自重约300kg,满载近吨级。实测可搭载多名工程师、驮工业物料跑厂、牵引全尺寸商务车,并对接标准料盘。续航充电一次可连续行走8小时。另有骑乘款。后续将陆续开放更多实测与落地场景。

产品更新具身智能
09:03
IT之家(RSS)
42
错过出口、拐错弯,特斯拉 FSD 被导航拖后腿

本周特斯拉向车辆推送监督版 FSD v14.3.4,但导航仍是最大短板。系统频繁拐错弯、错过高速出口、选低效路线、误报限速,因导航问题人工接管次数甚至超过基础操作。问题源于多源数据拼接冲突、难以从人工修正中学习、路线推理缺乏人类直觉。不靠谱的导航阻碍网约车落地、增加安全风险,并持续消耗消费者信任。

具身智能评测/基准
08:03
IT之家(RSS)
63
美国参议员要求NHTSA核查特斯拉FSD安全数据

美国参议员马基与布卢门撒尔致函NHTSA,要求复核特斯拉FSD安全数据。特斯拉宣称FSD安全系数为人类7倍(550万英里一次重大碰撞 vs 手动66万英里),但路透社质疑其测算方法。参议员指出误导性数据可能导致驾驶员过度依赖,要求7月7日前回应数据核验、测算方法、5秒脱离窗口(行业标准30秒)及数据采集漏洞等4个问题。荷兰交通大臣依据RDW实测为FSD准入辩护:2400万公里无重大事故,安全性能为人类3.5倍。新泽西州正审议限制自动驾驶法案,特斯拉游说反对;其已在得州完成L4合规自认证并投放无人驾驶出租车。

具身智能政策/监管
08:00
HuggingFace Daily Papers(社区热门论文)
53
VLA是否还记得基础知识?衡量视觉-语言-动作模型中常识与世界知识的保留程度

为评估视觉-语言-动作模型微调后是否保留常识与事实知识,研究提出Act2Answer轻量协议,将知识评测转为动作答题:智能体通过单次物体放置动作选择答案,获得低控制偏差的动作接地成功率。在涵盖多种常识类别的测试集上,对7个VLA模型与9个VLM基线进行排名。结果显示,VLA在简单概念上表现稳健,但在语义丰富类别上与源VLM差距较大;VQA共训练与更好知识保留相关;答案相关信号在VLA中层最强,上层衰减。

具身智能论文/研究评测/基准
‹ 上一页
1…34567…27
下一页 ›