AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态资讯 · 759 条
全部一手资讯X论文
标签「具身智能」清除
6月10日周三
08:00HuggingFace Daily Papers(社区热门论文)37APT:通过动作专家预训练提升视觉-语言-动作策略的语言指令泛化能力
6月9日周二
22:04Google DeepMind:Blog(RSS)48Google DeepMind 欧洲机器人加速器启动,15家初创公司入选
21:00公众号:火山引擎69精选全新汽车品牌AIVA发布,火山引擎助力打造AI汽车新体验
21:00公众号:百度智能云(文心)26千寻智能与百度智能云合作:98.8%有效训练时长加速具身模型进化
16:26IT之家(RSS)54英飞凌与越南企业 VinRobotics 签署合作备忘录,共同开发人形机器人
13:55HuggingFace Daily Papers(社区热门论文)68AHA-WAM:异步视界自适应世界-动作建模
11:55HuggingFace Daily Papers(社区热门论文)60Echo-Memory:动作世界模型中记忆机制的控制研究
11:22IT之家(RSS)57特斯拉向内华达申请 Robotaxi 运营许可,计划一年内投放 5000 辆自动驾驶网约车
10:55HuggingFace Daily Papers(社区热门论文)61SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准
09:21IT之家(RSS)70精选两部门:到2026年底人形机器人等重点产品完成应用验证并常态部署
08:00HuggingFace Daily Papers(社区热门论文)78精选Embodied-R1.5:通过具身基础模型演化物理智能
00:20IT之家(RSS)54天工3.0人形机器人2026年下半年量产,搭载地瓜机器人旭日S600芯片
6月8日周一
19:20IT之家(RSS)49欧菲光发布机器人 RGBD 相机 Dex400R,可实现手眼协同、无序抓取、近远场避障等功能
18:13Artificial Intelligence News(RSS)38Weis Markets 在门店引入 Instacart AI 购物车 Caper Carts
17:20IT之家(RSS)50小米机器人亮相小米 17T 系列发布会,能自己拿着手机拍照
14:20IT之家(RSS)73精选全球首个:高德发布3D原生城市世界模型ABot-Earth0.5
12:20IT之家(RSS)41Livis Day理想汽车软件与人工智能发布会定档6月15日,将探讨具身智能
10:20IT之家(RSS)57英伟达与韩国斗山集团扩大合作,覆盖物理 AI、机器人及 AI 工厂基础设施
08:00HuggingFace Daily Papers(社区热门论文)49iMaC:将动作转化为运动与接触图像用于具身世界模型
08:00HuggingFace Daily Papers(社区热门论文)50AlloSpatial:基础模型中的异中心空间推理智能体框架
08:00HuggingFace Daily Papers(社区热门论文)62ABot-Earth 0.5: 生成式3D地球模型
6月7日周日
23:19IT之家(RSS)34高考首日人形机器人现身考场:穿旗袍跳舞、碰拳助威、翻跟头加油
23:19IT之家(RSS)52英伟达 CEO 黄仁勋明日会见三星电子副会长全永铉,HBM、机器人合作计划成焦点
13:19IT之家(RSS)28消息称小米机器人有望亮相小米 17T 系列手机发布会
08:19IT之家(RSS)64任职13年后,特斯拉AI基础设施副总裁杰加纳坦正式离职
08:00HuggingFace Daily Papers(社区热门论文)60OASIS:从仿真数据采集到真实人形机器人全身操作
6月6日周六
18:17IT之家(RSS)462026 款小鹏 X9 获推 AIOS 6.2.0:新增辅助驾驶车道级渲染、终点车位选项等
16:17IT之家(RSS)48小鹏被传机器人核心人物离职,内部人士称业务进展顺利
14:17IT之家(RSS)62黄仁勋谈未来计算:收敛为面向 AI 智能体的统一架构,覆盖云端到机器人
12:16IT之家(RSS)49比亚迪否认"人形机器人代号尧舜禹"等传闻,称相关消息均不属实
08:00HuggingFace Daily Papers(社区热门论文)52几何主结构(GPS):面向机器人关节部件感知的可扩展高质量表示
08:00HuggingFace Daily Papers(社区热门论文)54Light-WAM: 高效世界动作模型与状态融合动作解码
00:47HuggingFace Daily Papers(社区热门论文)65GeoVR:从视频学习几何表示,重塑多模态大语言模型的空间智能
6月5日周五
23:47HuggingFace Daily Papers(社区热门论文)56AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型
22:15IT之家(RSS)72精选开源鸿蒙 OpenHarmony 具身智能版本 EmbodiedAI 1.0.1 发布
22:15IT之家(RSS)59英特尔与鸿海战略合作,携手推动AI机柜、边缘与物理AI发展
18:47HuggingFace Daily Papers(社区热门论文)63Dream.exe:视频生成模型能否生成可执行的机器人操作?
16:15IT之家(RSS)58小米机器人团队拿下CVPR 2026和ICRA 2026双料冠军
15:15IT之家(RSS)46英伟达黄仁勋:机器人将成为韩国下一个重要产业
14:14IT之家(RSS)38英伟达CEO黄仁勋抵达韩国,首站造访《英雄联盟》选手Faker和T1战队
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月10日
08:00
HuggingFace Daily Papers(社区热门论文)
37
APT:通过动作专家预训练提升视觉-语言-动作策略的语言指令泛化能力

视觉-语言-动作(VLA)模型将预训练VLM与连续动作专家结合,但在分布外语言指令上泛化差——原因是数据中语言多样性低且动作专家随机初始化导致梯度噪声削弱VLM。APT从贝叶斯视角将策略分解为语言无关的视觉-动作(VA)先验和语言条件VLA似然,采用两阶段训练:阶段1冻结VLM,在视觉-动作对上预训练动作专家作为VA先验;阶段2通过门控融合注入语言token,保留已学习的视觉运动先验。APT适用于π和GR00T风格架构,在未见指令和组合任务上实现一致提升。

具身智能多模态论文/研究
6月9日
22:04
Google DeepMind:Blog(RSS)
48
Google DeepMind 欧洲机器人加速器启动,15家初创公司入选

Google DeepMind 加速器从欧洲选出15家机器人初创公司,提供为期3个月的密集指导和AI技术整合支持,帮助公司将AI融入核心产品。

DeepMind具身智能行业动态
21:00
公众号:火山引擎
精选69
全新汽车品牌AIVA发布,火山引擎助力打造AI汽车新体验

由赛力斯、宁德时代等多方产业资本组建的AI出行品牌AIVA正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车AIVA Origin Concept亮相,首款量产车AIVA ME7将于2026年内亮相,全系覆盖20万元以上市场。AIVA提出“AI定义汽车”路径,让汽车成为具身AI生命体。火山引擎副总裁表示,人与汽车的关系将实现交互、智能、感受三方面根本转变。未来双方将围绕AI交互、智能体验、情感陪伴深度共创。

具身智能端侧行业动态

推荐理由:AIVA把「先有AI再有车」当作造车逻辑,火山引擎直接下场定义汽车AI体验,这是豆包大模型从软件跑到物理世界的第一次大规模试水,做具身智能和车载产品的人该仔细看看。
21:00
公众号:百度智能云(文心)
26
千寻智能与百度智能云合作:98.8%有效训练时长加速具身模型进化

千寻智能与百度智能云合作,依托百度智能云AI Infra底座,将集群有效训练时长提升至98.8%,训练和推理效率分别提高30%和60%。其自研Spirit系列通用具身基座模型,Spirit v1.6在RoboArena评测中登顶,超越英伟达Cosmos3与Physical Intelligence Pi0.5,成为首个登顶的中国具身模型。公司成立于2024年1月,近期完成15亿元A+轮融资,近三个月累计融资近50亿元,预计今年积累100万小时真实交互数据,推动智能制造、服务行业等场景商业化落地。

具身智能行业动态
16:26
IT之家(RSS)
54
英飞凌与越南企业 VinRobotics 签署合作备忘录,共同开发人形机器人

英飞凌与越南智能机器人公司 VinRobotics 签署谅解备忘录,共同开发人形机器人。双方将在河内建立联合研发中心,在微控制器、电源系统、传感器、连接技术等领域合作。英飞凌表示,一台人形机器人所需的半导体物料成本约 500 美元(约合 3397 元人民币),其解决方案可帮助客户开发“感知、思考”的机器人。

具身智能行业动态
13:55
HuggingFace Daily Papers(社区热门论文)
68
AHA-WAM:异步视界自适应世界-动作建模

提出AHA-WAM,基于双扩散Transformer(DiT)架构,将视频DiT作为低频世界规划器,维护滚动键值记忆编码长程场景演化;高频动作DiT通过分层联合注意力查询上下文,在闭环中执行短动作块。引入视界自适应偏移训练与观测引导视频上下文路由(OVCR),使动作专家无需重新运行视频DiT即可利用长程世界上下文并保持对实时状态的响应。在RoboTwin基准上平均成功率达92.80%,4项真实世界任务平均成功率78.3%,闭环控制频率24.17 Hz,相比Fast-WAM加速4.59倍,无需任何机器人数据预训练。

具身智能论文/研究
11:55
HuggingFace Daily Papers(社区热门论文)
60
Echo-Memory:动作世界模型中记忆机制的控制研究

Echo-Memory固定视频扩散骨干、优化器、相机动作表示、采样器和评估流水线,比较原始上下文、压缩记忆、空间摘要(不同读取路径)和状态空间循环四种记忆设计。三分支评估(回放质量、域内循环重访、开放域返回)显示排序常不一致,回放保真度不足以代理世界记忆。发现:原始上下文提升开放域返回远超回放指标;紧凑无法替代容量,激进空间与混合压缩丢失关键证据;块状态空间循环在开放域返回中最强,隐式记忆结构与使用同等重要。

具身智能视频论文/研究
11:22
IT之家(RSS)
57
特斯拉向内华达申请 Robotaxi 运营许可,计划一年内投放 5000 辆自动驾驶网约车

特斯拉子公司 Tesla Robotaxi, LLC 向内华达州提交自动驾驶车辆运营网络公司许可申请(案卷编号:26-05015),获批后计划在业务启动后 12 个月内于克拉克县投放最多 5000 辆 Robotaxi,覆盖拉斯维加斯、亨德森机场等人流密集区域。继 2025 年 9 月获测试许可并建成运维中心后,此举是商业化运营关键一步。2026 年第一季度股东报告显示,达拉斯、休斯顿已上线,其余城市在筹备;当季付费运营里程环比近乎翻倍,得克萨斯州运营未出现事故。新款 Cybercab 已于今年 4 月在得州超级工厂投产,将逐步取代 Model Y 成为主力运营车辆。

具身智能行业动态
10:55
HuggingFace Daily Papers(社区热门论文)
61
SpatialWorld:多模态智能体在真实世界任务中的交互式空间推理基准

SpatialWorld 是为评估多模态智能体在复杂真实任务中的交互式空间理解而设计的统一基准。它整合 8 个异构模拟后端,包含 760 个人工标注任务,覆盖家庭日常、旅行、社交协作等场景。智能体需在仅视觉部分可观测条件下主动收集第一人称证据,并通过统一文本动作接口输出决策。对 15 个先进多模态智能体的评测显示,最强闭源模型 GPT-5 平均任务成功率仅 17.4%,最强开源模型 Qwen-3.5 达 14.1%。分析表明任务成功与执行效率存在脱节,不同领域性能差异显著,主动探索与长程规划仍是瓶颈。

arXiv具身智能多模态论文/研究
09:21
IT之家(RSS)
精选70
两部门:到2026年底人形机器人等重点产品完成应用验证并常态部署

工信部、国资委6月8日联合发布通知,目标到2026年底,人形机器人等重点产品在代表性场景完成应用验证并开启常态部署,形成百个以上高价值场景,万台级规模落地。要求各省级地区选取不少于20个场景单元(覆盖两类领域),央企不少于10个。围绕打造实景实训空间、组建创新应用联合体、攻关作业技能、加强验证部署、强化要素保障、凝练经验等六大任务展开,鼓励“人形机器人即服务”等商业创新。

具身智能政策/监管

推荐理由:工信部和国资委联合发文,目标2026年底人形机器人万台规模落地,这不是画饼,是实打实的场景清单和验证要求,做机器人的同行该逐条对照了。
08:00
HuggingFace Daily Papers(社区热门论文)
精选78
Embodied-R1.5:通过具身基础模型演化物理智能

Embodied-R1.5是一个统一具身基础模型,将具身认知、任务规划、纠错与指向能力整合在单一架构中。基于三条自动化数据构建流水线,团队搭建超过150亿模型token的数据系统,并设计多任务平衡强化学习方案以缓解异构任务冲突。其Planner-Grounder-Corrector闭环框架使模型能在长周期任务中自主执行并自我纠正。仅8B参数的Embodied-R1.5在24个具身VLM基准中的16个上达到SOTA,超越Gemini-Robotics-ER-1.5与GPT-5.4,并可微调为VLA,在4个操作任务基准上领先π_{0.5}等模型。零样本真实机器人实验验证了其指令遵循、可操作物体判别、铰接物体操控与长周期复杂任务中的泛化能力。模型权重、数据集、训练代码及评估框架EmbodiedEvalKit已开源。

arXiv具身智能开源生态论文/研究

推荐理由:仅8B参数就在24项具身视觉语言基准上赢过GPT-5.4和Gemini-Robotics,还把模型权重、训练代码全开源了,做具身智能的团队不跟进就是犯罪。
00:20
IT之家(RSS)
54
天工3.0人形机器人2026年下半年量产,搭载地瓜机器人旭日S600芯片

北京人形机器人创新中心与地瓜机器人宣布,全尺寸通用人形机器人天工3.0将于2026年下半年开启规模化量产交付。该机型搭载旭日S600具身智能大算力芯片,可应用于工业制造、商业服务、3D复杂场景作业等领域。天工3.0配备高扭矩一体化关节,能翻越1米障碍,操作精度达毫米级。量产落地后关键零部件综合成本有望降低,将投入产线作业、仓储物流、智能服务、特殊环境运维等实景应用。

产品更新具身智能端侧
6月8日
19:20
IT之家(RSS)
49
欧菲光发布机器人 RGBD 相机 Dex400R,可实现手眼协同、无序抓取、近远场避障等功能

欧菲光推出 RoboVision 系列首款产品 Dex400R RGBD 相机,支持 D2C+IMU 同步、数采、外部触发等模式,可实现手眼协同、无序抓取、近远场避障。该相机专为机器人机械臂抓取识别、数据采集、补盲避障场景定制,尺寸 45mm×28mm×28mm,近距离 10-20cm 识别精度<1.5mm,远距离误差<1%,测距盲区 5cm。采用 USB+GMSL 双接口设计,为同品类业内唯一,兼顾本地直连与长距抗干扰传输,适配工业与机器人多场景部署。

产品更新具身智能
18:13
Artificial Intelligence News(RSS)
38
Weis Markets 在门店引入 Instacart AI 购物车 Caper Carts

宾夕法尼亚州连锁超市 Weis Markets 与 Instacart 合作,在部分门店部署 AI 智能购物车 Caper Carts。该购物车配备摄像头、认证秤、定位系统和触摸屏,支持数字优惠券、忠诚度功能以及基于历史购买的重复购买推荐,将线上体验融入线下购物场景。

具身智能行业动态
17:20
IT之家(RSS)
50
小米机器人亮相小米 17T 系列发布会,能自己拿着手机拍照

在小米 17T 系列发布会上,小米机器人手持 17T Pro,通过音量键变焦拍照,演示手机长焦能力。该机器人此前已在汽车工厂实现 3 小时持续作业,双侧同时安装成功率 90.2%,满足产线 76 秒节拍。3 月 27 日对 Xiaomi CyberOne 仿生手进行改造:体积压缩 60%、自由度增加 64%、全掌触觉传感器覆盖面积增至 8200 平方毫米、抓握循环寿命超 15 万次,并增加仿生汗腺主动散热。发布会上仿生手操控手机,是精细操控能力的进一步体现。

具身智能行业动态
14:20
IT之家(RSS)
精选73
全球首个:高德发布3D原生城市世界模型ABot-Earth0.5

阿里巴巴旗下高德发布全球首个3D原生城市世界模型ABot-Earth0.5,已建成覆盖190多个国家和地区的3D地图。用户输入卫星图或文字描述,10分钟即可在消费级GPU上生成公里级3D城市,输出可编辑3DGS格式,可直接导入Unity等引擎。制图成本为传统百分之一,效率提升约千倍,可为具身智能、低空经济、应急救援等提供支撑。目前已开放内测,可前往abot-earth.amap.com提交申请。

具身智能多模态模型发布

推荐理由:第一个把分钟级 3D 城市重建拉进消费级 GPU 的世界模型,成本打到了传统方案的百分之一,对具身智能和低空经济是底层能力补全,值得内测试试。
12:20
IT之家(RSS)
41
Livis Day理想汽车软件与人工智能发布会定档6月15日,将探讨具身智能

理想汽车6月8日宣布,Livis Day软件与人工智能发布会将于6月15日16:30举行,探讨具身智能及未来方向。全新理想L9 Livis搭载自研5nm马赫M100芯片(算力1280TOPs),配备3D ViT感知模型与马赫VLA2.1系统,多模态计算量提升10倍,支持自动驾驶、自主泊车、智能交互。理想AI眼镜Livis重量36克,售价1999元起,续航18.8小时,支持控车、听歌。

具身智能端侧行业动态
10:20
IT之家(RSS)
57
英伟达与韩国斗山集团扩大合作,覆盖物理 AI、机器人及 AI 工厂基础设施

英伟达与韩国斗山集团6月8日宣布扩展合作,覆盖四大板块:斗山机器人将整合英伟达Isaac Sim、Cosmos及Jetson Thor,升级“智能体机器人操作系统”,并探索双臂及人形机器人;斗山山猫将引入物理AI至建筑、农业及物料搬运设备;斗山重工拟以燃气轮机、小型模块化反应堆等为英伟达AI工厂供电;斗山电子材料以覆铜板支持英伟达MGX生态AI服务器及网络设备PCB。

具身智能行业动态部署/工程
08:00
HuggingFace Daily Papers(社区热门论文)
49
iMaC:将动作转化为运动与接触图像用于具身世界模型

iMaC提出将原始视觉图像作为具身世界模型的原生动作表征,替代传统低维动作向量。其双分支架构包括图像动作编码器和动态世界预测器:编码器将目标视觉图像压缩为紧凑动作嵌入,预测器基于图像动作学习环境转移规则,实现高保真未来状态预测和闭环控制。在公共基准和真实机器人场景中,iMaC在预测精度、任务成功率与跨场景泛化上超越基于向量的基线,且无需手动定义动作空间,可灵活控制异构智能体。

arXiv具身智能论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
50
AlloSpatial:基础模型中的异中心空间推理智能体框架

多模态基础模型因无法将自我中心观察转化为全局异中心空间表征,导致物理世界空间推理脆弱。AlloSpatial引入World2Mind认知映射沙盒,将观察转换为异中心空间树(ASTs)和路线图,支持查询对象拓扑、几何关系等。通过Spatial Reasoning Harness进行工具使用判断和几何-语义仲裁,并利用冷启动强化学习内化至Qwen3-VL。在VSI-Bench和MindCube上,无需训练提升专有模型5%-18%;仅ASTs即使无视觉输入也支撑强推理;训练后智能体超越更大通用模型与竞争基线。

具身智能多模态论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
62
ABot-Earth 0.5: 生成式3D地球模型

ABot-Earth 0.5是一个生成式3D框架,利用3D高斯泼溅(3DGS)表示,从地理参考卫星图像合成大规模无缝3D环境。模型在真实城市重建数据集上训练,推理时仅依赖卫星图像,以每平方公里不到10分钟的速度生成逼真的几何与纹理。框架集成层次细节(LOD)结构,支持网页地图引擎上的实时交互可视化。该高保真模拟沙箱可缩小sim-to-real差距,服务于闭环无人机导航等具身AI应用,降低大规模3D重建的技术与财务门槛。

arXiv具身智能图像生成论文/研究
6月7日
23:19
IT之家(RSS)
34
高考首日人形机器人现身考场:穿旗袍跳舞、碰拳助威、翻跟头加油

2026年全国统一高考首日,杭州十四中考点外出现多台穿着大红旗袍的人形机器人,为考生跳舞助威,祝福“旗开得胜”;深圳多个考点有交警人形机器人护考,考生可与其碰拳互动;东南大学在南京市第九中学考点带来智能机器人,通过翻跟头、举牌等方式循环呐喊“高考加油”,为考生送上暖心祝福。

其他具身智能
23:19
IT之家(RSS)
52
英伟达 CEO 黄仁勋明日会见三星电子副会长全永铉,HBM、机器人合作计划成焦点

英伟达 CEO 黄仁勋今天在首尔与 SK 集团高管共进晚餐时确认,明天将与三星电子副会长全永铉会面。双方预计讨论 HBM、下一代存储器技术及机器人等未来技术合作。黄仁勋明天行程紧凑,将先后前往 SK 集团总部、LG 双子塔、首尔大学、现代汽车集团和 Naver 总部,分别会见崔泰源、具光谟、郑义宣、李海珍等人。李在镕因海外出差无法会面。

具身智能行业动态
13:19
IT之家(RSS)
28
消息称小米机器人有望亮相小米 17T 系列手机发布会

据消息,小米机器人有望在小米 17T 系列手机发布会中亮相。该机器人延续 2022 年 CyberOne“铁大”具身人形设计,机身采用暗灰色面料并印有小米标志,已于今年 4 月亮相投资者日,具体技术细节暂未披露。同期发布的小米 17T 系列采用四曲包裹式中框、2D 直屏、一体化金属镜头 Deco 及超大 R 角设计,配备超窄边框。其中 17T Pro 搭载天玑 9500(3nm)芯片,GPU 性能较上一代提升 33%,功耗降低 42%,光追渲染性能提升 199%;后置徕卡光学专业三摄,包括光影猎人 950 主摄(13.5EV 动态范围)、5X 潜望长焦和 120° 超广角,全系支持 5X 光学变焦、10X 无损变焦、120X UltraZoom 及 30cm 长焦微距。

具身智能行业动态
08:19
IT之家(RSS)
64
任职13年后,特斯拉AI基础设施副总裁杰加纳坦正式离职

特斯拉AI基础设施及信息安全副总裁拉吉·杰加纳坦在领英宣布离职,结束13年职业生涯。他自今年2月起逐步离任,将加盟云基础设施服务商Chronoscale任首席技术官。杰加纳坦直接向马斯克汇报,主导设计了全球顶尖GPU集群,为FSD神经网络提供算力,处理数十亿英里实车数据并开展大规模模型训练。他的离职是过去半年特斯拉多位资深高管离职的最新一例。

具身智能数据/训练行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
60
OASIS:从仿真数据采集到真实人形机器人全身操作

现有数据来源在轨迹质量与可扩展性间存在矛盾。OASIS 提出仿真数据驱动框架:用 3D 生成模型从真实图像重建物体资产,在仿真中遥操作收集轨迹,再经域随机化后处理增强。基于仿真数据训练的分层视觉运动策略在真实人形机器人零样本部署下,多数任务成功率优于用真实机器人遥操作数据训练的模型,原因是仿真渲染覆盖了更广泛的光照与环境变化。

具身智能数据/训练论文/研究
6月6日
18:17
IT之家(RSS)
46
2026 款小鹏 X9 获推 AIOS 6.2.0:新增辅助驾驶车道级渲染、终点车位选项等

6月6日,2026款小鹏X9启动AIOS 6.2.0推送。本轮升级中,Ultra和Ultra SE车主收到VLA 2.0的第二个版本,Max版VLA 2.0蒸馏版仍在开发。新增功能包括:园区地库无导航NGP漫游、全场景原地起步、终点车位选项、车位被占漫游找车位、效率泊车风格(本轮Max可用)、辅助驾驶车道级渲染、熟路智能推荐、手机App车内遥控器、后视镜展开时机设置、车窗拨杆控制方式、间歇雨刮灵敏度调节、停止模式指示灯、自动连接媒体音频开关、车辆信息及辅助驾驶战绩。

产品更新具身智能端侧
16:17
IT之家(RSS)
48
小鹏被传机器人核心人物离职,内部人士称业务进展顺利

小鹏机器人产品规划高级总监施晓鑫于6月初正式离职。施晓鑫是小鹏人形机器人体系从0到1搭建的元老,主导IRON全系列产品定义。市场担忧其离职影响量产进度,小鹏内部人士回应业务进展顺利。何小鹏在5月底财报电话会上透露,新一代IRON人形机器人计划于今年三季度亮相,目标今年底实现量产,首先在小鹏门店试商用,明年起面向商业客户交付。人形机器人的硬件和AI模型收入将成为集团收入增长的重要驱动力。

具身智能行业动态
14:17
IT之家(RSS)
62
黄仁勋谈未来计算:收敛为面向 AI 智能体的统一架构,覆盖云端到机器人

在2026台北国际电脑展上,黄仁勋指出未来计算将收敛为一套面向AI智能体的统一模式,从云端延伸至PC、汽车、机器人及各类边缘设备。该模式覆盖AI训练与推理,使所有边缘设备具备自主运行能力。自动驾驶、类人机器人和通信基站本质上是同类智能体系统。英伟达驾驶系统基于语言推理,未来可通过读取“技能文件”和教程视频操作陌生设备。数据中心方面,新推的88核Arm处理器Vera已全面量产,专为AI智能体生成词元设计,侧重单线程速度和内存带宽。

智能体具身智能大佬观点端侧
12:16
IT之家(RSS)
49
比亚迪否认"人形机器人代号尧舜禹"等传闻,称相关消息均不属实

比亚迪否认网传其自研人形机器人代号“尧舜禹”、第七代原型机在深圳和长沙工厂实地测试、约150台上岗、年内内部部署2万台等消息,称均不属实。比亚迪集团执行副总裁李柯此前表示,比亚迪也在开发人形机器人,汽车相关AI能力与机器人有同源性,未来可通过经销商网络售卖机器人。李柯还称,中国机器人缺大脑,美国机器人四肢不发达,需实现两者结合。

具身智能行业动态
08:00
HuggingFace Daily Papers(社区热门论文)
52
几何主结构(GPS):面向机器人关节部件感知的可扩展高质量表示

针对机器人操作中关节部件感知的准确性与泛化性需求,提出几何主结构(GPS)表示,在可扩展性与质量间取得平衡。GPS结合便携式VR设备,标注单个物体序列仅需一分钟,质量高于基于点跟踪的affordance方法。利用VR-GPS系统收集6个部件类别下234个物体的41K帧数据,训练出以单张RGB-D图像为输入的泛化GPS模型。无需领域内微调,基于GPS预测的启发式策略在9个物体270个初始状态上达到73%成功率。代码、数据和工具已开源。

arXiv具身智能数据/训练论文/研究
08:00
HuggingFace Daily Papers(社区热门论文)
54
Light-WAM: 高效世界动作模型与状态融合动作解码

Light-WAM是面向机器人操作的高效轻量级世界动作模型。它采用紧凑视频骨干,在降采样潜在空间中进行未来视频监督,降低视频协同训练成本。动作预测由StateFusionActionExpert完成,从多个骨干层读取状态并通过学习查询池化融合特征,在单次前向中直接预测动作块,避免重型生成式动作专家。该模型仅0.44B可训练参数,在LIBERO上保持强劲性能,在RoboTwin 2.0上达到可用多任务水平,推理延迟72.03ms,峰值GPU内存4.1GiB,并提升了训练吞吐量。

具身智能论文/研究
00:47
HuggingFace Daily Papers(社区热门论文)
65
GeoVR:从视频学习几何表示,重塑多模态大语言模型的空间智能

多模态大语言模型(MLLM)擅长2D语义理解,但缺乏3D空间一致性。GeoVR框架利用纯2D视频序列,通过从预训练3D基础模型蒸馏几何知识,重构MLLM的语义隐空间。其多目标学习策略包含四个互补几何约束:帧间相机位姿估计、密集深度图回归、度量尺度因子预测以及多尺度3D特征对齐。在空间推理基准上,GeoVR达到当前最佳性能(SOTA),为赋予基础模型空间智能提供了新范式。

具身智能多模态论文/研究
6月5日
23:47
HuggingFace Daily Papers(社区热门论文)
56
AffordanceVLA:通过具身感知理解增强动作生成的视觉-语言-动作模型

AffordanceVLA 是一种视觉-语言-动作模型,通过引入结构化具身感知预测作为任务导向中间表示,建立更精准的感知-动作映射。模型包含三个互补组件:Which2Act(通过视觉潜变量预测实现目标中心定位以抑制干扰)、Where2Act(通过具身感知图估计定位二维交互区域)、How2Act(进行三维几何推理以引导操控策略)。采用混合 Transformer 架构,结合三阶段训练策略和渐进式数据课程,并配有自动数据增强管道。在仿真和真实世界实验中,模型在多种操控场景中取得强性能。

arXiv具身智能多模态论文/研究
22:15
IT之家(RSS)
精选72
开源鸿蒙 OpenHarmony 具身智能版本 EmbodiedAI 1.0.1 发布

6月5日,开源鸿蒙具身智能PMC(筹)发布EmbodiedAI 1.0.1版本。该版本聚焦机器人控制与智能体应用,升级导航规划、运动控制、仿真开发、硬件适配等核心能力,兼容ROS生态、机器人模拟器及多种本体形态。集成开源鸿蒙原生模拟器、MuJoCo、Gazebo三大仿真环境,打通从代码开发到真机验证的全流程链路。人形机器人、四足机器狗、商用服务机器人等已完成适配验证。目前具身智能方向已组建18个专项SIG工作组,版本源码已正式开放。

产品更新具身智能开源生态

推荐理由:开源鸿蒙的具身智能框架终于从概念走向工程交付,EmbodiedAI 1.0.1 打通仿真和真机,对于不想被ROS绑架的机器人团队是个新选择。
22:15
IT之家(RSS)
59
英特尔与鸿海战略合作,携手推动AI机柜、边缘与物理AI发展

鸿海科技集团与英特尔宣布战略合作,结合英特尔在处理器、硅光子技术与软件生态的优势,以及鸿海的全球制造、系统整合与AI数据中心部署能力,共同探索从芯片、机柜到系统与应用的全方位AI解决方案。合作首先聚焦AI机柜领域,开发基于英特尔至强处理器的机柜级AI基础设施,推进高速互连、散热与液冷设计;同时在边缘与物理AI领域定义下一代平台架构,布局代理式AI、终端智能与机器人;此外还将探索定制ASIC、SoC与系统整合设计服务的合作。

智能体具身智能端侧行业动态
18:47
HuggingFace Daily Papers(社区热门论文)
63
Dream.exe:视频生成模型能否生成可执行的机器人操作?

Dream.exe 是一个评估视频生成模型物理世界理解能力的框架,通过视频到执行的流水线,将生成的机器人操作视频转化为真实可执行轨迹,并在物理模拟器中验证成功率。研究评估了8个模型,包括GPT-4o、Sora、CogVideoX-5B、Meta-LLaMA 3D、GR-1等,覆盖101个手动设计的操作任务,分为三个物理复杂度等级,评测视觉质量、轨迹保真度和执行成功率。结果显示,多个模型达到了可测量的执行成功率,但视觉质量不能预测可执行性。Dream.exe即将开源。

具身智能论文/研究
16:15
IT之家(RSS)
58
小米机器人团队拿下CVPR 2026和ICRA 2026双料冠军

小米机器人团队在CVPR 2026 Workshops和ICRA 2026 WBC两项国际赛事中夺得冠军。在CVPR 2026 RoboChallenge中,匿名参赛模型「my16」(自研WAM世界动作模型)以40.89%成功率位列总榜第一,是本届唯一突破40%的模型。在ICRA 2026 WBC超市场景挑战中,综合得分99.2分(接近满分),整体成功率94%,领先第二名10个百分点;简单任务成功率100%,复杂任务成功率90%。该模型采用“S1/S2双系统+长短期记忆+跨本体预训练”架构。

具身智能行业动态
15:15
IT之家(RSS)
46
英伟达黄仁勋:机器人将成为韩国下一个重要产业

英伟达CEO黄仁勋6月5日抵达韩国金浦机场后对记者表示,机器人将成为韩国下一个重要产业,并计划与现代、LG、SK、三星和Naver等企业合作推进机器人与AI领域。他认为韩国为Physical AI提供充足空间,半导体制造将越来越依赖机器人和AI。英伟达或将其计算平台、AI软件和机器人系统引入三星、SK等芯片生产流程。

具身智能大佬观点
14:14
IT之家(RSS)
38
英伟达CEO黄仁勋抵达韩国,首站造访《英雄联盟》选手Faker和T1战队

英伟达创始人兼CEO黄仁勋今天抵达韩国金浦国际机场,首站前往首尔麻浦区T1基地会见战队队长Faker及Doran、Oner、Peyz、Keria等队员,讨论推动电竞产业发展。当晚他还在弘益大学附近餐厅与SK集团会长崔泰源、现代汽车执行会长郑义宣、LG集团会长具光谟、Naver CEO李海珍等举行闭门晚宴,议题涵盖机器人技术、AI半导体供应链协同、物理AI和下一代数据中心建设。

具身智能行业动态
‹ 上一页
1…56789…19
下一页 ›