AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 55 条
全部一手资讯X论文
标签「具身智能」清除
6月22日周一
22:00公众号:百度智能云(文心)46百度智能云亮相张江EAI:百舸AI Infra加速具身模型,安全方案护航产业落地
6月19日周五
00:22Anthropic:Research(发表成果 · 网页)77精选Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍
6月17日周三
23:43Hugging Face:Blog(RSS)69精选MolmoMotion:语言引导的3D运动预测模型
18:39Hugging Face:Blog(RSS)66精选Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人
6月16日周二
19:30公众号:生数科技(Vidu·视频)46生数科技携手光轮智能,推动世界模型走向真实世界
14:30公众号:通义实验室(千问)73Qwen-Robot 发布:打通大模型到物理世界的最后一公里
12:39Qwen:Blog Retrieval(API)72同事件精选Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
12:39Qwen:Blog Retrieval(API)72精选Qwen-RobotWorld:具身智能体的无界世界
12:39Qwen:Blog Retrieval(API)73Qwen-Robot Suite:面向物理世界智能的基础模型套件
12:39Qwen:Blog Retrieval(API)70同事件精选Qwen-RobotNav:面向智能体导航系统的可扩展导航模型同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
6月15日周一
21:30公众号:百度智能云(文心)50上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA
6月13日周六
21:30公众号:面壁智能(MiniCPM)50面壁智能李大海:全栈突破×场景落地,端侧AI加速AGI征程
17:54公众号:面壁智能(MiniCPM)39面壁智能在2026北京智源大会展示端侧AI全栈技术
6月9日周二
22:04Google DeepMind:Blog(RSS)48Google DeepMind 欧洲机器人加速器启动,15家初创公司入选
21:00公众号:火山引擎69精选全新汽车品牌AIVA发布,火山引擎助力打造AI汽车新体验
21:00公众号:百度智能云(文心)26千寻智能与百度智能云合作:98.8%有效训练时长加速具身模型进化
6月3日周三
22:41Hugging Face:Blog(RSS)46为 Reachy Mini 添加 MCP 工具
18:30公众号:百度智能云(文心)46浙江人形机器人创新中心与百度智能云合作推动人形机器人产业落地
6月2日周二
18:00公众号:百度智能云(文心)58北京人形机器人创新中心联合百度智能云发起具身智能黑客松大赛
6月1日周一
13:36Hugging Face:Blog(RSS)75NVIDIA 发布 Cosmos 3:首个面向物理AI推理与动作的开源全能模型
5月29日周五
23:13Qwen:Blog Retrieval(API)66精选Qwen-VLA:从理解世界到付诸行动
22:53公众号:通义实验室(千问)61同事件精选Qwen-VLA:迈向通用具身智能的统一动作框架同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
5月28日周四
19:58公众号:龙猫LongCat(美团)36美团无人机低空航网正式投入运营,M-Drone 4L索降版发布
5月27日周三
12:35公众号:生数科技(Vidu·视频)42实力认证!MotuBrain荣获BEYOND创新大奖
5月26日周二
20:12公众号:百度智能云(文心)44百度智能云发布具身智能Ego-Centric采集解决方案
5月23日周六
19:14公众号:百度智能云(文心)40当AI进入物理世界,具身模型如何重构生产力?
5月20日周三
01:48Google DeepMind:Blog(RSS)51使用 Project Genie 和 Street View 模拟真实世界场景
5月19日周二
19:55公众号:百度智能云(文心)31视启未来🤝百度智能云:给大模型一双手,让AI真正触碰物理世界
00:52Hugging Face:Blog(RSS)67精选NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频
5月15日周五
21:33公众号:百度智能云(文心)51帕西尼x百度智能云:携手百亿独角兽,共同推动具身智能产业规模化落地
5月14日周四
19:58公众号:龙猫LongCat(美团)38MARS TALK 香港大学站|共话具身智能的技术演进与商业化进程
4月30日周四
13:03公众号:生数科技(Vidu·视频)55生数科技与星尘智能达成战略合作,共同推进具身世界模型落地
4月29日周三
20:40公众号:生数科技(Vidu·视频)54生数科技发布通用世界行动模型 MotuBrain
4月28日周二
08:28Hugging Face:Blog(RSS)58精选Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI
4月24日周五
08:00Apple Machine Learning Research(RSS)48Learning Long-Term Motion Embeddings for Efficient Kinematics Generation
4月23日周四
19:58公众号:龙猫LongCat(美团)45LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征
4月16日周四
19:58公众号:龙猫LongCat(美团)30MARS TALK 香港大学站|具身智能的技术演进与商业化进程
4月9日周四
17:01公众号:腾讯混元51腾讯Robotics X实验室联合混元推出2B具身模型:22项评测16项最佳
4月2日周四
18:30公众号:生数科技(Vidu·视频)41生数科技与深朴智能合作,共筑物理世界通用智能
3月12日周四
20:27公众号:生数科技(Vidu·视频)35生数科技与无界动力达成全面战略合作,共创物理AI新范式
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月22日
22:00
公众号:百度智能云(文心)
46
百度智能云亮相张江EAI:百舸AI Infra加速具身模型,安全方案护航产业落地

6月16日至17日,2026张江EAI大会上,百度智能云展示百度百舸全栈AI Infra平台,针对VLA和WAM模型优化训练与推理,将开源WAM模型推理延迟降至原来的1/2甚至1/4;与上海交通大学合作的AHA-WAM模型延迟压缩至约41毫秒。百度智能云还总结具身智能三类核心安全风险(远程劫持、知识产权泄露、行为决策诱导),推出体系化安全解决方案。同时,人形机器人产业创新联盟已集聚120余家成员,百度智能云与宇树科技、乐聚机器人等获授牌。

具身智能行业动态部署/工程
6月19日
00:22
Anthropic:Research(发表成果 · 网页)
精选77
Anthropic Project Fetch 第二阶段:Claude Opus 4.7 自主完成任务,速度比人类团队快约20倍

Anthropic 发布 Project Fetch 实验第二阶段结果。在2024年8月原始实验中,配备 Claude Opus 4.1 的人类团队在操控四足机器人时显著超越无 AI 团队。新实验中,Claude Opus 4.7 无需人类协助即完成所有任务,速度比最快人类团队快约20倍,比无 Claude 团队快37倍以上,编码量减少近10倍。模型在传感器连接、路径规划等环节表现出色,但在精确移动沙滩球等闭环控制任务上仍存在困难。这些进展源于通用模型规模化,而非针对机器人领域的专项优化。

智能体Anthropic具身智能论文/研究
关联讨论 1 条X:Anthropic (@AnthropicAI)
推荐理由:Anthropic 用 Claude Opus 4.7 自主操作机器狗,比当初的人类志愿者快 18-37 倍,代码量却少了十倍。这让「语言模型上手物理工具」从假想变成了可视的进度条,做具身智能和 agent 的人都该看一眼。
6月17日
23:43
Hugging Face:Blog(RSS)
精选69
MolmoMotion:语言引导的3D运动预测模型

MolmoMotion基于Molmo 2骨干网络,输入视频帧、物体上的3D点标记及文字动作指令(如“移动并旋转桌上放水果的木碗”),预测未来数秒内这些点的3D轨迹。提供两个变体:自回归的MolmoMotion-AR逐步预测坐标,流匹配的MolmoMotion-FM通过连续空间变换处理多可能性运动。同时发布MolmoMotion-1M数据集(含116万视频的3D点轨迹及动作描述)和PointMotionBench基准测试(2700个人工验证视频片段)。模型权重、数据集和基准测试均已开源。

Hugging Face具身智能多模态模型发布

推荐理由:MolmoMotion把3D运动预测从模板化推到任意物体,百万级数据集和基准让研究门槛大降,做机器人和视频生成的值得认真看,但目前仍是研究阶段,离落地还有距离。
18:39
Hugging Face:Blog(RSS)
精选66
Strands Robots SDK:用单一智能体打通 Hugging Face Hub 到物理机器人

AWS(Apache 2.0)开源的 Strands Robots SDK 将 LeRobot 栈封装为 AgentTools,构建统一智能体。默认用 MuJoCo 模拟(无需硬件),mode="real" 切换至真实机器人。可记录演示数据为 LeRobotDataset 并推送 Hugging Face Hub,运行 GR00T 或 LerobotLocal 策略推理,经 Zenoh mesh 广播命令到多台机器人。模拟与硬件代码完全一致,只需改一个关键字参数。示例可在笔记本(Python 3.12+,Linux/macOS)无硬件、无 GPU 运行。

Hugging Face产品更新具身智能开源生态

推荐理由:AWS 的 Strands Robots 把 LeRobot 仿真和硬件部署装进同一个 Agent 里,代码几乎不变就能从模拟切到物理机器人,对具身智能开发者是省掉胶水代码的实用工具。
6月16日
19:30
公众号:生数科技(Vidu·视频)
46
生数科技携手光轮智能,推动世界模型走向真实世界

6月15日,生数科技与光轮智能宣布战略合作,围绕通用世界模型的数据标准、评测体系与场景落地深度协同。生数科技以世界行动模型MotuBrain为核心,打造具身智能通用大脑;光轮智能依托“求解—测量—生成”全栈仿真平台RoboFinals,提供数据与评测基础设施。双方将共同推进面向物理世界的数据体系、可复现评测闭环及从仿真到真机的产业验证,加速世界模型从数字走向真实场景。

具身智能行业动态
14:30
公众号:通义实验室(千问)
73
Qwen-Robot 发布:打通大模型到物理世界的最后一公里

通义实验室推出 Qwen-Robot,包含三个基础模型:Qwen-RobotNav 以单套权重统一五类导航任务,五项基准达 SOTA,零样本部署于宇树 Go2 机器人(推理延迟 196ms);Qwen-RobotManip 基于 Qwen3.5-4B VL,采用 80 维状态-动作统一表示,利用超 38,100 小时开源数据训练,在多个操作基准超越 π0.5;Qwen-RobotWorld 以 860 万视频-文本对训练,通过自然语言动作接口统一 20 余种本体,多项世界模型评测第一。三个模型通过语言优先接口可被通用 Qwen 模型组合调用,实现物理智能体闭环。

具身智能多模态模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
12:39
Qwen:Blog Retrieval(API)
同事件精选72
Qwen-RobotManip:对齐解锁机器人操作基础模型的规模化能力

Qwen-RobotManip 是通义千问基于 Qwen-VL 的视觉-语言-动作(VLA)基础模型,引入覆盖表示、运动和行为三维度的统一对齐框架。仅使用开源机器人数据集和人演示视频,构建约 38,100 小时预训练语料,涵盖 15 种机器人形态。在 LIBERO-Plus 达 91.4%,RoboTwin-C2R Hard 达 69.4%,RoboCasa365 Composite-Unseen 达 14.9%,EBench 达 45.6%,RoboTwin-IF 达 72.0%,并在 RoboChallenge Table30 v1 generalist track 夺冠。模型采用 80 维状态-动作表示、人-机器人数据合成管道(1,933 小时第一人称视频转 24,808 小时数据)及上下文策略适配。

具身智能开源生态数据/训练模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:Qwen 这次发布的机器人模型,用统一对齐框架把跨实体数据规模化训练跑通了,OOD 泛化大幅领先,做具身智能的值得认真看一下。
12:39
Qwen:Blog Retrieval(API)
精选72
Qwen-RobotWorld:具身智能体的无界世界

Qwen-RobotWorld以语言为统一动作接口,采用双流Multimodal Diffusion Transformer(MMDiT)架构,将Qwen2.5-VL作为动作编码器。在4个基准测试中取得顶尖成绩,统一20余种机器人形态,基于860万跨场景训练对和1300多项操作技能。语言接口标准化500多种动作类别,支持操作、自动驾驶、室内导航的联合训练。还支持Scene2Robot人类到机器人转移及2–4路多视角几何一致视频生成。

具身智能多模态模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
推荐理由:具身智能的世界模型长期受限于单一形态,Qwen-RobotWorld用语言统一动作接口,把操作、驾驶、导航合训,多视角几何一致性和人类演示迁移是过去一年最扎实的落地信号,做机器人的别错过。
12:39
Qwen:Blog Retrieval(API)
73
Qwen-Robot Suite:面向物理世界智能的基础模型套件

Qwen 发布三款基础模型——Qwen-RobotNav、Qwen-RobotManip 和 Qwen-RobotWorld。Nav 通过可控观测协议统一指令跟随、点/物体目标导航、目标追踪和自动驾驶五类任务,在 VLN-CE RxR 上达 76.5% SR,HM3Dv2 物体目标导航(仅 RGB)75.6% SR,EVT-Bench 追踪率 90.0%,NAVSIM 91.4 PDMS。Manip 利用规范状态-动作空间对超 38,100 小时异构开源机器人数据进行跨本体训练。World 通过自然语言动作接口协同训练 20 余种本体,预测操控、驾驶和导航的物理未来。三者共同将通用智能转化为物理行动。

具身智能模型发布
关联讨论 3 条Hacker News 热门(buzzing.cc 中文翻译)X:通义千问 / Qwen (@Alibaba_Qwen)MarkTechPost(RSS)
12:39
Qwen:Blog Retrieval(API)
同事件精选70
Qwen-RobotNav:面向智能体导航系统的可扩展导航模型

Qwen 发布 Qwen-RobotNav,基于 Qwen3-VL 在 15.6M 样本上训练,统一了视觉语言导航、目标导航、目标跟踪、自动驾驶和具身问答五个领域,无需修改架构即可在推理时切换任务模式和观察参数。模型在多项基准取得 SOTA:VLN-CE RxR 成功率 76.5%,HM3Dv2 目标导航 75.6%(仅 RGB),EVT-Bench 跟踪率 90.0%,NAVSIM PDMS 91.4,以及三项 EQA 新标杆。模型暴露四个可调轴(视觉 token 预算、时间衰减、相机权重、帧采样模式)。作为智能体系统的一部分,上层规划器 Qwen3.7-Plus 在 EXPRESS-Bench 上提升 15.4%,导航步数减少 77%。模型已零样本部署在 Unitree Go2 四足机器人上,无需环境微调。

具身智能模型发布
同一事件,精选展示《Qwen-RobotWorld:具身智能体的无界世界》
推荐理由:把导航任务看作上下文配置问题,单一模型覆盖从跟随指令到自动驾驶五种任务,在四足机器人上零样本部署,具身智能的工程化样本。
6月15日
21:30
公众号:百度智能云(文心)
50
上海交大🤝百度智能云:首破世界-动作模型时间绑定,无需预训练即达SOTA

上海交大ScaleLab团队联合上海人工智能实验室、百度智能云推出机器人操控模型AHA-WAM,突破世界-动作模型延迟瓶颈。在RoboTwin 2.0上以92.8%平均成功率超越主流模型,真实场景综合成功率78.3%。闭环控制频率从5.26Hz提升至24.17Hz,轻量版AHA-WAM-Flash达56.95Hz,提速超10倍。百度百舸平台实现单步推理延迟从415ms降至41ms。异步架构与蒸馏技术实现高实时控制。

具身智能推理论文/研究
6月13日
21:30
公众号:面壁智能(MiniCPM)
50
面壁智能李大海:全栈突破×场景落地,端侧AI加速AGI征程

面壁智能李大海在智源大会上表示,端侧智能是实现物理世界AGI的必由之路。MiniCPM端侧模型已落地汽车(长安马自达、吉利等)、手机、AIPC、具身智能、智能家居等领域。公司开源发布周展示全栈技术:UltraData数据治理体系、MiniCPM5-1B模型以1/200参数逼近两年前GPT-4o、ForgeTrain框架对比英伟达Megatron节省10%资源、BitCPM-CANN在国产算力跑通三值训练(推理节省6倍内存)、开源PilotDeck多智能体操作系统。面壁选择全栈开源,共建端侧生态。

具身智能大佬观点开源生态端侧
17:54
公众号:面壁智能(MiniCPM)
39
面壁智能在2026北京智源大会展示端侧AI全栈技术

6月12日,面壁智能在2026北京智源大会上展示端侧AI全栈技术。MiniCPM5-1B以1B参数在AA-Index上超越所有2B以下模型,相比Qwen3.5-2B效果更优且参数量减半,由全球首个完全AI编写的预训练框架ForgeTrain完成,训练速度比英伟达Megatron快10%。BitCPM-CANN是国内首个基于华为昇腾端到端训练并开源的三值(1.58-bit)大模型,推理阶段释放约6倍显存红利。面壁智能联合北京智源人工智能研究院、OpenBMB发起「智能体+硬件创新加速孵化器」,单项目最高500万综合投资。

具身智能端侧行业动态
6月9日
22:04
Google DeepMind:Blog(RSS)
48
Google DeepMind 欧洲机器人加速器启动,15家初创公司入选

Google DeepMind 加速器从欧洲选出15家机器人初创公司,提供为期3个月的密集指导和AI技术整合支持,帮助公司将AI融入核心产品。

DeepMind具身智能行业动态
21:00
公众号:火山引擎
精选69
全新汽车品牌AIVA发布,火山引擎助力打造AI汽车新体验

由赛力斯、宁德时代等多方产业资本组建的AI出行品牌AIVA正式发布。火山引擎提供豆包大模型、智能座舱等技术服务。概念车AIVA Origin Concept亮相,首款量产车AIVA ME7将于2026年内亮相,全系覆盖20万元以上市场。AIVA提出“AI定义汽车”路径,让汽车成为具身AI生命体。火山引擎副总裁表示,人与汽车的关系将实现交互、智能、感受三方面根本转变。未来双方将围绕AI交互、智能体验、情感陪伴深度共创。

具身智能端侧行业动态

推荐理由:AIVA把「先有AI再有车」当作造车逻辑,火山引擎直接下场定义汽车AI体验,这是豆包大模型从软件跑到物理世界的第一次大规模试水,做具身智能和车载产品的人该仔细看看。
21:00
公众号:百度智能云(文心)
26
千寻智能与百度智能云合作:98.8%有效训练时长加速具身模型进化

千寻智能与百度智能云合作,依托百度智能云AI Infra底座,将集群有效训练时长提升至98.8%,训练和推理效率分别提高30%和60%。其自研Spirit系列通用具身基座模型,Spirit v1.6在RoboArena评测中登顶,超越英伟达Cosmos3与Physical Intelligence Pi0.5,成为首个登顶的中国具身模型。公司成立于2024年1月,近期完成15亿元A+轮融资,近三个月累计融资近50亿元,预计今年积累100万小时真实交互数据,推动智能制造、服务行业等场景商业化落地。

具身智能行业动态
6月3日
22:41
Hugging Face:Blog(RSS)
46
为 Reachy Mini 添加 MCP 工具

Reachy Mini 对话应用现在可通过 MCP 协议添加远程工具。执行 reachy-mini-conversation-app tool-spaces add 命令即可从 Hugging Face Spaces 安装远程工具(如搜索、天气),并自动启用至当前 profile 的 tools.txt 中。内置工具(头部动作、跳舞、表情、摄像头等)仍为本地 Python 代码,远程工具则通过 MCP 端点调用。profiles 通过 tools.txt 控制哪些工具可用,不在文件中的工具模型无法调用。用户也可编写自定义本地工具。远程工具适合无状态能力,便于发布、共享和迭代,无需修改应用本身。支持 install、list、remove 等子命令。

Hugging FaceMCP/工具产品更新具身智能
18:30
公众号:百度智能云(文心)
46
浙江人形机器人创新中心与百度智能云合作推动人形机器人产业落地

浙江人形机器人创新中心与百度智能云合作,推动人形机器人产业落地。浙江人形推出国内首个全尺寸双足人形机器人NAVIAI-I2(41个自由度,亚毫米级操作精度)及面向超精密装配的NAVIAI-WA1;“领航者2号”在2025国际人形机器人技能大赛获商用场景冠军,单次抓取平均12秒、准确率100%。百度智能云通过百舸平台提供GPU算力调度与模型训推加速,并搭建Real2Sim2Real仿真通道,支持数据标注。已实现与杰克科技签约2000台订单、联合方太发布机器人总厨,以及康养场景喂饭喂水陪护服务验证。

具身智能行业动态
6月2日
18:00
公众号:百度智能云(文心)
58
北京人形机器人创新中心联合百度智能云发起具身智能黑客松大赛

北京人形机器人创新中心与百度智能云发起具身智能黑客松大赛,设运动控制与VLA模型微调双赛道,面向全球征集真机可部署方案。提供百万奖金、天工3.0本体及世界人形机器人运动会直通名额。天工Ultra曾夺半马冠军(2:40:42)及百米冠军(21.50秒)。

具身智能开源生态行业动态
6月1日
13:36
Hugging Face:Blog(RSS)
75
NVIDIA 发布 Cosmos 3:首个面向物理AI推理与动作的开源全能模型

NVIDIA 发布 Cosmos 3,基于 Mixture-of-Transformers(MoT)架构的开源全能模型,统一世界生成、场景理解、因果推理和策略生成。该模型通过自回归与扩散子序列联合注意力,在单一前向过程中处理文本、图像、视频、音频和动作等多模态。本次发布包含两个版本:Cosmos 3 Nano(16B 参数,8B 推理器 + 8B 生成器,面向工作站级 GPU)和 Cosmos 3 Super(64B 参数,32B + 32B,面向 Hopper 和 Blackwell GPU,用于大规模合成数据生成与研究)。两者均已上架 Hugging Face,并提供 Diffusers 集成、GitHub 后训练脚本和开源合成数据数据集。

具身智能多模态模型发布
关联讨论 9 条X:Kim (@kimmonismus)HuggingFace Daily Papers(社区热门论文)IT之家(RSS)X:卡兹克 (@Khazix0918)X:Satya Nadella (@satyanadella)X:Perplexity (@perplexity_ai)X:Artificial Analysis (@ArtificialAnlys)Hacker News 热门(buzzing.cc 中文翻译)LMSYS:Blog(Chatbot Arena 团队)
5月29日
23:13
Qwen:Blog Retrieval(API)
精选66
Qwen-VLA:从理解世界到付诸行动

通义千问推出通用视觉-语言-动作模型Qwen-VLA,基于Qwen多模态骨干,将视觉感知、语言理解与空间推理扩展至连续动作生成和轨迹预测。训练分四阶段:文本到动作预训练(T2A)、持续预训练(CPT)、监督微调(SFT)和强化学习(RL)。在LIBERO上达97.9%,Simpler-WidowX达73.7%,RoboTwin-Easy/Hard达86.1%/87.2%,匹配或超越专精模型。数据涵盖超10,000小时公共机器人轨迹、1,000+小时内部真实轨迹及800万+合成仿真轨迹。

具身智能多模态模型发布
关联讨论 1 条HuggingFace Daily Papers(社区热门论文)
推荐理由:Qwen-VLA 把机器人操作、导航和跨实体控制统一进一个模型,在多个基准上打平甚至超越专用模型,这是通用具身智能的一个重要信号,但离实际可用还有距离。
22:53
公众号:通义实验室(千问)
同事件精选61
Qwen-VLA:迈向通用具身智能的统一动作框架

通义实验室提出Qwen-VLA,以Qwen3.5-4B视觉语言主干与1.15B参数DiT动作解码器构建统一视觉-语言-动作模型。通过文本到动作DiT预训练和本体感知提示,将操作、导航与轨迹预测统一在同一框架下,支持11种机器人平台。在5个仿真基准中,单一通用模型在3个上超越最佳专用模型;ALOHA真机in-domain成功率83.6%,OOD泛化76.9%,分别超越π₀.₅超35和40个百分点;DOMINO动态操作零样本达26.6%;VLN-CE导航R2R和RxR分别达57.5%和59.6%,均超越专用模型。

具身智能模型发布
同一事件,精选展示《Qwen-VLA:从理解世界到付诸行动》
推荐理由:通义把操作、导航和轨迹预测塞进一个脑子,在11种机器人上通用,这是具身智能从'专家'走向'通才'的关键一步,做机器人的值得翻翻论文。
5月28日
19:58
公众号:龙猫LongCat(美团)
36
美团无人机低空航网正式投入运营,M-Drone 4L索降版发布

5月21日,2026世界无人机大会上,美团宣布“城市低空物流航网”正式常态化运营,并发布第四代无人机长程索降版M-Drone 4L Winch、智能接驳机场M-Port 3和无人机云枢M-DaaS 3。M-Drone 4L可在-20℃至50℃、大雨、中雪及6级大风下稳定飞行,覆盖国内97%以上城市场景;M-Port 3占地仅1.4平方米,可极简部署;M-DaaS 3能在100毫秒内对异常状况判断,配合三级安全保障体系,已安全完成超90万单配送。同时启动授权服务商招募,首批签约10家,覆盖浙江、湖南、广西等省份,场景从餐饮外卖拓展至医疗、工业等领域。

产品更新具身智能端侧
5月27日
12:35
公众号:生数科技(Vidu·视频)
42
实力认证!MotuBrain荣获BEYOND创新大奖

生数科技MotuBrain获BEYOND Awards 2026创新大奖,从全球800余项目突围。它统一建模“看懂世界”与“执行动作”,打破感知/规划/执行割裂,具备一脑多能、多型、贯通、预见核心能力,可适配多机器人,端到端完成连续长程任务。未来将赋能全球机器人生态。

具身智能行业动态
5月26日
20:12
公众号:百度智能云(文心)
44
百度智能云发布具身智能Ego-Centric采集解决方案

百度智能云发布具身智能Ego-Centric采集解决方案,以轻量化数采套件(120FPS、150°视场、毫米级定位、毫秒级同步)实现低门槛第一视角数据采集;首创无本体设计,通过RGB视频到三维手部姿态估计与动作重定向,达成毫米级机械臂轨迹映射。方案配备六相机真值评估体系、三层数据质检机制及智能化数据管理平台,覆盖采、标、管、仿、训、测全栈能力。已服务智元机器人、星海图等超30家重点企业,并支持北京、上海、浙江、四川等国家创新中心。

产品更新具身智能数据/训练
5月23日
19:14
公众号:百度智能云(文心)
40
当AI进入物理世界,具身模型如何重构生产力?

百度智能云在Create2026大会上举办具身智能专题论坛,探讨AI进入物理世界后,具身模型如何重构生产力。论坛围绕具身模型的技术路线、应用场景及产业落地展开讨论。

具身智能现象/趋势
5月20日
01:48
Google DeepMind:Blog(RSS)
51
使用 Project Genie 和 Street View 模拟真实世界场景

谷歌宣布向全球的 Google AI Ultra 订阅者开放新的访问权限,并推出一项基于 Street View 数据驱动的全新功能。该功能能够模拟真实世界的地点与场景,标志着 AI 在结合地理信息与沉浸式体验方面迈出新步伐,为用户带来更具现实感的交互与探索可能性。

DeepMindGoogle产品更新具身智能
5月19日
19:55
公众号:百度智能云(文心)
31
视启未来🤝百度智能云:给大模型一双手,让AI真正触碰物理世界

百度智能云提出给大模型一双手,让AI真正触碰物理世界。该方案旨在让大模型具备物理交互能力,实现与现实世界的直接操作。

产品更新具身智能
00:52
Hugging Face:Blog(RSS)
精选67
NVIDIA Cosmos Predict 2.5 微调:使用 LoRA/DoRA 生成机器人视频

NVIDIA Cosmos Predict 2.5 是一个 2B 参数的世界模型,可根据文本、图像或视频片段生成物理合理的视频。通过 LoRA 或 DoRA 在 DiT 的注意力层(to_q, to_k, to_v, to_out.0)和前馈层注入可训练适配器,冻结全部基座权重,在单个 80GB GPU 上即可完成参数高效微调,避免了全量微调的高成本与灾难性遗忘。该流程使用 diffusers 和 accelerate 库,利用 92 个机器人操作视频训练集与 50 个 (prompt, image) 测试对进行微调,并展示如何用微调模型生成合成机器人轨迹以支持下游机器人学习任务。支持单 GPU 与多 GPU 训练,切换不同领域适配器无需重训。

具身智能教程/实践数据/训练视频

推荐理由:这篇教程把微调Cosmos Predict 2.5的方法从头到尾讲清楚了,做机器人合成数据的同行可以直接抄作业,LoRA/DoRA切换也很方便,值得收藏。
5月15日
21:33
公众号:百度智能云(文心)
51
帕西尼x百度智能云:携手百亿独角兽,共同推动具身智能产业规模化落地

帕西尼(百亿估值独角兽)与百度智能云达成合作,双方将整合各自在机器人技术与云计算/AI能力上的优势,共同推动具身智能产业从技术研发到规模化落地的进程。

具身智能行业动态
5月14日
19:58
公众号:龙猫LongCat(美团)
38
MARS TALK 香港大学站|共话具身智能的技术演进与商业化进程

美团技术团队主办的MARS TALK香港大学站活动,聚焦具身智能领域,探讨其从技术验证到规模化商用的演进路径与商业化落地进程。

具身智能行业动态
4月30日
13:03
公众号:生数科技(Vidu·视频)
55
生数科技与星尘智能达成战略合作,共同推进具身世界模型落地

生数科技与星尘智能正式宣布达成战略合作,双方将共同推进具身世界模型落地。

具身智能行业动态视频
4月29日
20:40
公众号:生数科技(Vidu·视频)
54
生数科技发布通用世界行动模型 MotuBrain

生数科技发布通用世界行动模型 MotuBrain,主打“为行动而生”,旨在推动智能体在物理世界中的感知与交互能力。

具身智能模型发布
4月28日
08:28
Hugging Face:Blog(RSS)
精选58
Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型,专门用于自适应超声成像。该模型能够直接处理原始超声射频数据,实时生成高质量的诊断图像。它通过结合物理定律与深度学习,显著提升了图像分辨率和对比度,同时将传统处理流程中的多个步骤整合为单一前向传播,大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。

具身智能论文/研究部署/工程

推荐理由:NVIDIA 把物理先验塞进超声成像管线,从原始射频数据直接出诊断结果,跳过传统重建步骤。做医疗 AI 的值得拆一下这个端到端思路,但离通用场景太远。
4月24日
08:00
Apple Machine Learning Research(RSS)
48
Learning Long-Term Motion Embeddings for Efficient Kinematics Generation

研究提出了一种通过长时运动嵌入来高效生成运动学的方法,直接对从追踪器模型获取的大规模轨迹中学习到的嵌入进行操作,将场景动态建模效率提升了数个数量级。该方法能够根据文本提示或空间戳指定的目标,高效生成长而真实的运动序列,避免了传统全视频合成在探索多种可能未来时效率低下的问题。

具身智能多模态论文/研究
4月23日
19:58
公众号:龙猫LongCat(美团)
45
LARYBench 发布:定义具身动作表征 ImageNet,首次度量从人类视频学习的泛化表征

LARYBench 是一个系统化评测基准,旨在从大规模视觉数据中学习通用的隐式动作表征。它首次提供了度量标准,用于评估从人类视频学习到的表征的泛化能力,类似 ImageNet 在视觉领域的定位。

具身智能数据/训练论文/研究
4月16日
19:58
公众号:龙猫LongCat(美团)
30
MARS TALK 香港大学站|具身智能的技术演进与商业化进程

美团技术团队主办的MARS TALK香港大学站活动开放线上线下报名,主题聚焦具身智能的技术演进与商业化进程。

具身智能行业动态
4月9日
17:01
公众号:腾讯混元
51
腾讯Robotics X实验室联合混元推出2B具身模型:22项评测16项最佳

腾讯Robotics X实验室与混元联合推出2B参数规模的具身模型,在22项评测中取得16项最佳成绩。该模型旨在为真实世界AI智能体提供基础支撑。

具身智能模型发布
4月2日
18:30
公众号:生数科技(Vidu·视频)
41
生数科技与深朴智能合作,共筑物理世界通用智能

生数科技携手深朴智能,共同致力于构建物理世界的通用智能。

具身智能行业动态
3月12日
20:27
公众号:生数科技(Vidu·视频)
35
生数科技与无界动力达成全面战略合作,共创物理AI新范式
具身智能行业动态视频
‹ 上一页
12
下一页 ›