6月25日

22:58

IT之家（RSS）

2025年我国具身智能市场规模约9150亿元，预计今年将冲上万亿

据央视财经报道，2025年中国具身智能市场规模约9150亿元，预计2026年将达10904亿元。全国相关企业已突破万家。链博会上，产业链上下游企业完整呈现从核心零部件到整机系统再到场景应用的产业闭环。国家发改委政策研究室副主任李超5月表示，将全面推进具身智能领域高质量发展，加快训练基础设施建设，提升通用能力，推动机器人“进工厂、进商场、进家庭”。教育部4月发布的2026年本科专业目录中，首批列入具身智能等4种新专业。

具身智能政策/监管行业动态

21:58

IT之家（RSS）

美国拟取消无人驾驶汽车强制配备制动踏板规定，为Robotaxi扩大规模铺路

美国交通部计划修改《联邦机动车安全标准》，完全无人驾驶车辆不再强制配备制动踏板，为特斯拉Cybercab、Waymo等企业扩大自动驾驶出租车投放规模降低门槛。现行法规要求保留部分人工控制装置，通用汽车因Origin车型未配备此类装置于2024年终止项目。NHTSA表示取消制动踏板不等于放宽制动安全标准，严格制动距离等要求仍保留；可人工驾驶的自动驾驶车辆继续遵守现行标准。方向盘等要求是否放宽尚未明确。

具身智能政策/监管

19:58

IT之家（RSS）

北京人形机器人创新中心发布多智能体群控方案

北京人形机器人创新中心（国家地方共建具身智能机器人创新中心）6月25日发布多智能体群控方案，多台全尺寸天工3.0人形机器人完成高同步、多队形、高流畅度集体舞蹈展演。方案基于自研通用具身智能平台“慧思开物”，实现一套智能底座兼容多类型机器人本体、一套全局指令驱动多智能体协同、一次技术开发适配多类应用场景。认知大脑具备全局场景理解、长时序任务规划与多智能体任务分配等能力；执行小脑依托自研低时延分布式通信协议、毫秒级同步控制算法及跨本体运动适配引擎。方案支持低代码开发与快速部署，可灵活适配不同行业需求。

产品更新具身智能

18:58

IT之家（RSS）

菜鸟 GT 2026 无人车亮相：1780kg 载重，续航 230km

菜鸟在上海亚洲物流双年展推出 L4 级无人物流车菜鸟 GT 2026，具备 1780kg 载重与 6.2m³ 货箱，40.8 度电池支持 230km 续航，基于 400V 高压平台，30 分钟可充 30%-80%。产品可定制，覆盖城配、冷链、园区接驳等场景。同日，支付宝与九识智能及菜鸟无人车达成即时运力合作，菜鸟无人车还与 5 家客户签约战略合作。

产品更新具身智能

14:58

IT之家（RSS）

我国牵头制定，全球首个自动驾驶系统全球技术法规获批发布

2026年6月22—26日，联合国世界车辆法规协调组织（UN/WP.29）第199次全体会议在日内瓦召开，由中国、欧盟等共同牵头的自动驾驶系统全球技术法规（ADS GTR）正式获批发布。该法规是全球首个自动驾驶全球技术法规，明确了产品核心技术指标、安全管理、安全档案、全流程试验验证及部署后安全等要求，覆盖全生命周期。我国搭载组合驾驶辅助系统的新车渗透率超60%，2025年12月附条件许可首批2款L3级车型。工信部参与法规核心编制并提出多项技术提案，同时加快国内强制性国标制定，已完成编制并报批，全面覆盖ADS GTR技术内容并对L3、L4级系统提出更细要求。

具身智能政策/监管

09:58

IT之家（RSS）

智元总裁彭志辉：资本不再只为机器人 Demo 买单，必须在真实场景落地商业价值

MWC26上海期间，智元联合创始人彭志辉指出，AI从数字世界走进物理世界是下一阶段核心命题，具身智能体将在物理世界长期在线完成感知、决策、执行闭环。他强调未来Token最大消耗群体将是物理世界的具身机器人，资本不再只为Demo买单，行业必须在真实场景落地商业价值。他用XYZ曲线划分产业周期：X曲线为开发尝鲜期（以表演为主），Y曲线为部署成长期（大规模落地真实场景），Z曲线为部署普及期（预计5年左右迎来GPT时刻）。

具身智能大佬观点

08:58

IT之家（RSS）

英伟达黄仁勋：AI 工厂时代来临，智能体重塑计算格局

昨日（6月24日）股东大会上，英伟达CEO黄仁勋称AI产业进入新阶段，智能体AI已到来，物理AI将驱动下轮增长。他将数据中心比作“AI工厂”，强调AI基础设施成企业计算核心。财务方面，过去1年营收增长65%，利润增长60%，2026财年自由现金流超960亿美元，计划将50%通过回购和分红返还投资者。黄仁勋举例称，运行英伟达系统生成token具盈利性，GitHub今年pull request数量增长近3倍。

智能体具身智能大佬观点

08:58

IT之家（RSS）

美光2026财年Q3营收415亿美元创纪录：人形机器人存储需求是L2+汽车10倍，内存短缺持续至2027年后

美光科技发布2026财年第三财季财报，总收入415亿美元创新高，环比增74%，同比增346%，毛利率84.9%。预计第四财季收入500亿美元，毛利率约86%。CEO表示第四财季资本支出约100亿美元，2026财年全年约270亿美元。美光已签16份战略客户协议，未来履约保底收入达1000亿美元；另签220亿美元内存订单，约180亿美元为现金押金。高管称人形机器人存储容量约为L2+自动驾驶车辆10倍，预计从本十年后半段开启长期内存需求周期。下一代DRAM与NAND节点预计2027年下半年量产，HBM4 12层爬坡速度是HBM3E两倍，已交付超10亿美元HBM4。内存供应短缺预计持续到2027年以后。

具身智能现象/趋势

08:51

SemiAnalysis@SemiAnalysis_

同事与机器人约会，ishowspeed被rizzbot碾压，人类离人形机器人仅一步之遥。第16集现已上线！ https://www.youtube.com/watch?v=MD5zKs7j0mk

具身智能现象/趋势

08:00

HuggingFace Daily Papers（社区热门论文）

LeHome Challenge 2026 衣物折叠竞赛获奖方案（在线第1、真实世界第2）

该方案在 LeHome Challenge 2026（ICRA 2026 双臂衣物折叠竞赛）中获得在线仿真轮次第1名、真实世界决赛第2名。核心方法是用强化学习循环改进视觉-语言-动作（VLA）策略：策略同时作为价值函数，预测动作、成功、进度及任务相关未来量，用于优势估计、实时故障检测和候选选择。技术组合包括 AWR + RECAP 结合的流匹配 VLA、HuggingFace Hub 异步分布式训练/部署、基于 Thompson 采样的推理时超参数优化，以及融合相机对齐、强数据增强与类 DAgger 人工数据采集的 sim-to-real 方案。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

PhysiFormer：世界坐标中的扩散 Transformer 模拟物理可信 3D 物体运动

PhysiFormer 是一种扩散 Transformer 模型，用于物理可信的 3D 物体运动模拟。它将物体表示为世界坐标下的 3D 网格，输入初始顶点位置、速度及材料类型（刚性或弹性），通过去噪扩散过程直接采样未来顶点轨迹，不依赖显式归纳偏置。概率性公式捕捉动力学不确定性，生成多种合理未来。模型在时间、空间和物体维度上分解注意力，实现置换不变的多物体推理。基于 10 万+模拟轨迹训练，可生成刚体和弹性力学，并泛化至混合材料、未见真实几何及更多物体场景，在轨迹精度、刚性保持和动量一致性上显著优于自回归基线。

具身智能数据/训练论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

面向鲁棒视频理解的置信感知工具编排

视频推理模型假设每帧可靠，在运动模糊、眩光等扰动下准确率下降15–30%p。Robust-TO框架将每帧信任度融入推理各阶段：通过统一接口组织异构视觉工具，每个工具接收子查询和经可靠性-相关性评分筛选的可信帧，返回预测、时间定位和校准可靠性分数。推理时分数指导三层次综合（高/中/低）与置信-成本GRPO奖励，联合优化正确性、可靠性和效率。在八个任务上，Robust-TO清洗输入准确率56.4%，超过最强开源基线10.6%p和Gemini-2.5-Pro（46.2%）；五种腐蚀下保持54.3%，高出最强开源基线5.8%p，且准确率下降最小。

智能体具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

机器人控制的上下文世界建模

传统VLA模型因仅依赖当前观测和语言指令，难以泛化到相机视角或机器人形态变化的新场景。In-Context World Modeling（ICWM）将系统辨识作为上下文适应问题：机器人通过短暂自生成、任务无关交互历史，自主推断系统变量，从而理解当前系统的世界动态。ICWM利用上下文窗口捕获系统运行方式，无需参数更新即可适应新配置。在仿真和真实机器人上的实验表明，ICWM在新相机视角下显著优于标准VLA基线。

具身智能多模态论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

世界模型中的幻觉可预测且可预防

现代生成式世界模型渲染逼真未来时产生幻觉，集中于状态-动作空间低覆盖区域。研究引入MMBench2（427小时、210任务）数据集，训练350M参数世界模型，识别出三种幻觉模式（感知、动作边缘化、场景发散），并开发相应预测信号。训练时采用覆盖感知采样；在线时预测信号作为好奇心奖励指导数据收集，仅需50条真实轨迹即可微调模型全新环境。结论：世界模型幻觉本质是数据覆盖问题，检测信号可用于缓解。

具身智能论文/研究

04:51

SemiAnalysis@SemiAnalysis_

深度解析：宇树科技的进化对机器人学意味着什么宇树策略、中国的规模定律、地缘政治及野外的人形机器人 https://www.fabricatedknowledge.com/publish/post/203332874?r=7ekf6a&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true

具身智能现象/趋势

04:12

HuggingFace Daily Papers（社区热门论文）

InSight：通过可控VLA实现自主技能获取

InSight是一个框架，通过让视觉-语言-动作（VLA）模型在原始动作层面（如“将夹爪移动到碗边”“向上抬起”）变得可控，实现自主技能获取。包含两个阶段：（1）自动化分割管道，利用VLM规划分解和末端执行器位姿将演示分割为带标签原始动作；（2）VLM引导的数据飞轮，识别缺失原始动作，自主尝试并标注存储成功演示。在模拟和真实操作任务（方块翻转、抽屉关闭、清扫、扭转、倾倒）上的评估表明，无需人类演示目标技能即可习得，且原始动作可组合执行新任务。

具身智能论文/研究

01:18

Berryxia.AI@berryxia

M5 Stack 小机器人在AI这一波算是破圈了，你别说怪好玩的😂

具身智能大佬观点

01:13

AYi@AYi_AInotes

宇树科技是真敢要价啊，花$4900买个能跳街舞翻跟头的的机器人😂

产品更新具身智能

01:05

TechCrunch：AI（RSS）

Agility Robotics 拟通过 SPAC 合并上市

人形机器人公司 Agility Robotics 宣布通过与特殊目的收购公司 Churchill Capital Corp XI 合并上市，估值约 25 亿美元。交易预计带来超 6.2 亿美元收益，包括约 2 亿美元来自新老机构投资者。其双足机器人 Digit 已在 Schaeffler、GXO、丰田汽车加拿大制造公司等九个客户站点部署。公司计划利用募资扩大下一代 Digit v5 产能、履行现有订单并拓展客户。Agility 已获下一代模型超 3 亿美元多年期订单，另有 30 多家潜在客户评估大规模部署。合并后公司预计以代码 AGLT 在北美交易所上市。

具身智能行业动态

00:58

IT之家（RSS）

亚马逊旗下Zoox升级Robotaxi：保留星空顶与面对面座椅，为商业运营做准备

亚马逊旗下Zoox升级了Robotaxi车型，保留无方向盘方盒造型、天幕星空顶、40个感知设备、双向行驶和四轮转向、4人面对面布局，最高时速约121公里。升级重点为高频运营：座椅和头枕增加填充物，内饰改为芦荟绿座椅加石灰色地板；无线充电板增加防滑凹槽，杯架加大，触摸屏更醒目。车外增加双向反光装置和车门交互区扬声器/麦克风，支持双向通话。此次升级旨在为今年晚些时候启动商业运营做准备。

产品更新具身智能

6月24日

23:58

IT之家（RSS）

摩根士丹利再度上调中国人形机器人出货量预测：2026年增至5万台

摩根士丹利6月24日报告将2026年中国人形机器人出货量上调至5万台，较此前预测的2.8万台几乎翻倍，为今年第二次上调。预计2026年市场规模达20亿美元（约136亿元），2030年增至150亿美元（约1020亿元），年出货44.6万台。分析师称商业验证、政策支持和供应链信息显示普及加速。Omdia数据显示，2025年全球出货1.3万台，前五名均为中国企业，美国Figure AI和特斯拉仅排第七、第九。

具身智能行业动态

21:58

IT之家（RSS）

首款搭载宁德时代电池的重载人形机器人上岗

6月24日，宁德时代与银河通用机器人签署全球战略合作协议，银河通用研发的重载人形机器人Galbot S1成为全球首款搭载宁德时代电池的具身智能常态化运营机器人。该机器人具备双臂50公斤级载重、纯视觉厘米级定位、360°全向避障能力；宁德时代电芯失效率达PPB级别，保障8小时超长续航与产线高安全性。目前Galbot S1已在宁德时代智慧产线中替代物料搬运、拣选等高强度人工。

具身智能行业动态部署/工程

20:58

IT之家（RSS）

李柯：希望每家比亚迪展厅都能部署"机器销售"

比亚迪执行副总裁李柯计划未来每家门店部署2-3台机器人，用于介绍、演示车辆及活跃气氛。她认为家庭和服务行业人形机器人市场巨大，机器人销售顾问有望一两年内具备应用条件，但无法取代人类销售的情感联系。摩根士丹利预计人形机器人市场将从2025年30亿美元增至2030年280亿美元。中国企业主导市场，去年贡献超八成出货量。比亚迪拟自研自制人形机器人，不排除外购，并已大力投入工业机器人推进“黑灯工厂”。李柯预计机器人制造三到五年内迎来重大变化，部分生产环节可能无需人类。

具身智能行业动态

18:50

IT之家（RSS）

宇树科技 R1 机器人 2.99 万元起现货开售

宇树科技将双足人形机器人 Unitree R1 价格从 3.99 万元降至 2.99 万元起，并开启现货发售。R1 重量仅 25 千克，拥有 26 个关节（腿部 12 个、手臂 10 个、头部和腰部各 2 个），集成语音和图像多模态大模型，支持用户自行开发与改制。该产品于去年 7 月首次推出。

具身智能行业动态

15:42

IT之家（RSS）

再干十年以上，软银孙正义为 AI 改变退休计划

软银创办人孙正义表示计划继续执掌至少10年，放弃60多岁退休计划。现年68岁的他称没有时间退休，希望推动AI普及，将软银打造成全球领先AI机器人企业，已调整原本的50年规划，打算再工作10-15年。软银目前拥有安谋控股近90%股份，已承诺向OpenAI投资约650亿美元，并以54亿美元估值收购ABB旗下机器人部门。知情人士透露，软银计划在美国设立AI机器人公司Roze。

具身智能行业动态

15:42

IT之家（RSS）

小米 YU7 GT 创造浙赛及纽北自动驾驶圈速纪录

小米 YU7 GT 以 1:49.434 创浙赛首个自动驾驶圈速纪录，本周还以 10 分 29 秒 483 达成全球首个纽北自动驾驶圈速纪录，纽北官方圈速榜新增“自动驾驶”分类。该车 5 月 21 日发布，定位跑车级 SUV，搭载新一代超级电机 V8s EVO，最大马力 1003 匹，CLTC 续航 705km，零百加速 2.92 秒，最高时速 300km/h；基于 897V 碳化硅高压平台，配 101.7kWh 三元锂电池，15 分钟充电补能 570km，官方指导价 38.99 万元，大满配 42.99 万元。

具身智能行业动态

12:42

IT之家（RSS）

孙正义宣布软银已开始量产机器人，将成为"世界第一"

软银集团董事长孙正义6月24日在股东大会上透露，已在某工厂开始机器人量产，即将正式发布。他表示软银将通过汇聚各垂直领域顶级机器人企业，成为“压倒性世界第一的机器人公司”，并提及2026年计划完成收购瑞士工业巨头ABB旗下机器人业务。此前软银曾在2017年从谷歌收购波士顿动力，但2021年起陆续将股权出售给现代汽车集团。2025年10月，软银同意以近54亿美元收购ABB工业机器人业务。

具身智能行业动态

11:55

HuggingFace Daily Papers（社区热门论文）

FlowR2A：多模态驾驶规划的奖励到动作分布学习

FlowR2A通过flow-matching解码器学习奖励条件动作分布，将基于评分方法（密集奖励监督但固定动作词汇）与基于锚点方法（动态生成提案但稀疏监督）统一到单一生成模型中。模型从密集轨迹-奖励对中学习分布，引入细粒度每时间步奖励条件和奖励噪声增强，以平衡硬安全约束与软进度目标。测试时支持通过奖励引导和锚定采样实现可控生成。在NAVSIM v1和v2基准上达到最新最优结果，多模态提案质量显著高于此前方法。

具身智能多模态论文/研究

10:49

HuggingFace Daily Papers（社区热门论文）

世界价值模型（WVM）用于机器人操作

现有机器人价值模型基于缺乏时间建模能力的VLM骨干。世界模型擅长时间建模与未来规划，由此将世界模型与价值估计结合，构建了世界价值模型（WVM）。WVM在标准基准上取得SOTA的价值序相关（VOC）结果。为补充仅含专家数据的评测，新引入Suboptimal-Value-Bench（含800条次优轨迹及人工标注），WVM同样保持SOTA。在策略学习中，WVM在模拟和真实部署中提升了多种策略提取方法的操作性能。

具身智能数据/训练论文/研究

09:27

IT之家（RSS）

全国首例：无创脑机接口帮助脑肿瘤术后患者快速康复

6月24日消息，武汉大学中南医院一名36岁脑膜瘤术后左侧软瘫患者，使用依瑞德公司自主研发的“汉脑·知行”无创脑机接口系统康复训练不到一个月，实现独立行走和上下楼梯。这是全国首个无创脑机接口辅助脑肿瘤术后患者快速康复案例。该系统让患者实时感知大脑与肌肉协同活动，康复时间缩短一半以上。目前该设备已在该院完成近10例治疗，覆盖偏瘫、脊髓损伤及脑部术后神经康复患者。

具身智能行业动态

08:00

HuggingFace Daily Papers（社区热门论文）

Play2Perfect：灵巧玩耍预训练对精确装配的关键因素

Play2Perfect 提出一种基于强化学习的任务无关预训练框架，让多指机器人在多样化对象和目标上通过“玩耍”习得可复用的操作先验（如抓取、手中重定向、姿态到达），再微调用于精确装配任务。系统研究表明，对象多样性、训练目标、轨迹多样性和目标精度是关键设计因素。该先验使样本效率比从零强化学习提升 33 倍。零样本 sim-to-real 迁移实现了 0.5 mm 间隙紧配插入 60% 成功率，以及长时序多部件装配和拧螺丝超过 50% 成功率。

具身智能论文/研究

08:00

HuggingFace Daily Papers（社区热门论文）

Fast LeWorldModel

Fast-LeWM是一种快速潜空间世界模型，基于JEPA和LeWM。它用动作前缀预测替代LeWM逐次单步潜状态展开：将候选动作序列的前缀编码后并行预测对应未来潜状态。前缀级监督使模型学习不同前缀下状态的连续演化，规划时可直接利用最后一个前缀token评估未来潜状态，无需逐一遍历中间想象状态。在多个任务上，Fast-LeWM相比LeWM提高了平均成功率，大幅缩短了规划时间，并实现了随展开步长增长显著变慢的开环潜损失。

具身智能论文/研究

07:19

SemiAnalysis@SemiAnalysis_

IShowSpeed碾压宇树科技，同事与机器人约会，人形机器人时代正在蓬勃发展！！

具身智能现象/趋势

03:38

MiniMax (official)@MiniMax_AI

MiniMax × HUD Evals × Y Combinator Frontier RL 黑客马拉松回顾

MiniMax 官方回顾了上周末与 HUD Evals、Y Combinator 联合举办的 Frontier RL Environments 黑客马拉松。活动吸引了 200 名顶尖开发者，在 24 小时内利用浏览器使用、机器人、物流和世界模拟等环境进行强化学习。基于 MiniMax M3 构建的出色项目包括：零 token 浏览器使用 RL 环境 Tera（总排名第三）、自主仓库机器人车队协调系统 Warehouse AI，以及火星建筑漫游车仿真项目 Atomz。

智能体具身智能行业动态

03:06

HuggingFace Daily Papers（社区热门论文）

ShotcreteDepth：用于喷射混凝土施工环境中鲁棒机器人深度感知的双模态数据集

ShotcreteDepth是一个来自建筑领域的双模态数据集，包含立体RGB图像与LiDAR点云，采集于主动喷射混凝土施工过程及一般建筑环境。数据在真实恶劣条件（高浊度、低光照）下获取，导致传感器观测不完整且含噪。该数据集由11,252个时间同步样本组成，其中220个带有标注用于评估。同时发布一套轻量级LiDAR点云标注工具。数据集支持在贴近工业操作复杂度的场景中进行立体匹配、深度补全与深度估计研究。

arXiv 具身智能数据/训练论文/研究

6月23日

17:07

IT之家（RSS）

宇树科技与 GMO AIR 达成合作，G1 人形机器人等产品将登陆日本市场

6 月 19 日，宇树科技与 GMO AI & 机器人商事（GMO AIR）签署合作协议，GMO AIR 成为宇树科技在日本的官方经销商。GMO AIR 将在日本销售 G1、H1 人形机器人及 Go2、B2 四足机器人，并提供通信、云计算、网络安全、金融服务等完整解决方案，还可按需提供研发、验证实验和商业应用方案。GMO AIR 已在东京涩谷设立日本规模最大的物理 AI 研发基地，可同时测试多个品牌的人形机器人。未来人形机器人将应用于机场、物流、巡检、安保等领域。

具身智能行业动态

15:13

HuggingFace Daily Papers（社区热门论文）

Foresight：基于动作条件世界模型潜在表示的长时域机器人操作故障检测

Foresight 是一个利用动作条件世界模型潜在表示来监控操作轨迹的故障检测框架，仅使用最终任务级成功/失败标签训练。它通过预测性世界模型嵌入为不同策略提供统一的故障检测，并用功能共形预测（FCP）自适应校准阈值。在 LIBERO-Long、ManiSkill-Long、BEHAVIOR-1K 仿真环境及真实机器人（ReactorX-200 机械臂三项任务、Franka 机械臂一项任务）上验证，结果表明该嵌入为长时域操作中的可靠故障监控提供了可扩展表示。

具身智能论文/研究

15:07

IT之家（RSS）

小米自动驾驶征战纽北纪录片发布：内部代号"MARS"绝密项目完成挑战，成绩10分29秒483

小米汽车今日发布自动驾驶征战纽北纪录片。内部代号“MARS”的绝密项目（Mi Autonomous Racing System）在纽博格林北环完成自动驾驶圈速挑战，成绩10分29秒483。Claus现场评价“That's like flying to Mars”。昨日，小米YU7 GT已达成全球首个纽北自动驾驶圈速纪录，纽北官方圈速榜新增“自动驾驶”分类。小米表示，极限赛道上锤炼的动态模型、高频扭矩分配和毫秒级救车能力将逐步下放至量产车，提升用户在暴雨、冰雪等极端工况下的安全性。

具身智能行业动态

13:07

IT之家（RSS）

"全球最先进机器人"：特斯拉推进 Optimus 3 量产，供应链开始备货

特斯拉正与盟立自动化、亚洲光学等公司合作，推进人形机器人Optimus 3量产。盟立自动化供应谐波减速机和关节模组，并与科达利在泰国罗勇设合资企业生产精密零部件，预计很快可量产。亚洲光学则凭借镜头技术负责机器人“眼睛”组件，新产品将在2026年下半年及2027年进入量产。马斯克称Optimus 3为“迄今为止全球最先进的机器人”，并表示低产量生产可在夏季启动，高产量生产将于2027年展开。

具身智能行业动态

12:13

HuggingFace Daily Papers（社区热门论文）

密集可验证奖励框架 DR-MV3D：全局地图与局部视图驱动的多视角 3D 推理

多视角 3D 视觉问答（MV3D-VQA）需整合局部观测为 3D 场景并规划信息视角。现有多模态大模型仅用答案级稀疏监督，导致跨视角推理不一致。DR-MV3D 提出地图级密集可验证奖励框架，将任务分解为异心全局地图构建、问题条件化视角轨迹规划、自我中心定位回答预测。引入全局一致性奖励（利用冻结 3D 视觉基础模型 VGGT 和 SAM3 对齐预测地图）和局部轨迹奖励（监督有序视角选择），并通过轨迹级策略优化（GRPO）训练全流程。在 MindCube、VSI-Bench 和 BLINK 上优于强多图像基线，验证过程级密集监督的有效性。

具身智能多模态论文/研究