Elon Musk预测,若AI与机器人技术持续当前趋势,将能提供人类所需的一切商品与服务,物质产出将比现今高数个数量级,届时工作将变为可选项。他特别强调需区分"预测"与"愿望",指出其关于未来丰裕社会的判断是基于技术趋势分析,而非个人主观期望,避免公众误解其立场。
Actually, AI/Robotics will mean everyone can have a penthouse if they want. The output of goods & services will be sever...
特斯拉建议搭载HW3硬件的车主继续"耐心等待"FSD完全自动驾驶功能,此时距离该硬件发布已过去7年。据Electrek报道,面对长期未兑现的承诺,特斯拉官方仅回应需要更多时间,未给出具体交付时间表。这一态度引发车主不满,也再次引发市场对特斯拉自动驾驶技术实际落地能力的质疑。
Google DeepMind 推出 Gemini Robotics-ER 1.6,显著提升机器人的规划与执行精度。新版本增强了环境感知与理解能力,新增识别并读取测量仪器的功能,使机器人能够在复杂任务场景中实现更精准的操作决策与行动控制。
X Square 揭晓其时代广场广告中的机器人身份为 Quanta X1,并宣布已在中国推出首个机器人辅助家庭清洁服务。通过与 58.com 合作,用户可预约人类清洁工与机器人协同作业,机器人负责擦拭、整理等重复性劳动,人类处理复杂判断工作。该服务价格约为纯人工清洁的一半,目前已在深圳和北京启动试点,早期时段迅速售罄。公司将于4月21日发布新一代具身基础模型。
Someone rented prime Times Square real estate to tease a new humanoid robot with 3 claims: - it has a "real brain," - wo...
Elon Musk 描绘了一个由机器人驱动的极致富足未来。他认为未来机器人将实现自我复制并大规模普及,数量超过人类,达到每人拥有一台人形机器人的程度。这将彻底满足人类对商品和服务的所有需求,消除稀缺性。Musk 对前景表示极度乐观,称当前为"历史上最有趣的时期",预示着一个物资极大丰富的时代即将到来。
一名开发者利用胶带、旧相机和数控机床,自制了一款名为AutoProber的AI驱动硬件"黑客手臂"。该项目已开源在GitHub(gainsec/autoprober),相关技术展示在Hacker News上获得104个积分关注。这一低成本解决方案通过人工智能控制机械臂,展示了如何利用现成材料构建自动化硬件安全测试工具。
RAD-2 提出了一种面向自动驾驶闭环规划的生成器-判别器框架,通过扩散模型生成多样化轨迹候选,并利用强化学习优化的判别器进行重排序。该方法引入时序一致性组相对策略优化与在线生成器优化技术,结合 BEV-Warp 高吞吐量仿真环境实现大规模训练。相比现有扩散规划器,RAD-2 将碰撞率降低 56%,并在真实场景部署中显著提升了驾驶安全性与平稳性。
Nvidia 研究人员发布 Lyra 2.0 系统,支持从单张照片生成可实时探索的大型连贯 3D 环境。这些场景可直接用于机器人模拟训练,无需复杂的传统建模流程。该技术通过自动化环境生成,显著扩展了机器人训练数据的规模与多样性,有望加速机器人学习算法的开发。
研究团队发布LingBot-Map,一款基于几何上下文Transformer(GCT)的流式3D重建基础模型。其创新注意力机制整合锚点上下文、姿态参考窗口与轨迹记忆,分别实现坐标定位、密集几何线索提取和长程漂移校正。该系统在518×378分辨率输入下保持约20 FPS的推理速度,可稳定处理超10,000帧的长序列,且流式状态紧凑。多项基准测试表明,其性能优于现有流式及迭代优化方法。
美团技术团队主办的MARS TALK香港大学站活动开放线上线下报名,主题聚焦具身智能的技术演进与商业化进程。
针对3D空间推理标注成本高及自进化方法因模型共识导致几何错误累积的问题,本文提出SpatialEvo框架。该框架利用3D几何确定性特质,通过确定性几何环境(DGE)将无标注点云转化为零噪声训练信号,以客观物理反馈替代模型共识。单一共享参数策略在提问者与求解者角色间协同进化,结合任务自适应调度器动态聚焦薄弱类别。实验表明,3B和7B参数模型在9个基准测试中均获最高平均分,显著提升空间推理能力且不损害通用视觉理解。
针对前馈 3D 重建领域,该研究提出了一种独立于输出表示形式的模型设计分类体系。通过剥离隐式场与显式基元等几何表示的差异,现有方法被重新组织为五个核心问题:特征增强、几何感知、模型效率、增强策略与时序感知建模。研究系统梳理了领域基准数据集与评估标准,分类探讨了实际应用场景,并指出可扩展性、统一评估规范及世界建模等未来挑战。
研究团队提出Humanoid Transformer with Touch Dreaming(HTD)模型,整合基于强化学习的全身控制器与VR遥操作数据收集系统,解决接触丰富场景下的人形机器人操作难题。该方法将触觉作为与视觉、本体感觉同等重要的模态,通过"触觉梦境"机制训练模型预测未来触觉潜变量及手部关节力,从而学习接触感知表征。在插入、整理书籍、叠毛巾、铲猫砂、端茶等五项真实世界灵巧操作任务中,HTD平均成功率较强基线提升90.9%,其中潜空间触觉预测相比原始触觉数据可带来30%的额外性能增益。
Tesla完成AI5芯片流片,单芯片算力达双AI4的5倍,整体算力提升8倍、内存9倍、带宽5倍。该芯片针对边缘AI推理深度优化,完整算力目标2000-2500 TOPS,单芯片性能匹敌Nvidia H100,双芯片可媲美Blackwell但成本功耗显著降低。AI5将大幅提升FSD、Robotaxi与Optimus性能,由TSMC Arizona与Samsung Texas在美国本土制造。
Lyra 2.0 是一个用于生成大规模可探索 3D 世界的框架,通过生成相机控制视频并结合前馈重建技术实现。针对长轨迹生成中的空间遗忘和时间漂移问题,该框架维护每帧 3D 几何用于信息路由以检索历史帧并建立对应关系,同时采用自增强历史训练策略使模型学会纠正误差而非累积漂移。这些方法显著延长了 3D 一致的视频轨迹,进而可微调重建模型以可靠地恢复高质量 3D 场景。
Beijing's Humanoid Robot Half Marathon, night run test. Around 40% of teams are running fully autonomous, remote-control...
!!️ ZELENSKYY: For the first time in the war, an enemy position was captured entirely by ground robotic systems and dron...
一名科技从业者因伦理立场拒绝参与武器化机器人研发而从原公司辞职,随后创立了自己的新企业。该帖于4月14日发布在Hacker News平台,迅速获得100点热度,引发业界对AI军事化应用与工程师职业操守的广泛讨论。作者通过离职创业的方式,明确表达了对自主武器研发的反对态度。
RoboLab 团队推出高保真仿真基准框架 RoboLab 及 RoboLab-120 测试集,以解决现有基准因训练评估域重叠导致的性能饱和与泛化测试不足。该基准包含 120 个跨视觉、程序、关系三大能力轴的任务,设三个难度级别,支持人工与 LLM 生成场景。通过量化真实策略在受控扰动下的性能与敏感性,RoboLab 证实高保真仿真可代理真实世界表现,并暴露当前最先进模型的显著性能差距。
针对触觉定位任务,本文提出通过密集跨模态特征交互学习局部视觉-触觉对齐的模型,生成触觉显著性图实现触摸条件材料分割。为克服现有数据集特写镜头单一、多样性不足的限制,研究引入野外多材料场景图像及材料多样性配对策略,将触觉样本与视觉多样但触觉一致的图像对齐以增强上下文定位能力。此外构建了两个新的触觉材料分割数据集用于定量评估,实验结果表明该方法显著优于现有视觉-触觉方法。
研究团队发布LARY基准,统一评估潜在动作表示在高层语义动作与低层机器人控制上的性能。该基准整合100万段视频(1000小时)涵盖151个动作类别,以及62万图像对和59.5万条运动轨迹。实验表明,未经动作监督训练的通用视觉基础模型持续优于专门的具身潜在动作模型,且潜在视觉空间比像素空间更适配物理动作空间。这证实通用视觉表示已内在编码物理控制所需的行动知识,语义级抽象是比像素级重建更有效的视觉-动作映射路径。
印度工人佩戴头戴摄像头采集第一人称手部动作数据,用于训练人形机器人掌握抓取、折叠等物理技能。这揭示了当前机器人热潮仍依赖廉价人类劳动获取 embodied data。与语言模型不同,机器人需从人类动作中学习握持角度、力度调整等微观物理细节。该模式将人类劳动双重商品化:既是生产工作,又成为训练AI的数据基础设施。在具身数据采集成本降低前,机器人行业将持续依赖工人劳动作为"物理智能"的廉价来源。
Indian factory workers wear head-mounted cameras to capture data for training robotics AI models. This image captures a ...