# 阿里通义实验室视频揭示具身智能难点，UCSD黄碧薇推因果世界模型获融资

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-26 12:04
- AIHOT 分数：53
- AIHOT 链接：https://aihot.virxact.com/items/cmqufa0js03wcsl80uhnlbugy
- 原文链接：https://x.com/berryxia/status/2070357571802898615

## AI 摘要

阿里通义实验室视频指出，具身智能核心难点在于AI在虚拟世界强，但物理世界抓取鸡蛋等任务因传感器噪声、环境变化易失败。引用指出Physical AI瓶颈不在模型规模，当前VLA/LLM路线只学统计相关性而非因果律（如桌子高2cm即失败）。UCSD黄碧薇教授在CVPR 2026提出Causal World Models框架，让AI从模仿进化到理解因果，并宣布Aether AI融资2000万美元，成为全球首个因果世界模型公司。世界模型赛道火热，但Aether AI不卷规模，卷因果结构。

## 正文

阿里最近通义实验室这个视频挺火的！
其实也和之前发的黄教授因果模型那个事儿还有异曲同工之妙的地方！

Tongyi Lab抛出一个问题：为什么AI在虚拟世界里很强，但让机器人去拿个鸡蛋却容易卡住？

他们的新视频在讲Embodied Intelligence的核心难点，机器人"想得清楚"和"做得稳"完全是两回事。

在数字世界里，模型可以反复试错、快速迭代。

但在物理世界，传感器噪声、执行延迟、环境变化、物理约束让每一步都充满不确定性。

一个简单的抓取动作，可能因为光线、摩擦力、物体形状的微小差异就失败。

这其实把当前AI的两大世界拉开了对比：语言和代码世界里，scaling law还在狂飙。

所以，待解决的问题还是很多，路还挺长。
AI时代，才是寒武纪爆发之际。

### 引用推文

> Berryxia.AI：兄弟们!这个研究有点牛逼啊! Physical AI 的瓶颈根本不是「模型不够大」,是一开始范式就错了。 先说一个真实场景:桌子高了 2cm,当前最强的 VLA 模型直接失败。 为什么? 因为它只学到了「手伸到某个位置」的相关性,根本不知道「为什么」会摔、「怎样」才能不摔。 这就是 LLM/VLA 路线的致命伤,它在互...
