何恺明团队2020年起用TPU训练MAE/DiT,Nvidia护城河比想象更浅
Meta研究人员透露,Facebook自2020年起使用TPU训练AI,由Kaiming He领导开发TF和JAX代码库,MAE、DiT等模型完全基于TPU构建。因内部采用有限,Meta于2023年取消GCP协议。推文指出,Google、Anthropic等实验室长期使用TPU训练大模型,Nvidia的CUDA护城河并非不可逾越,OpenAI亦投资Triton寻求替代。TPU与GPU的效率差异并非关键,系统工程人才才是决定性因素。
大多数人都不知道这一点,我们早在 2020 年就在 *Facebook* 使用了 TPU。
Kaiming 领导了 TF 和 JAX 代码库的初步开发,而像 MAE、MoCo v3、ConvNeXt v2 和 DiT 这样的研究项目则*完全*在 TPU 上开发。
因为我们是 FAIR 中唯一使用它们的团队,Meta 在 2023 年初取消了 GCP 合作。
TPU 也为我们在 NYU 的大部分大规模工作提供了支持,包括 SiT、Cambrian1/S 以及最近的 RAE、FreeFlow。
学习这套基础设施需要经历大量痛苦(这不是他们当初所期望的,但我的学生们现在基本都成了 TPU/JAX/XLA 专家),然而一旦掌握了,其性能和稳定性都极为出色。
对 Google 发展 TPU 和 JAX 生态系统并推动其商业化落地感到非常乐观。