Saining Xie@sainingxie

精选

2025-11-27 11:28·217天前

精选理由

何恺明团队2020年起用TPU训练MAE/DiT，Nvidia护城河比想象更浅

AI 摘要

Meta研究人员透露，Facebook自2020年起使用TPU训练AI，由Kaiming He领导开发TF和JAX代码库，MAE、DiT等模型完全基于TPU构建。因内部采用有限，Meta于2023年取消GCP协议。推文指出，Google、Anthropic等实验室长期使用TPU训练大模型，Nvidia的CUDA护城河并非不可逾越，OpenAI亦投资Triton寻求替代。TPU与GPU的效率差异并非关键，系统工程人才才是决定性因素。

AI 翻译 · 中文

大多数人都不知道这一点，我们早在 2020 年就在 *Facebook* 使用了 TPU。

Kaiming 领导了 TF 和 JAX 代码库的初步开发，而像 MAE、MoCo v3、ConvNeXt v2 和 DiT 这样的研究项目则*完全*在 TPU 上开发。

因为我们是 FAIR 中唯一使用它们的团队，Meta 在 2023 年初取消了 GCP 合作。

TPU 也为我们在 NYU 的大部分大规模工作提供了支持，包括 SiT、Cambrian1/S 以及最近的 RAE、FreeFlow。

学习这套基础设施需要经历大量痛苦（这不是他们当初所期望的，但我的学生们现在基本都成了 TPU/JAX/XLA 专家），然而一旦掌握了，其性能和稳定性都极为出色。

对 Google 发展 TPU 和 JAX 生态系统并推动其商业化落地感到非常乐观。

Clive ChanI keep seeing stuff about TPU, has anything materially new happened? There's no evidence Google has ever trained a Gemini on non-TPU hardware, going years back ...

Google Meta 大佬观点数据/训练

在 X 查看原推

Saining Xie@sainingxie · X

精选导出 Markdown