Midjourney 创始人透露,团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈,导致工具链断裂、调试困难,且无法利用开源社区丰富的 PyTorch 资源,严重拖慢了产品迭代速度。创始人反思,若重新开始会选择基于 NVIDIA 的统一方案。对比之下,其他文生图模型在功能上发展迅速,Midjourney 虽在风格艺术性上仍有优势,但在核心功能竞争上已显疲态。
Midjourney 创始人自爆没有使用N卡导致落后一年?
刚刚在 X 上有个讨论 TPU(Google Tensor Processing Unit)的帖子, Midjourney 创始人 David Holz 不经意间爆了个大料:解释了为什么他们过去一年在产品迭代上显得如此疲软.
(原帖已经删帖了, 毕竟用着TPU然后说TPU不好不太好哈哈哈, 而且今天 GoogleI/O 还在搞. 所以我给大家截图了评论)
简单来讲, Midjourney 之前为了搞底层基建, 把技术栈搞成了精分状态:在 TPU 上使用 JAX 框架训练模型, 又在 GPU 上使用 PyTorch 进行推理.
结果就是, 团队天天在这两套环境中来回横跳, 工具链断层, 调试极其困难(老黄的 N 卡从 IR 到算子再到驱动都能调试, 社区经验也很多, TPU 生态跟不上). 而且由于用 JAX (Google 搞的运行在 TPU上的魔改 NumPy), 导致开源社区里海量现成的 PyTorch 训练代码根本无法直接用, 全得自己移植.
David 更是直接说 "如果可以回到过去, 我会从一开始就尝试使用纯英伟达的解决方案. "
所以如果说 DeepSeek 用国产卡, 搞各种极限优化是因为缺卡被逼出来的, 那 Midjourney 纯粹就是自己作(zuō, 一声)出来的了
要知道去年以来, 以 Google Nano-banana 为代表的修图大模型, 和各家能直接在图片里精准嵌入上千字的文生图大模型疯狂爆发. 对比之下, Midjourney 发布的 V7 和 V8 两个大版本在这些"平民化"功能上根本没法打.