karminski-牙医@karminski3

2026-05-21 06:14·43天前

AI 摘要

Midjourney 创始人透露，团队因使用 TPU + JAX 训练、GPU + PyTorch 推理的混合技术栈，导致工具链断裂、调试困难，且无法利用开源社区丰富的 PyTorch 资源，严重拖慢了产品迭代速度。创始人反思，若重新开始会选择基于 NVIDIA 的统一方案。对比之下，其他文生图模型在功能上发展迅速，Midjourney 虽在风格艺术性上仍有优势，但在核心功能竞争上已显疲态。

Midjourney 创始人自爆没有使用N卡导致落后一年？

刚刚在 X 上有个讨论 TPU（Google Tensor Processing Unit）的帖子， Midjourney 创始人 David Holz 不经意间爆了个大料：解释了为什么他们过去一年在产品迭代上显得如此疲软.

（原帖已经删帖了，毕竟用着TPU然后说TPU不好不太好哈哈哈，而且今天 GoogleI/O 还在搞. 所以我给大家截图了评论）

简单来讲， Midjourney 之前为了搞底层基建，把技术栈搞成了精分状态：在 TPU 上使用 JAX 框架训练模型，又在 GPU 上使用 PyTorch 进行推理.

结果就是，团队天天在这两套环境中来回横跳，工具链断层，调试极其困难（老黄的 N 卡从 IR 到算子再到驱动都能调试，社区经验也很多， TPU 生态跟不上）. 而且由于用 JAX （Google 搞的运行在 TPU上的魔改 NumPy），导致开源社区里海量现成的 PyTorch 训练代码根本无法直接用，全得自己移植.

David 更是直接说 "如果可以回到过去，我会从一开始就尝试使用纯英伟达的解决方案. "

所以如果说 DeepSeek 用国产卡，搞各种极限优化是因为缺卡被逼出来的，那 Midjourney 纯粹就是自己作（zuō，一声）出来的了

要知道去年以来，以 Google Nano-banana 为代表的修图大模型，和各家能直接在图片里精准嵌入上千字的文生图大模型疯狂爆发. 对比之下， Midjourney 发布的 V7 和 V8 两个大版本在这些"平民化"功能上根本没法打.

我自己是 Midjourney 的订阅用户，我现在基本只用它做前期的创意草稿和风格探索（毕竟 MJ 的风格连贯性和艺术感目前还是最强的），然后精修和提升分辨率全都使用 nano-banana.而如果要排版做海报直出，而做海报之类的直接用 OpenAI 的 ChatGPT Images 了.

帖子下面有个中国老哥评论得好：「亡羊补牢，为时不晚」. 希望今年 Midjourney 赶紧跟上，毕竟目前风格迁移这个领域还是 Midjourney 比较好，基本盘还在的.

#Midjourney #NVIDIA #TPU #文生图大模型