this isn’t just a modeling problem. it’s also a benchmarking

Saining Xie@sainingxie · X

精选导出 Markdown

2025-08-11 05:50·326天前

在 X 看原推· x.com

精选理由

当前多模态模型靠语言捷径'作弊'，真实场景落地将暴露致命隐患

AI 摘要

这不只是建模问题。也是基准测试问题。

AI 翻译 · 中文

这不仅仅是一个建模问题。它也是一个基准测试问题。

虚假相关性总是令人头疼，但在多模态大语言模型中，它们变成了一场特别艰难的战斗。一方面，你希望利用语言先验来实现更好的泛化；另一方面，同样的语言先验可能会变成一条捷径，使模型实际上变得“盲视”。

讽刺的是，人类也会做同样的事情。我们仍然倾向于语言优先的任务，而在像gpt-5这样主要模型发布中的“多模态结果”恰恰反映了这种偏见。

我的意思是，从经济角度来看，这对大语言模型公司来说是最合理的：你可以宣称在“多模态推理”上取得了胜利，而无需对真正的多模态研究进行大量投入。

不过，那条捷径终究是要付出代价的。当你试图将这些系统放入眼镜、机器人或任何其他与现实世界接触的物体中时，裂痕就会显现出来。而且代价会很高。