# this isn't just a modeling problem. it's also a benchmarking problem. spurious correlations are alw…

- 来源：Saining Xie (@sainingxie)
- 发布时间：2025-08-11 05:50
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmnxjn7y700flsl9okeq8dsbn
- 原文链接：https://x.com/sainingxie/status/1954661701535912196

## 精选理由

当前多模态模型靠语言捷径'作弊'，真实场景落地将暴露致命隐患

## AI 摘要

这不只是建模问题。也是基准测试问题。

## 正文

这不仅仅是一个建模问题。它也是一个基准测试问题。

虚假相关性总是令人头疼，但在多模态大语言模型中，它们变成了一场特别艰难的战斗。一方面，你希望利用语言先验来实现更好的泛化；另一方面，同样的语言先验可能会变成一条捷径，使模型实际上变得“盲视”。

讽刺的是，人类也会做同样的事情。我们仍然倾向于语言优先的任务，而在像gpt-5这样主要模型发布中的“多模态结果”恰恰反映了这种偏见。

我的意思是，从经济角度来看，这对大语言模型公司来说是最合理的：你可以宣称在“多模态推理”上取得了胜利，而无需对真正的多模态研究进行大量投入。

不过，那条捷径终究是要付出代价的。当你试图将这些系统放入眼镜、机器人或任何其他与现实世界接触的物体中时，裂痕就会显现出来。而且代价会很高。

### 引用推文

> Tairan He：I couldn't believe GPT-5 could make this mistake until @ziqiao_ma pointed it out to me. Highly recommend this paper (https://arxiv.org/abs/2406.16860) on vision...