精选理由
当前多模态模型靠语言捷径'作弊',真实场景落地将暴露致命隐患
AI 摘要
这不只是建模问题。也是基准测试问题。
AI 翻译 · 中文
这不仅仅是一个建模问题。它也是一个基准测试问题。
虚假相关性总是令人头疼,但在多模态大语言模型中,它们变成了一场特别艰难的战斗。一方面,你希望利用语言先验来实现更好的泛化;另一方面,同样的语言先验可能会变成一条捷径,使模型实际上变得“盲视”。
讽刺的是,人类也会做同样的事情。我们仍然倾向于语言优先的任务,而在像gpt-5这样主要模型发布中的“多模态结果”恰恰反映了这种偏见。
我的意思是,从经济角度来看,这对大语言模型公司来说是最合理的:你可以宣称在“多模态推理”上取得了胜利,而无需对真正的多模态研究进行大量投入。
不过,那条捷径终究是要付出代价的。当你试图将这些系统放入眼镜、机器人或任何其他与现实世界接触的物体中时,裂痕就会显现出来。而且代价会很高。