AI 摘要
DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。
今天刚发的DeepSeek-VL论文中最有意思的就是这个结论和配方了。
多模态训练会"吃掉"语言能力
用100%视觉数据训练语言模型,语言benchmark会断崖式崩塌。
70% 纯文本 + 30%多模态数据,是最佳配方。
两种模态存在竞争关系,不是调参能绕过去的。
http://x.com/i/article/2049847033758916609