向阳乔木@vista8

2026-04-30 22:12·63天前

AI 摘要

DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

今天刚发的DeepSeek-VL论文中最有意思的就是这个结论和配方了。

多模态训练会"吃掉"语言能力

用100%视觉数据训练语言模型，语言benchmark会断崖式崩塌。

70% 纯文本 + 30%多模态数据，是最佳配方。

两种模态存在竞争关系，不是调参能绕过去的。

向阳乔木http://x.com/i/article/2049847033758916609

DeepSeek 多模态数据/训练论文/研究

在 X 查看原推导出 Markdown

向阳乔木@vista8 · X

60导出 Markdown

2026-04-30 22:12·63天前

在 X 看原推· x.com