世界模型与语言模型:论具体推理与抽象推理的互补性
阅读原文· arxiv.org世界模型靠视觉预测,语言模型靠抽象推理,这篇把两者真正拧在一起了。用未来视频做自我蒸馏提升 10%,还给全开源,做 agent 决策的可以认真看看‘什么时候不信自己的眼睛’是怎么训出来的。
本研究探讨了世界模型与多模态大语言模型在预测未来状态时的互补性。世界模型可生成具体的视觉未来轨迹,但可能视觉合理却任务错误;多模态大语言模型则擅长抽象推理。为此,研究提出了“受控的具体推理”框架,并构建了VRQABench和OpenWorldQA两个基准。同时,提出了Privileged-Future On-Policy Self-Distillation(PF-OPSD)方法,该方法在训练时利用真实未来视频作为特权上下文评估推理轨迹,但部署时无需真实未来。实验结果显示,PF-OPSD在两个基准上分别比基线高出10.6%和10.9%,并提升了对噪声或冲突轨迹的鲁棒性。
世界模型和多模态大语言模型(MLLM)在从静态视觉观测预测未来结果方面提供了互补的能力。世界模型可以生成关于可能未来的具体视觉展开结果,而 MLLM 则可以针对问题、目标和规则进行抽象推理。然而,生成的展开结果是随机的,可能在视觉上合理但与任务不符,因此有必要判断视觉模拟何时有用、某个展开结果是否可信、以及它应如何影响最终答案。我们将这一问题形式化为受控的具体推理(controlled concrete reasoning),即模型学会在抽象推理的同时调用、验证并整合视觉未来模拟。为研究这一设定,我们构建了两个经人工验证的基准——用于可控空间前瞻的 VRQABench 和用于开放域物理预测的 OpenWorldQA,并提出了特权未来在策略自蒸馏(PF-OPSD)。在训练过程中,PF-OPSD 仅使用真实未来视频和答案作为教师端的特权上下文来评估在策略的具体推理轨迹,而可部署的学生模型在测试时从未观察到真实的未来。实验结果表明,PF-OPSD 在 VRQABench 和 OpenWorldQA 上分别比基准方法高出 10.6% 和 10.9%,同时增强了对噪声或矛盾展开结果的鲁棒性。我们的代码和数据集可在 https://github.com/yczhou001/PF-OPSD 获取。