研究发现,现有全模态基准测试因存在仅凭视觉即可解答的“捷径”问题,可能夸大模型性能。为此,我们通过视觉探测清洗九个基准,构建了包含8,551个查询的去偏评估集OmniClean。基于Qwen2.5-Omni-3B模型,提出了三阶段后训练方案OmniBoost:混合双模态监督微调、混合模态RLVR训练,以及在自蒸馏数据上的微调。实验表明,平衡的双模态微调提升有限,RLVR首次带来广泛改进,而自蒸馏则重塑了模型的基准表现。最终,该3B模型在OmniClean上的综合性能达到甚至略微超过了未使用更强全模态教师的30B模型。这证明视觉泄漏受控的评估能更清晰解读进展,且小模型可通过分阶段后训练与自蒸馏监督显著提升。