哪种预训练范式更能服务于空间智能?对视觉语言模型和视频生成模型的实证比较 · AI HOT