Flat-Pack Bench:通过家具组装任务评估大型视觉语言模型的时空理解 · AI HOT