本文提出MVCHead,一个单次前馈状态空间模型。它仅从随机2D图像学习条件与无条件3D头部模型,无需使用多视角数据、3D监督或中间视角生成。模型核心是分层状态空间块,通过分层双向状态扫描渐进式优化高斯分布并捕捉长程依赖,以直接在3D表示中强制多视角一致性。同时,设计了一个SE(3)多视角评判器,在未观测真实多视角对的情况下,奖励跨视角像素对齐。MVCHead达到了SOTA的感知质量,超越先前方法的纹理和几何一致性。此外,文章发布了首个大规模可用3D Gaussian头部资产数据集FaceGS-10K,用于训练与评估。