生成式视频模型正迈向专业电影合成,但现有评估主要关注“是否正确”,忽略了“是否优秀”的电影质感。为此,本文提出EvalVerse,一个全面、流程感知且经专家校准的评估框架。它首先将评估体系与专业电影制作流程(前期、制作、后期)对齐;其次利用大规模人工标注数据集凝练专家判断;最后通过专家校准微调将知识注入视觉语言模型(VLM),使其能进行明确的思维链(CoT)推理。该框架在兼容基础“正确性”指标的同时,将评估显著扩展至“优秀度”,并覆盖多镜头序列与视听整合等复杂任务,为奖励模型等未来研究提供了基础。