LVSA是一种无需训练、适用于视频扩散Transformer的块稀疏注意力机制,旨在降低长视频推理的计算成本。它通过结合结构化窗口模式与旋转全局锚点,避免了导致时程伪影的固定网格偏置。该技术在Wan 2.1 1.3B、Wan 2.1 14B及HunyuanVideo 1.5上分别实现了最高3.17倍、2.98倍和3.33倍的计算量缩减,并使HunyuanVideo 1.5在单一GPU上能生成2倍于训练长度的视频。LVSA在NPU上同样有效。此外,论文还提出了VQeval评估工具,专门针对循环视频故障进行评分,以弥补现有评估工具的不足。