SANA-Streaming是一个为消费级GPU设计的高分辨率实时流式视频到视频编辑框架。其核心包含三点:采用混合Diffusion Transformer架构,结合softmax注意力与线性层效率;引入Cycle-Reverse Regularization训练策略,通过从生成内容预测源帧提升时序一致性;以及结合针对NVIDIA Blackwell(RTX 5090)优化的融合GDN内核与混合精度量化(MPQ)实现的高效系统协同设计。该系统在单张RTX 5090上可实现1280x704分辨率、端到端24FPS的实时编辑,其DiT核心可达58FPS。实验表明,其在时序连贯性和系统吞吐量上显著优于现有SOTA方法。