Avatar V 是一个生产级框架,通过视频参考条件建模替代静态图像驱动。模型直接对参考视频的完整 token 序列进行注意力计算,同时重现静态身份和动态行为(如说话节奏、微表情)。核心技术包括线性复杂度的稀疏参考注意力、支持闭环风格迁移的运动表示流、继承全参考条件的身份感知超分精炼器。数据引擎从 5000 万原始视频中筛选出 1 亿以上训练片段,经 flow matching 预训练、个性微调、两阶段蒸馏(>10 倍加速)和 RLHF 对齐等五阶段训练,部署于数千 GPU。可生成无限时长 1080p 视频,在跨场景基准上保持最优的身份保留、唇同步和生成质量,全面超越 Seedance 2.0、Kling O3 Pro、Veo 3.1 和 OmniHuman 1.5。