Ming-VideoMAR：基于连续令牌的自回归视频生成模型

2025-10-10 10:20·265天前·inclusionAI

精选理由

蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢，这个效率信号比分数本身更值得关注，做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。

AI 摘要

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型，采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则，并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放，能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出，参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例（9.3%、0.5%和0.2%），同时在定量与定性评估中均实现超越。模型代码与检查点已开源，论文已被NeurIPS 2025接收。

该来源未收录可展示正文，站内仅提供摘要。

蚂蚁 inclusionAI：GitHub 新仓库

精选66导出 Markdown

Ming-VideoMAR：基于连续令牌的自回归视频生成模型

2025-10-10 10:20·265天前·inclusionAI

精选理由

AI 摘要

该来源未收录可展示正文，站内仅提供摘要。

阅读原文github.com

开源/仓库数据/训练模型发布视频