# Ming-VideoMAR：基于连续令牌的自回归视频生成模型

- 来源：蚂蚁 inclusionAI：GitHub 新仓库
- 作者：inclusionAI
- 发布时间：2025-10-10 10:20
- AIHOT 分数：66
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmorb7ik40074slhfvdmvwsw7
- 原文链接：https://github.com/inclusionAI/Ming-VideoMAR

## 精选理由

蚂蚁把自回归视频生成的训练成本砍到 Cosmos 的 0.2% 还能赢，这个效率信号比分数本身更值得关注，做视频生成的团队该认真看看它的课程学习和渐进分辨率策略。

## AI 摘要

Ming-VideoMAR 是一款仅解码器的自回归图像到视频生成模型，采用连续令牌统一视觉表征。它首次将时间因果性与空间双向性作为视频自回归核心原则，并提出了整合掩码生成的下一帧扩散损失。该模型首次实现了视频生成的零样本分辨率缩放，能灵活生成远超训练分辨率的视频。其在训练与推理效率上表现突出，参数量、训练数据量和GPU消耗仅为之前最佳模型Cosmos的极小比例（9.3%、0.5%和0.2%），同时在定量与定性评估中均实现超越。模型代码与检查点已开源，论文已被NeurIPS 2025接收。

## 正文

该来源未收录可展示正文，站内仅提供摘要。