# 蚂蚁集团提出 ARGenSeg-8B：基于自回归图像生成模型的图像分割框架

- 来源：蚂蚁 inclusionAI：HuggingFace 新模型
- 发布时间：2026-05-15 10:33
- AIHOT 分数：56
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmp6c0i6i00nbslnzm1hefdiu
- 原文链接：https://huggingface.co/inclusionAI/ARGenSeg-8B

## 精选理由

蚂蚁提出用自回归生成做分割，把理解和像素级感知统一到一个框架里，多个数据集SOTA且速度更快，做CV的值得看看。

## AI 摘要

蚂蚁集团推出 ARGenSeg-8B，一种将多模态理解与像素级感知统一的自回归图像生成分割框架。它利用多模态大语言模型（MLLM）输出视觉 token，并通过通用 VQ-VAE 解码为分割掩码，使分割完全依赖 MLLM 的像素级理解。采用 next-scale-prediction 策略并行生成视觉 token，降低推理延迟。在多个分割数据集上超越此前最优方法，推理速度显著提升。论文已被 NeurIPS 2025 接收，模型已发布在 HuggingFace。

## 正文

这是一则列表来源，站内未收录完整正文。
