# Qwen-Image-2.0技术报告

- 来源：HuggingFace Daily Papers（社区热门论文）
- 发布时间：2026-05-11 08:00
- AIHOT 分数：76
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmp25c774049lslbp3zceqjrz
- 原文链接：https://arxiv.org/abs/2605.10730

## 精选理由

这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里，长文本渲染和多语言排版提升肉眼可见，做海报和幻灯片的可以重点关注。

## AI 摘要

Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器，结合多模态扩散变换器进行联合建模，并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入，能生成幻灯片、海报等富文本内容，显著提升多语言文本渲染与排版质量。在生成方面，它增强了细节、纹理真实感与光照一致性，并更可靠遵循复杂指令。人工评估表明，其在生成和编辑任务上均大幅超越前代模型。

## 正文

我们推出 Qwen-Image-2.0，一个全能型图像生成基础模型，在单一框架内统一了高保真生成与精准图像编辑能力。尽管近期取得了进展，现有模型在超长文本渲染、多语言文字排版、高分辨率照片级真实感、稳健的指令跟随以及高效部署方面仍面临挑战，尤其是在文本密集和构图复杂的场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器，与一个多模态扩散 Transformer（Multimodal Diffusion Transformer）联合进行条件-目标建模，并辅以大规模数据整理和定制化的多阶段训练流程，从而应对这些挑战。这使得模型在保持灵活的生成和编辑能力的同时，具备了强大的多模态理解能力。该模型支持多达 1K 个模型 token 的指令，用于生成幻灯片、海报、信息图和漫画等富含文本的内容，同时显著提升了多语言文本的保真度和排版效果。它还增强了照片级真实感生成，细节更丰富、纹理更逼真、光照更一致，并且能更可靠地跨多种风格遵循复杂提示词。广泛的人类评估表明，Qwen-Image-2.0 在生成和编辑两方面均大幅超越之前的 Qwen-Image 模型，朝着更通用、更可靠、更实用的图像生成基础模型迈进了一步。