Qwen-Image-2.0技术报告
阅读原文· arxiv.org这是 Qwen-Image 系列第一次把多模态理解和生成真正拧到同一框架里,长文本渲染和多语言排版提升肉眼可见,做海报和幻灯片的可以重点关注。
Qwen-Image-2.0是一个统一高保真生成与精确编辑的全能图像生成基础模型。它采用Qwen3-VL作为条件编码器,结合多模态扩散变换器进行联合建模,并通过大规模数据整理与多阶段训练实现强化。该模型支持长达1K令牌的指令输入,能生成幻灯片、海报等富文本内容,显著提升多语言文本渲染与排版质量。在生成方面,它增强了细节、纹理真实感与光照一致性,并更可靠遵循复杂指令。人工评估表明,其在生成和编辑任务上均大幅超越前代模型。
我们推出 Qwen-Image-2.0,一个全能型图像生成基础模型,在单一框架内统一了高保真生成与精准图像编辑能力。尽管近期取得了进展,现有模型在超长文本渲染、多语言文字排版、高分辨率照片级真实感、稳健的指令跟随以及高效部署方面仍面临挑战,尤其是在文本密集和构图复杂的场景中。Qwen-Image-2.0 通过将 Qwen3-VL 作为条件编码器,与一个多模态扩散 Transformer(Multimodal Diffusion Transformer)联合进行条件-目标建模,并辅以大规模数据整理和定制化的多阶段训练流程,从而应对这些挑战。这使得模型在保持灵活的生成和编辑能力的同时,具备了强大的多模态理解能力。该模型支持多达 1K 个模型 token 的指令,用于生成幻灯片、海报、信息图和漫画等富含文本的内容,同时显著提升了多语言文本的保真度和排版效果。它还增强了照片级真实感生成,细节更丰富、纹理更逼真、光照更一致,并且能更可靠地跨多种风格遵循复杂提示词。广泛的人类评估表明,Qwen-Image-2.0 在生成和编辑两方面均大幅超越之前的 Qwen-Image 模型,朝着更通用、更可靠、更实用的图像生成基础模型迈进了一步。