阿里通义千问(Qwen)推出了新的文本到图像(T2I)评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度,并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”,提升至关注“真实世界保真度”和“创意生成能力”两大支柱,通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。
Qwen新发布的Qwen-Image-Bench,把T2I评测从"生成"直接拉到"创作":
56个细粒度facet + ρ=0.92人类对齐Q-Judger,OpenAI、Gemini、Grok、Flux全得重排座次!
大家还在死磕提示词对齐,Qwen却证明:真实世界保真度和创意生成能力才是真正差距。
新基准1000条prompt+56个rubric,可解释诊断,现有SOTA模型差距肉眼可见。
那么,对于我们有什么实际使用价值呢?
实际怎么用?(收藏) 1. 开发者/研究者:把自己的T2I pipeline(不管是Qwen自家模型、GPT-4o图像、Gemini的Imagen系列、Grok的Flux集成还是开源SD3)扔到这个benchmark上跑一遍。
重点看Real-world Fidelity和Creative Generation两个支柱的得分,就能知道真实差距在哪。
- Prompt工程师:以后写复杂创意prompt时,可以用Q-Judger先自测一下生成结果在56个facet上的表现,快速迭代,而不是靠人工肉眼判断。
- 企业/产品方:要选T2I供应商或者自研图像生成时,把Qwen-Image-Bench当作新标杆。