Berryxia.AI@berryxia

2026-05-28 23:06·35天前

AI 摘要

阿里通义千问（Qwen）推出了新的文本到图像（T2I）评测基准Qwen-Image-Bench。该基准包含56个细粒度评估维度，并配备与人类对齐度达ρ=0.92的评判模型Q-Judger。其核心理念是将T2I模型评价从基础的“提示词对齐”，提升至关注“真实世界保真度”和“创意生成能力”两大支柱，通过1000条测试提示词能更清晰地区分现有SOTA模型表现。该基准为开发者、提示词工程师及企业提供了一个更贴近实际创作需求的新评估框架。

Qwen新发布的Qwen-Image-Bench，把T2I评测从"生成"直接拉到"创作"：

56个细粒度facet + ρ=0.92人类对齐Q-Judger，OpenAI、Gemini、Grok、Flux全得重排座次！

大家还在死磕提示词对齐，Qwen却证明：真实世界保真度和创意生成能力才是真正差距。

新基准1000条prompt+56个rubric，可解释诊断，现有SOTA模型差距肉眼可见。

那么，对于我们有什么实际使用价值呢？

实际怎么用？（收藏） 1. 开发者/研究者：把自己的T2I pipeline（不管是Qwen自家模型、GPT-4o图像、Gemini的Imagen系列、Grok的Flux集成还是开源SD3）扔到这个benchmark上跑一遍。

重点看Real-world Fidelity和Creative Generation两个支柱的得分，就能知道真实差距在哪。

Prompt工程师：以后写复杂创意prompt时，可以用Q-Judger先自测一下生成结果在56个facet上的表现，快速迭代，而不是靠人工肉眼判断。

企业/产品方：要选T2I供应商或者自研图像生成时，把Qwen-Image-Bench当作新标杆。

别再只看"prompt alignment"这种基础分了，直接看创意和保真度得分，更接近真实商业场景。

对比实验：论文已经证明，它在区分领先模型上的分离度远超老基准。

想验证自己模型有没有进步？用这个跑前后对比，数据会说话。

Qwen这次的打法很清晰：不光自己卷模型，还把评测标准往前推了一大步。

就像当年Scaling Law出来后大家才知道该怎么卷参数一样，这次Qwen-Image-Bench把"从生成到创作"的评价框架给立住了。

Adina YakupQwen @Alibaba_Qwen just dropped a new Text to Image benchmark + a judge model https://huggingface.co/collections/Qwen/qwen-image-bench ✨ 56 fine-grained evaluat...

图像生成开源生态评测/基准

Berryxia.AI@berryxia · X

73导出 Markdown