公众号：通义实验室（千问）

通义实验室发布Qwen-Image-Bench：56项细粒度创作评测基准

2026-05-28 17:47·35天前·通义实验室

AI 摘要

通义实验室推出文生图评测基准Qwen-Image-Bench，由专业艺术家团队开发，将创作能力解构为5大核心支柱、17大场景及56项可量化维度。配套开源自动化评估模型Q-Judger，与资深人类艺术家评估相关性达Spearsman 0.92。评测使用1000条中英文分层Prompt，每条覆盖至少4项考点。结果显示，当前T2I模型在文字准确性、信息可视化、跨语言生成等子领域差距明显，世界知识与逻辑推理能力是跻身第一梯队的分水岭。完整数据集与Q-Judger已开源。

公众号正文需在微信内阅读，站内仅提供摘要。

arXivHugging Face 图像生成多模态

在微信中打开原文导出 Markdown

公众号：通义实验室（千问）

54导出 Markdown