ChartArena:跨语言、场景与格式的图表解析基准测试
阅读原文· arxiv.orgChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片,终于能测出 MLLM 在真实文档场景下的真实水平,做文档解析的团队该认真看一下。
ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族(包括数字图表与流程图等结构),并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程,并设计了格式无关的评估协议,将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示,前沿闭源模型如Gemini 3.1 Pro领先,开源系统正快速追赶;文档解析模型在数字图表上表现尚可,但在图表结构上明显不足;专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。
图表是传达定量和关系信息的主要媒介,然而系统性地评估图表解析模型仍然很困难。现有的基准测试集中在狭窄的图表类型上,而流程图和思维导图等图表结构在很大程度上未被涉及;同时模型输出的格式互不兼容,且数据集很少包含实践中遇到的打印或手绘图像。为了解决这些问题,我们引入了ChartArena——一个全面的双语基准测试,涵盖八个图表系列,包括数字图表和图表结构,每个系列在三种视觉场景下进行评估:数字渲染、打印照片和手绘照片。该数据集通过人机协作的标注流程构建,并经过多阶段人工验证以确保标注可靠性。为了实现公平的跨模型比较,我们进一步设计了一种格式无关的评估协议,将异构输出映射到两个规范语义空间(归一化三元组视图和有向图视图),并使用结构感知指标进行评分。通过对26个领先多模态大语言模型(MLLM)的广泛评估,我们观察到三个一致的发现:(i)前沿专有模型如Gemini 3.1 Pro整体领先,但最强的开源系统正在迅速缩小差距;(ii)文档解析模型在处理数字图表时表现尚可,但在图表结构上大幅落后;(iii)专家级图表解析器仍然局限于狭窄的图表系列。在所有模型中,雷达图和手绘场景仍然是特别具有挑战性的。这些发现表明,ChartArena暴露了明显的能力差距,并为未来的进步提供了统一的基础。ChartArena已公开,访问地址为 https://github.com/pspdada/ChartArena。