ChartArena：跨语言、场景与格式的图表解析基准测试

2026-05-31 08:00·33天前

精选理由

ChartArena 把图表评测从柱状图/折线图拉到了流程图和手绘照片，终于能测出 MLLM 在真实文档场景下的真实水平，做文档解析的团队该认真看一下。

AI 摘要

ChartArena 是一个旨在系统评估图表解析模型的双语基准测试。它覆盖了八种图表家族（包括数字图表与流程图等结构），并针对数字渲染、打印照片和手绘照片三种场景进行评估。数据集采用人机协作标注流程，并设计了格式无关的评估协议，将不同模型输出映射到标准化语义空间进行评分。对26个多模态大语言模型的评估显示，前沿闭源模型如Gemini 3.1 Pro领先，开源系统正快速追赶；文档解析模型在数字图表上表现尚可，但在图表结构上明显不足；专业解析器仍局限于特定图表类型。雷达图和手绘场景对所有模型都尤其具有挑战性。

AI 翻译 · 中文

图表是传达定量和关系信息的主要媒介，然而系统性地评估图表解析模型仍然很困难。现有的基准测试集中在狭窄的图表类型上，而流程图和思维导图等图表结构在很大程度上未被涉及；同时模型输出的格式互不兼容，且数据集很少包含实践中遇到的打印或手绘图像。为了解决这些问题，我们引入了ChartArena——一个全面的双语基准测试，涵盖八个图表系列，包括数字图表和图表结构，每个系列在三种视觉场景下进行评估：数字渲染、打印照片和手绘照片。该数据集通过人机协作的标注流程构建，并经过多阶段人工验证以确保标注可靠性。为了实现公平的跨模型比较，我们进一步设计了一种格式无关的评估协议，将异构输出映射到两个规范语义空间（归一化三元组视图和有向图视图），并使用结构感知指标进行评分。通过对26个领先多模态大语言模型（MLLM）的广泛评估，我们观察到三个一致的发现：（i）前沿专有模型如Gemini 3.1 Pro整体领先，但最强的开源系统正在迅速缩小差距；（ii）文档解析模型在处理数字图表时表现尚可，但在图表结构上大幅落后；（iii）专家级图表解析器仍然局限于狭窄的图表系列。在所有模型中，雷达图和手绘场景仍然是特别具有挑战性的。这些发现表明，ChartArena暴露了明显的能力差距，并为未来的进步提供了统一的基础。ChartArena已公开，访问地址为 https://github.com/pspdada/ChartArena。

HuggingFace Daily Papers（社区热门论文）

精选70导出 Markdown