腾讯混元开源的视觉感知基准,专攻古汉字识别,覆盖从甲骨文到草书的三千年演变,做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。
开源了评估视觉大语言模型(VLLM)对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程,包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务,旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。
🎉 🎉 🎉 我们正在开源 Chronicles-OCR,这是一个评估大视觉语言模型(VLLM)对古汉字识别能力的视觉感知基准。
该数据集涵盖 3000 年的文字演变,包含从甲骨文到草书的 7 种历史字体,收录了 2800 张在高度多样化的物理介质上均衡分布的图像。
我们从 4 个核心任务对模型进行评估:
• 字符定位 • 精细粒度识别 • 古文解析 • 字体分类
评估揭示了视觉分布的变化如何随时间影响模型的感知能力。
数据集和论文请看下方。👇
📄 论文:https://arxiv.org/abs/2605.11960 🔗 GitHub:https://github.com/VirtualLUOUCAS/Chronicles-OCR