腾讯开源了Chronicles-OCR基准,旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变,涵盖从甲骨文到草书的7种历史字体,包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示,面对历史字体带来的视觉分布漂移,大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。
xdm,这个研究对于古代历史研究的价值很大啊!
他们刚刚开源了Chronicles-OCR,一个专门测VLLM对古汉字感知能力的基准。
数据集横跨3000年演变,涵盖7种历史字体,从甲骨文一直到草书,2800张平衡图像,来自不同材质的真实载体。
测试分4个核心任务: 字符定位、细粒度识别、古文字解析、字体分类。
结果很扎心:视觉分布随时间漂移后,大部分模型感知能力直接崩盘。
以前大家卷的是现代图文理解,现在Tencent把AI拉到真正需要"穿越时空"才能看懂的古文字上。
这才是把文化传承和AI视觉能力真正连在一起。
Paper和完整数据集已经开源:
Paper:https://arxiv.org/abs/2605.11960 GitHub:https://github.com/Tencent/Hunyuan-Chronicles-OCR
论文还没有阅读,完了可以好好研究一下。