Berryxia.AI@berryxia

2026-05-19 15:41·44天前

AI 摘要

腾讯开源了Chronicles-OCR基准，旨在专门评估视觉语言模型对古汉字的感知能力。该数据集横跨3000年演变，涵盖从甲骨文到草书的7种历史字体，包含2800张来自多样材质的真实图像。研究设置了字符定位、细粒度识别、古文字解析和字体分类四项核心任务。测试结果揭示，面对历史字体带来的视觉分布漂移，大部分模型的感知能力会急剧下降。该研究为古文字研究提供了重要的AI评测工具。

xdm，这个研究对于古代历史研究的价值很大啊！

他们刚刚开源了Chronicles-OCR，一个专门测VLLM对古汉字感知能力的基准。

数据集横跨3000年演变，涵盖7种历史字体，从甲骨文一直到草书，2800张平衡图像，来自不同材质的真实载体。

测试分4个核心任务：字符定位、细粒度识别、古文字解析、字体分类。

结果很扎心：视觉分布随时间漂移后，大部分模型感知能力直接崩盘。

以前大家卷的是现代图文理解，现在Tencent把AI拉到真正需要"穿越时空"才能看懂的古文字上。

这才是把文化传承和AI视觉能力真正连在一起。

Paper和完整数据集已经开源：

Paper：https://arxiv.org/abs/2605.11960 GitHub：https://github.com/Tencent/Hunyuan-Chronicles-OCR

论文还没有阅读，完了可以好好研究一下。

Tencent Hy🎉 🎉 🎉 We're open-sourcing Chronicles-OCR, a visual perception benchmark evaluating VLLMs on ancient Chinese characters. The dataset spans 3,000 years of evol...

多模态论文/研究

在 X 查看原推导出 Markdown

Berryxia.AI@berryxia · X

67导出 Markdown