# 腾讯HY实验室发布Chronicles-OCR基准测试

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-05-27 20:38
- AIHOT 分数：61
- AIHOT 链接：https://aihot.virxact.com/items/cmpo3mhxf02lzslv4yj64s9rx
- 原文链接：https://x.com/berryxia/status/2059615225478005226

## AI 摘要

腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR，包含2800张专家标注图像，覆盖甲骨文、金文等七大类。测试显示，28个前沿多模态模型集体表现不佳：VLLM在甲骨文上准确率仅14%，GPT-5与Gemini 2.5 Pro得分近零。值得注意的是，开启推理模式反而损害性能，因模型实为识别龟壳、青铜器等载体（准确率96.7%），而非真正识别字符本身。

## 正文

鹅厂好的新基准测试，叫Chronicles-OCR。

腾讯HY实验室和四家机构一起做的，专门测AI对3000年中国古文字的识别能力。

2800张专家标注的图像，覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大类。

结果28个前沿多模态模型全军覆没。

最强的VLLM在甲骨文上也只拿到14%的准确率。

端到端检测的H-mean最高才16.5%。

GPT-5和Gemini 2.5 Pro直接接近0。

更反直觉的是，开启reasoning模式反而让表现变差。

Chain-of-thought在感知失败的时候，反而放大了幻觉。

模型其实根本没在认字，它认的是载体。

古文字分类准确率能到96.7%，靠的是看到龟壳、青铜器这些容器，而不是看懂上面的字符。

到底非遗中的价值，AI的攻克只有九牛一毛。

### 引用推文

> ModelScope：The best VLLM scores only 14% on oracle bone script recognition. Chronicles-OCR, a new ancient Chinese character benchmark from Tencent HY and 4 institutions, j...