腾讯HY实验室与四家机构发布了专门测试AI对中国古文字识别能力的基准Chronicles-OCR,包含2800张专家标注图像,覆盖甲骨文、金文等七大类。测试显示,28个前沿多模态模型集体表现不佳:VLLM在甲骨文上准确率仅14%,GPT-5与Gemini 2.5 Pro得分近零。值得注意的是,开启推理模式反而损害性能,因模型实为识别龟壳、青铜器等载体(准确率96.7%),而非真正识别字符本身。
鹅厂好的新基准测试,叫Chronicles-OCR。
腾讯HY实验室和四家机构一起做的,专门测AI对3000年中国古文字的识别能力。
2800张专家标注的图像,覆盖甲骨文、金文、篆书、隶书、楷书、行书、草书七大类。
结果28个前沿多模态模型全军覆没。
最强的VLLM在甲骨文上也只拿到14%的准确率。
端到端检测的H-mean最高才16.5%。
GPT-5和Gemini 2.5 Pro直接接近0。
更反直觉的是,开启reasoning模式反而让表现变差。
Chain-of-thought在感知失败的时候,反而放大了幻觉。
模型其实根本没在认字,它认的是载体。
古文字分类准确率能到96.7%,靠的是看到龟壳、青铜器这些容器,而不是看懂上面的字符。
到底非遗中的价值,AI的攻克只有九牛一毛。