Tencent Hy@TencentHunyuan

精选72

2026-05-19 10:46·45天前

精选理由

腾讯混元开源的视觉感知基准，专攻古汉字识别，覆盖从甲骨文到草书的三千年演变，做 OCR 和视觉模型的可以拿来测测自家模型在历史文本上的感知退化。

AI 摘要

开源了评估视觉大语言模型（VLLM）对古代汉字视觉感知能力的基准测试Chronicles-OCR。该数据集覆盖了从甲骨文到草书的3000年演变历程，包含7种历史书体与2800张均衡图像。评估涵盖字形定位、细粒度识别、古代文本解析和字体分类四项核心任务，旨在探究视觉分布随时间的变化如何影响模型感知。相关论文与代码已开源。

AI 翻译 · 中文

🎉 🎉 🎉 我们正在开源 Chronicles-OCR，这是一个评估大视觉语言模型（VLLM）对古汉字识别能力的视觉感知基准。

该数据集涵盖 3000 年的文字演变，包含从甲骨文到草书的 7 种历史字体，收录了 2800 张在高度多样化的物理介质上均衡分布的图像。

我们从 4 个核心任务对模型进行评估：

• 字符定位 • 精细粒度识别 • 古文解析 • 字体分类

评估揭示了视觉分布的变化如何随时间影响模型的感知能力。

数据集和论文请看下方。👇

📄 论文：https://arxiv.org/abs/2605.11960 🔗 GitHub：https://github.com/VirtualLUOUCAS/Chronicles-OCR

多模态开源生态论文/研究

在 X 查看原推导出 Markdown

Tencent Hy@TencentHunyuan · X

精选72导出 Markdown