PP-OCRv6 on Hugging Face:50 语言 OCR,参数规模 1.5M 至 34.5M
OCR模型并没有因为VLM的兴起而消失,PP-OCRv6用1.5M到34.5M参数覆盖50种语言,对需要轻量、准确OCR的产品来说,这是一个务实的选择。
PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三级。medium 和 small 支持 50 种语言(简体/繁体中文、英文、日文及 46 种拉丁语系)。在官方多场景基准上,medium 检测 Hmean 86.2%,识别准确率 83.2%,较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块,可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。
Hugging Face 上的 PP-OCRv6:覆盖 50 种语言、参数量从 1.5M 到 34.5M 的 OCR 模型
在线评估 PP-OCRv6,然后通过 PaddlePaddle、Transformers 或 ONNX Runtime 后端集成轻量、可投产的 OCR。
PP-OCRv6 是 PaddleOCR 通用 OCR 模型家族的最新一代。它专为现实场景中的文本检测与识别而设计,涵盖文档、截图、多语言图像、数字显示屏、工业标签以及场景文本。
该模型家族的参数量从 1.5M 到 34.5M 不等,包含三个档次:tiny、small 和 medium。medium 和 small 档次支持 50 种语言,包括简体中文、繁体中文、英语、日语以及 46 种拉丁字母语言。快速在线体验 PP-OCRv6:PP-OCRv6 Online Demo。
在 PaddleOCR 官方自建的多场景 OCR 基准测试上,PP-OCRv6_medium 的检测 Hmean 达到 86.2%,识别准确率达到 83.2%。与 PP-OCRv5_server 相比,文本检测提升了 4.6 个百分点,文本识别提升了 5.1 个百分点。
PP-OCRv6 聚焦于一个实际的 OCR 需求:用小模型生成准确的结构化文本输出,并提供灵活的部署选项。关于为何在 VLM 时代专用 OCR 模型仍然有用,更深入的讨论请参阅我们之前的博客:PP-OCRv5 on Hugging Face: A Specialized Approach to OCR。
PP-OCRv6 的新特性
PP-OCRv6 在检测和识别两方面引入了架构、训练和数据的改进。主要设计目标是在保持模型大小适合不同部署环境的同时,提升 OCR 准确率。
三个模型档次
PP-OCRv6 提供三个模型档次,覆盖不同的模型大小和 OCR 准确率水平。
| 模型 | 模型大小 | 检测 Hmean | 识别准确率 | 典型应用场景 |
|---|---|---|---|---|
| PP-OCRv6_tiny | 1.5M 参数 | 80.6% | 73.5% | 边缘设备、轻量本地 OCR、对延迟敏感的演示、受限环境 |
| PP-OCRv6_small | 7.7M 参数 | 84.1% | 81.3% | 手机、桌面、均衡型 OCR 服务、计算成本较低的多语言 OCR |
| PP-OCRv6_medium | 3450 万参数 | 86.2% | 83.2% | 面向精度的 OCR、服务端流水线、工业级 OCR、文档录入、多语言 OCR |
PPLCNetV4 骨干网络
PP-OCRv6 采用 PPLCNetV4 作为文字检测和文字识别的统一骨干网络。
对于开发者而言,最主要的好处是模型家族内部的一致性。tiny、small 和 medium 模型并非互不相关的独立模型,它们属于同一 OCR 家族,共享相同的架构方向。
用于文字检测的 RepLKFPN
文字检测是 OCR 流水线的第一个阶段。检测质量会影响送入识别器的裁剪区域,质量不佳的裁剪区域往往会导致识别效果更差。
PP-OCRv6 用 RepLKFPN 升级了检测模块,这是一种轻量级的大核特征金字塔网络,专为多尺度文字检测设计,同时保持高效的推理。
这对于真实场景下的 OCR 输入尤为重要——文字可能很小、密集、倾斜、低分辨率,或嵌在复杂背景中。
用于文字识别的 EncoderWithLightSVTR
在文字识别方面,PP-OCRv6 使用 EncoderWithLightSVTR。它将局部上下文建模与全局注意力相结合,从而提升对困难文字裁剪区域的识别质量。
识别方面的改进对多语言文字、屏幕文字、工业字符、特殊符号、密集文字以及噪声图像区域尤其有价值。
统一多语言 OCR
medium 和 small 模型在一个模型家族内支持 50 种语言,涵盖简体中文、繁体中文、英语、日语以及 46 种拉丁字母语言。
这有助于减少在常见多语言 OCR 场景中针对不同语言分别部署独立 OCR 模型的需求。
通过 PaddleOCR 快速入门
安装 PaddleOCR:
pip install paddleocr
使用 Paddle Inference(默认后端)运行 OCR:
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")
OCR 结果可以保存为可视化图像和结构化的 JSON 输出。结构化输出随后可由下游系统使用,例如文档解析、搜索、信息提取、RAG、分析或智能体工作流。
可用的推理后端
PP-OCRv6 可通过 PaddleOCR 使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口,引擎负责选择底层运行时,相关配置可通过流水线或模块 API 传入。
| 后端 | 描述 |
|---|---|
| Transformers 架构 | 针对所支持的 PaddleOCR 模型的 Hugging Face / PyTorch 推理路径 |
| ONNX Runtime | 面向基于 ONNX 部署环境的可移植推理路径 |
| Paddle 推理 | 原生 Paddle 推理格式 |
对于 Hugging Face 用户,PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。可通过以下方式启用:
engine="transformers"
关于 Transformers 后端在 PaddleOCR 中如何工作的更多详情,请参阅:
PaddleOCR:使用 Transformers 后端运行 OCR 与文档解析任务
使用 Transformers 后端运行 PP-OCRv6 示例:
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
PP-OCRv6 集合中同样提供 ONNX 变体,适用于通过 `engine="onnxruntime"` 使用 ONNX Runtime 的环境:
from paddleocr import PaddleOCR
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
这些后端选项共同使 PP-OCRv6 能够在不同的运行时环境中可用,同时保持 Hugging Face Hub 上同一个 OCR 模型系列。
结论
PP-OCRv6 为 PaddleOCR 带来了一套轻量级、多语言的 OCR 模型系列,用于真实场景的文字检测与识别。
该版本包含三个模型规模(从 1.5M 到 34.5M 参数),支持多达 50 种语言的 OCR,检测与识别精度较 PP-OCRv5_server 有提升,并在 Hugging Face Hub 上提供了多种模型格式,包括 safetensors、Paddle 推理模型和 ONNX 模型。
结合托管的 Hugging Face Space 以及可用的 PaddleOCR 推理后端,PP-OCRv6 为评估与集成提供了多个入口:
在线演示:PP-OCRv6 在线演示
模型集合:PP-OCRv6 集合
Transformers 后端博客:PaddleOCR with Transformers Backend
PaddleOCR 文档:PP-OCRv6 文档
PaddleOCR:PP-OCRv6 文档
PaddleOCR 官方网站:https://www.paddleocr.com
您可以通过在线演示评估 PP-OCRv6,浏览集合中可用的模型资产,并使用与您自己的 OCR 工作流程相匹配的推理后端。
本文提到的 Spaces 数量:1
本文提到的 Collections 数量:1
社区
· 或发表评论




