Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

2026-06-22 21:18·15小时前

精选理由

OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

AI 摘要

PP-OCRv6 是 PaddleOCR 最新一代通用 OCR 模型族，提供 tiny（1.5M）、small（7.7M）和 medium（34.5M）三级。medium 和 small 支持 50 种语言（简体/繁体中文、英文、日文及 46 种拉丁语系）。在官方多场景基准上，medium 检测 Hmean 86.2%，识别准确率 83.2%，较 PP-OCRv5_server 分别提升 +4.6 和 +5.1 个百分点。模型采用 PPLCNetV4 统一骨干、RepLKFPN 检测模块和 EncoderWithLightSVTR 识别模块，可通过 PaddleOCR、Transformers、ONNX Runtime 等后端灵活部署。

AI 翻译 · 中文

Hugging Face 上的 PP-OCRv6：覆盖 50 种语言、参数量从 1.5M 到 34.5M 的 OCR 模型

2026 年 6 月 22 日发布

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

在线评估 PP-OCRv6，然后通过 PaddlePaddle、Transformers 或 ONNX Runtime 后端集成轻量、可投产的 OCR。

PP-OCRv6 是 PaddleOCR 通用 OCR 模型家族的最新一代。它专为现实场景中的文本检测与识别而设计，涵盖文档、截图、多语言图像、数字显示屏、工业标签以及场景文本。

该模型家族的参数量从 1.5M 到 34.5M 不等，包含三个档次：tiny、small 和 medium。medium 和 small 档次支持 50 种语言，包括简体中文、繁体中文、英语、日语以及 46 种拉丁字母语言。快速在线体验 PP-OCRv6：PP-OCRv6 Online Demo。

在 PaddleOCR 官方自建的多场景 OCR 基准测试上，PP-OCRv6_medium 的检测 Hmean 达到 86.2%，识别准确率达到 83.2%。与 PP-OCRv5_server 相比，文本检测提升了 4.6 个百分点，文本识别提升了 5.1 个百分点。

PP-OCRv6 聚焦于一个实际的 OCR 需求：用小模型生成准确的结构化文本输出，并提供灵活的部署选项。关于为何在 VLM 时代专用 OCR 模型仍然有用，更深入的讨论请参阅我们之前的博客：PP-OCRv5 on Hugging Face: A Specialized Approach to OCR。

PP-OCRv6 的新特性

PP-OCRv6 在检测和识别两方面引入了架构、训练和数据的改进。主要设计目标是在保持模型大小适合不同部署环境的同时，提升 OCR 准确率。

三个模型档次

PP-OCRv6 提供三个模型档次，覆盖不同的模型大小和 OCR 准确率水平。

模型	模型大小	检测 Hmean	识别准确率	典型应用场景
PP-OCRv6_tiny	1.5M 参数	80.6%	73.5%	边缘设备、轻量本地 OCR、对延迟敏感的演示、受限环境
PP-OCRv6_small	7.7M 参数	84.1%	81.3%	手机、桌面、均衡型 OCR 服务、计算成本较低的多语言 OCR
PP-OCRv6_medium	3450 万参数	86.2%	83.2%	面向精度的 OCR、服务端流水线、工业级 OCR、文档录入、多语言 OCR

PPLCNetV4 骨干网络

PP-OCRv6 采用 PPLCNetV4 作为文字检测和文字识别的统一骨干网络。

对于开发者而言，最主要的好处是模型家族内部的一致性。tiny、small 和 medium 模型并非互不相关的独立模型，它们属于同一 OCR 家族，共享相同的架构方向。

用于文字检测的 RepLKFPN

文字检测是 OCR 流水线的第一个阶段。检测质量会影响送入识别器的裁剪区域，质量不佳的裁剪区域往往会导致识别效果更差。

PP-OCRv6 用 RepLKFPN 升级了检测模块，这是一种轻量级的大核特征金字塔网络，专为多尺度文字检测设计，同时保持高效的推理。

这对于真实场景下的 OCR 输入尤为重要——文字可能很小、密集、倾斜、低分辨率，或嵌在复杂背景中。

用于文字识别的 EncoderWithLightSVTR

在文字识别方面，PP-OCRv6 使用 EncoderWithLightSVTR。它将局部上下文建模与全局注意力相结合，从而提升对困难文字裁剪区域的识别质量。

识别方面的改进对多语言文字、屏幕文字、工业字符、特殊符号、密集文字以及噪声图像区域尤其有价值。

统一多语言 OCR

medium 和 small 模型在一个模型家族内支持 50 种语言，涵盖简体中文、繁体中文、英语、日语以及 46 种拉丁字母语言。

这有助于减少在常见多语言 OCR 场景中针对不同语言分别部署独立 OCR 模型的需求。

通过 PaddleOCR 快速入门

安装 PaddleOCR：

pip install paddleocr

使用 Paddle Inference（默认后端）运行 OCR：

from paddleocr import PaddleOCR



ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

OCR 结果可以保存为可视化图像和结构化的 JSON 输出。结构化输出随后可由下游系统使用，例如文档解析、搜索、信息提取、RAG、分析或智能体工作流。

可用的推理后端

PP-OCRv6 可通过 PaddleOCR 使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口，引擎负责选择底层运行时，相关配置可通过流水线或模块 API 传入。

后端	描述
Transformers 架构	针对所支持的 PaddleOCR 模型的 Hugging Face / PyTorch 推理路径
ONNX Runtime	面向基于 ONNX 部署环境的可移植推理路径
Paddle 推理	原生 Paddle 推理格式

对于 Hugging Face 用户，PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。可通过以下方式启用：

engine="transformers"

关于 Transformers 后端在 PaddleOCR 中如何工作的更多详情，请参阅：

PaddleOCR：使用 Transformers 后端运行 OCR 与文档解析任务

使用 Transformers 后端运行 PP-OCRv6 示例：


from paddleocr import PaddleOCR



ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

PP-OCRv6 集合中同样提供 ONNX 变体，适用于通过 `engine="onnxruntime"` 使用 ONNX Runtime 的环境：

from paddleocr import PaddleOCR



ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

这些后端选项共同使 PP-OCRv6 能够在不同的运行时环境中可用，同时保持 Hugging Face Hub 上同一个 OCR 模型系列。

结论

PP-OCRv6 为 PaddleOCR 带来了一套轻量级、多语言的 OCR 模型系列，用于真实场景的文字检测与识别。

该版本包含三个模型规模（从 1.5M 到 34.5M 参数），支持多达 50 种语言的 OCR，检测与识别精度较 PP-OCRv5_server 有提升，并在 Hugging Face Hub 上提供了多种模型格式，包括 safetensors、Paddle 推理模型和 ONNX 模型。

结合托管的 Hugging Face Space 以及可用的 PaddleOCR 推理后端，PP-OCRv6 为评估与集成提供了多个入口：

在线演示：PP-OCRv6 在线演示
模型集合：PP-OCRv6 集合
Transformers 后端博客：PaddleOCR with Transformers Backend
PaddleOCR 文档：PP-OCRv6 文档
PaddleOCR：PP-OCRv6 文档
PaddleOCR 官方网站：https://www.paddleocr.com

您可以通过在线演示评估 PP-OCRv6，浏览集合中可用的模型资产，并使用与您自己的 OCR 工作流程相匹配的推理后端。

本文提到的 Spaces 数量：1

本文提到的 Collections 数量：1

社区

· 或发表评论

本文提到的 Spaces 数量：1

本文提到的 Collections 数量：1

Hugging Face多模态模型发布部署/工程

阅读原文

Hugging Face：Blog（RSS）

精选69

PP-OCRv6 on Hugging Face：50 语言 OCR，参数规模 1.5M 至 34.5M

2026-06-22 21:18·15小时前

精选理由

OCR模型并没有因为VLM的兴起而消失，PP-OCRv6用1.5M到34.5M参数覆盖50种语言，对需要轻量、准确OCR的产品来说，这是一个务实的选择。

AI 摘要

AI 翻译 · 中文

Hugging Face 上的 PP-OCRv6：覆盖 50 种语言、参数量从 1.5M 到 34.5M 的 OCR 模型

2026 年 6 月 22 日发布

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

PaddlePaddle

在线评估 PP-OCRv6，然后通过 PaddlePaddle、Transformers 或 ONNX Runtime 后端集成轻量、可投产的 OCR。

PP-OCRv6 的新特性

PP-OCRv6 在检测和识别两方面引入了架构、训练和数据的改进。主要设计目标是在保持模型大小适合不同部署环境的同时，提升 OCR 准确率。

三个模型档次

PP-OCRv6 提供三个模型档次，覆盖不同的模型大小和 OCR 准确率水平。

模型	模型大小	检测 Hmean	识别准确率	典型应用场景
PP-OCRv6_tiny	1.5M 参数	80.6%	73.5%	边缘设备、轻量本地 OCR、对延迟敏感的演示、受限环境
PP-OCRv6_small	7.7M 参数	84.1%	81.3%	手机、桌面、均衡型 OCR 服务、计算成本较低的多语言 OCR
PP-OCRv6_medium	3450 万参数	86.2%	83.2%	面向精度的 OCR、服务端流水线、工业级 OCR、文档录入、多语言 OCR

PPLCNetV4 骨干网络

PP-OCRv6 采用 PPLCNetV4 作为文字检测和文字识别的统一骨干网络。

用于文字检测的 RepLKFPN

文字检测是 OCR 流水线的第一个阶段。检测质量会影响送入识别器的裁剪区域，质量不佳的裁剪区域往往会导致识别效果更差。

PP-OCRv6 用 RepLKFPN 升级了检测模块，这是一种轻量级的大核特征金字塔网络，专为多尺度文字检测设计，同时保持高效的推理。

这对于真实场景下的 OCR 输入尤为重要——文字可能很小、密集、倾斜、低分辨率，或嵌在复杂背景中。

用于文字识别的 EncoderWithLightSVTR

在文字识别方面，PP-OCRv6 使用 EncoderWithLightSVTR。它将局部上下文建模与全局注意力相结合，从而提升对困难文字裁剪区域的识别质量。

识别方面的改进对多语言文字、屏幕文字、工业字符、特殊符号、密集文字以及噪声图像区域尤其有价值。

统一多语言 OCR

medium 和 small 模型在一个模型家族内支持 50 种语言，涵盖简体中文、繁体中文、英语、日语以及 46 种拉丁字母语言。

这有助于减少在常见多语言 OCR 场景中针对不同语言分别部署独立 OCR 模型的需求。

通过 PaddleOCR 快速入门

安装 PaddleOCR：

pip install paddleocr

使用 Paddle Inference（默认后端）运行 OCR：

from paddleocr import PaddleOCR



ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

OCR 结果可以保存为可视化图像和结构化的 JSON 输出。结构化输出随后可由下游系统使用，例如文档解析、搜索、信息提取、RAG、分析或智能体工作流。

可用的推理后端

PP-OCRv6 可通过 PaddleOCR 使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口，引擎负责选择底层运行时，相关配置可通过流水线或模块 API 传入。

后端	描述
Transformers 架构	针对所支持的 PaddleOCR 模型的 Hugging Face / PyTorch 推理路径
ONNX Runtime	面向基于 ONNX 部署环境的可移植推理路径
Paddle 推理	原生 Paddle 推理格式

对于 Hugging Face 用户，PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。可通过以下方式启用：

engine="transformers"

关于 Transformers 后端在 PaddleOCR 中如何工作的更多详情，请参阅：

PaddleOCR：使用 Transformers 后端运行 OCR 与文档解析任务

使用 Transformers 后端运行 PP-OCRv6 示例：


from paddleocr import PaddleOCR



ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

PP-OCRv6 集合中同样提供 ONNX 变体，适用于通过 `engine="onnxruntime"` 使用 ONNX Runtime 的环境：

from paddleocr import PaddleOCR



ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

这些后端选项共同使 PP-OCRv6 能够在不同的运行时环境中可用，同时保持 Hugging Face Hub 上同一个 OCR 模型系列。

结论

PP-OCRv6 为 PaddleOCR 带来了一套轻量级、多语言的 OCR 模型系列，用于真实场景的文字检测与识别。

结合托管的 Hugging Face Space 以及可用的 PaddleOCR 推理后端，PP-OCRv6 为评估与集成提供了多个入口：

在线演示：PP-OCRv6 在线演示
模型集合：PP-OCRv6 集合
Transformers 后端博客：PaddleOCR with Transformers Backend
PaddleOCR 文档：PP-OCRv6 文档
PaddleOCR：PP-OCRv6 文档
PaddleOCR 官方网站：https://www.paddleocr.com

您可以通过在线演示评估 PP-OCRv6，浏览集合中可用的模型资产，并使用与您自己的 OCR 工作流程相匹配的推理后端。