# Mistral AI 发布 OCR 4 模型

- 来源：MarkTechPost（RSS）
- 作者：Asif Razzaq
- 发布时间：2026-06-24 07:43
- AIHOT 分数：72
- AIHOT 标记：精选
- AIHOT 链接：https://aihot.virxact.com/items/cmqrbsck20ihpslp53uq6xgcf
- 原文链接：https://www.marktechpost.com/2026/06/23/mistral-ocr-4

## 精选理由

Mistral OCR 4 不只是提取文本，而是输出带定位框和置信度的结构，这对需要引用和溯源的企业搜索很有价值，不过按页计费对小团队是门槛。

## AI 摘要

Mistral AI 今日发布 OCR 4，支持 170 种语言，可单容器自托管部署。新版本除提取文本外，还返回边界框、块类型（标题/表格/方程等）和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页，批量 $2/千页，Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍；Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit（公开预览）的接入组件。

## 正文

今天，Mistral AI 发布了其最新文档理解模型 OCR 4。此次新版本在提取文本的基础上，额外增加了边界框、块分类以及行内置信度分数。它支持 10 个语系的 170 种语言，并运行在单个容器中，可实现完全自托管部署。OCR 4 还可作为企业搜索、RAG 以及特定领域检索管道的数据摄入组件使用。

概要

OCR 4 不仅返回文本，还返回边界框、类型化块标签以及逐词置信度分数。

它支持 10 个语系的 170 种语言，在稀有语言和低资源语言上表现提升。

独立标注员对 OCR 4 的偏好超过了所有受测系统，平均胜率达 72%。

定价为每 1,000 页 4 美元，使用 Batch-API 折扣后降至每 1,000 页 2 美元。

单一端点同时支持原始提取和模式驱动的文档 AI 输出。

Mistral OCR 4

Mistral OCR 4 可从各类文档中提取并结构化内容。前几代产品专注于将页面转换成干净的文本和表格。而 OCR 4 则返回整个文档的结构化表示。

每个块都通过边界框定位，并按类型分类。块类型包括标题、表格、方程式、签名等。逐页和逐词生成行内置信度分数。

因此，下游系统学到的不仅仅是文档说了什么。它们还能了解每个元素的位置、所扮演的角色以及模型的置信度。这些额外上下文对引用、编辑以及人在回路验证至关重要。

OCR 4 支持常见的企业文档格式，包括 PDF、DOC、PPT 和 OpenDocument。该模型足够紧凑，可部署在单个容器中。企业客户可出于数据驻留和合规要求进行自管理部署。

基准测试

Mistral 将 OCR 4 与原生的 AI OCR 模型、前沿通用模型、企业文档服务以及 Mistral OCR 3 进行了对比。

多位独立标注员在测试中表现出对 OCR 4 的偏好，其表现优于所有主流系统。在对比测试中，平均胜率达到 72%。评估采用了来自第三方供应商、涵盖 12 种以上语言的 600 多份文档。标注员逐文档对比各竞品输出与 OCR 4 的表现。

在自动化基准测试中，OCR 4 在公开的 OlmOCRBench 上获得 85.20 分，在 OmniDocBench 上获得 93.07 分，在 Mistral 内部的多语言爬虫评估（Crawl Multilingual）中取得 0.98 分。

两个客户的实际数据提供了更多背景信息。Rogo 报告称，与领先的智能体解析器相比，OCR 4 在成本降低约 8 倍、延迟降低约 17 倍的情况下实现了同等精度。Anaqua 测得每页处理速度比其原有供应商快约 4 倍。

不仅是文本，更是分割

边界框是 Mistral 用户最需要的功能。它能够定位文本，实现上下文高亮显示并构建可靠的数据管线。

区块类型和置信度分数服务于不同的任务。它们驱动基于来源的引用、内容遮蔽以及人工复核流程。这一结构支持多种下游工作负载。

清晰、分类后的区块能成为更好的检索单元，用于 RAG。智能体获得结构化的基础元素，能够对文档进行操作，而不仅仅是读取。连接器则获得一致、带类型标注的输出，便于数据摄入和索引。

OCR 4 也是 Mistral 搜索工具包（Search Toolkit）的组件之一，该工具包目前处于公开预览阶段。搜索工具包是 Mistral 开源、可组合的搜索框架。其结构化输出为检索和评估流程提供可直接引用的输入。

应用场景示例

OCR 4 既支持高吞吐量管线，也支持交互式文档工作流。

文档解析与提取：将多语言合同转换为干净、结构化的 Markdown 格式，便于索引。

检索增强生成（RAG）：将分类后的区块输入搜索工具包，获取带有引用的、基于来源的答案。

智能体工作流：为发票处理智能体提供类型化字段和边界框，使其自动填写表单。

置信度门控管线：将低置信度区域路由至人工验证，其余部分自动通过。

企业搜索：将 OCR 4 作为数据源组件，用于整个档案库的数据摄入和实体提取。

早期用户运用 OCR 4 将发票转化为结构化字段，并实现公司档案的数字化。另一些用户则从技术报告中提取纯净文本，或用于增强企业级搜索。

Mistral 官方发布的适用范围说明：OCR 4 是一款文档理解模型，而非决策者。它不适用于医疗诊断、法律判决或高风险金融决策。同样不适合安全关键系统、实时处理，或原始音频、视频等非文档输入。

对比：纯提取模式 vs. 文档 AI 模式

OCR 4 通过单一 API 端点部署。每次请求都运行同一个模型。它始终返回提取的内容、边界框、区块类型、置信度分数以及 Markdown。区别在于你在上层叠加了多少处理。

能力纯提取模式文档 AI 模式（同一端点）

输出Markdown、边界框、区块类型、置信度由你定义 schema 的结构化 JSON

工作原理原始 OCR 响应OCR 输出送入 mistral-small-2603

图像标注不应用基于 schema 对每张图像进行视觉语言调用

自定义提示词无有，用于引导解读或摘要

最佳用途流水线、智能体、批量接入业务用户、试点项目、无需解析逻辑

价格$4 / 1,000 页（批处理 $2）$5 / 1,000 页

自托管企业可用企业可用

决策规则很简单。需要原始提取内容？直接使用 OCR 4。需要将输出重塑为 schema 或添加领域字段标注？在同一个调用中加入 Document AI 参数即可。

使用 API

基本提取只需提供一个文档 URL，并返回结构化页面。设置 `include_blocks=True` 即可获取带类型的区块和边界框。

复制代码已复制使用其他浏览器

import os
from mistralai.client import Mistral

client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])

ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"
},
include_blocks=True, # typed blocks + bounding boxes
table_format="html", # None (inline), "markdown", or "html"
include_image_base64=True
)

响应是一个包含 `pages` 数组的 JSON 对象。每个页面带有 markdown、图像、表格、超链接、尺寸和 `confidence_scores`。若要构建人工审核流程，可请求逐词置信度。

复制代码已复制使用其他浏览器

ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"},
confidence_scores_granularity="word" # or "page" for aggregates
)

"word" 设置会在每个页面和每个表格条目中添加 `word_confidence_scores` 数组。对于高用量任务，Mistral 建议使用批量推理服务，可将单页成本减半。

试一试：交互式输出浏览工具

下方的嵌入可视化展示了 OCR 4 的结构化输出。可以在不同示例文档之间切换，开启或关闭边界框与块类型，并打开置信度热力图。Markdown 和 JSON 选项卡并排显示了两种输出格式。示例数据仅供示意，并非实时 API 调用。