Mistral AI 发布 OCR 4 模型
阅读原文· marktechpost.comMistral OCR 4 不只是提取文本,而是输出带定位框和置信度的结构,这对需要引用和溯源的企业搜索很有价值,不过按页计费对小团队是门槛。
Mistral AI 今日发布 OCR 4,支持 170 种语言,可单容器自托管部署。新版本除提取文本外,还返回边界框、块类型(标题/表格/方程等)和逐字置信度分数。独立标注者在 600+ 文档、12+ 语言的测试中平均胜率 72%。价格 $4/千页,批量 $2/千页,Document AI 模式 $5/千页。企业客户可自托管。Rogo 报告等效精度下成本低约 8 倍、延迟低 17 倍;Anaqua 测得每页快约 4 倍。OCR 4 同时作为 Mistral Search Toolkit(公开预览)的接入组件。
今天,Mistral AI 发布了其最新文档理解模型 OCR 4。此次新版本在提取文本的基础上,额外增加了边界框、块分类以及行内置信度分数。它支持 10 个语系的 170 种语言,并运行在单个容器中,可实现完全自托管部署。OCR 4 还可作为企业搜索、RAG 以及特定领域检索管道的数据摄入组件使用。
概要
- OCR 4 不仅返回文本,还返回边界框、类型化块标签以及逐词置信度分数。
- 它支持 10 个语系的 170 种语言,在稀有语言和低资源语言上表现提升。
- 独立标注员对 OCR 4 的偏好超过了所有受测系统,平均胜率达 72%。
- 定价为每 1,000 页 4 美元,使用 Batch-API 折扣后降至每 1,000 页 2 美元。
- 单一端点同时支持原始提取和模式驱动的文档 AI 输出。
Mistral OCR 4
Mistral OCR 4 可从各类文档中提取并结构化内容。前几代产品专注于将页面转换成干净的文本和表格。而 OCR 4 则返回整个文档的结构化表示。
每个块都通过边界框定位,并按类型分类。块类型包括标题、表格、方程式、签名等。逐页和逐词生成行内置信度分数。
因此,下游系统学到的不仅仅是文档说了什么。它们还能了解每个元素的位置、所扮演的角色以及模型的置信度。这些额外上下文对引用、编辑以及人在回路验证至关重要。
OCR 4 支持常见的企业文档格式,包括 PDF、DOC、PPT 和 OpenDocument。该模型足够紧凑,可部署在单个容器中。企业客户可出于数据驻留和合规要求进行自管理部署。
基准测试
Mistral 将 OCR 4 与原生的 AI OCR 模型、前沿通用模型、企业文档服务以及 Mistral OCR 3 进行了对比。
多位独立标注员在测试中表现出对 OCR 4 的偏好,其表现优于所有主流系统。在对比测试中,平均胜率达到 72%。评估采用了来自第三方供应商、涵盖 12 种以上语言的 600 多份文档。标注员逐文档对比各竞品输出与 OCR 4 的表现。
在自动化基准测试中,OCR 4 在公开的 OlmOCRBench 上获得 85.20 分,在 OmniDocBench 上获得 93.07 分,在 Mistral 内部的多语言爬虫评估(Crawl Multilingual)中取得 0.98 分。
两个客户的实际数据提供了更多背景信息。Rogo 报告称,与领先的智能体解析器相比,OCR 4 在成本降低约 8 倍、延迟降低约 17 倍的情况下实现了同等精度。Anaqua 测得每页处理速度比其原有供应商快约 4 倍。
不仅是文本,更是分割
边界框是 Mistral 用户最需要的功能。它能够定位文本,实现上下文高亮显示并构建可靠的数据管线。
区块类型和置信度分数服务于不同的任务。它们驱动基于来源的引用、内容遮蔽以及人工复核流程。这一结构支持多种下游工作负载。
清晰、分类后的区块能成为更好的检索单元,用于 RAG。智能体获得结构化的基础元素,能够对文档进行操作,而不仅仅是读取。连接器则获得一致、带类型标注的输出,便于数据摄入和索引。
OCR 4 也是 Mistral 搜索工具包(Search Toolkit)的组件之一,该工具包目前处于公开预览阶段。搜索工具包是 Mistral 开源、可组合的搜索框架。其结构化输出为检索和评估流程提供可直接引用的输入。
应用场景示例
OCR 4 既支持高吞吐量管线,也支持交互式文档工作流。
- 文档解析与提取:将多语言合同转换为干净、结构化的 Markdown 格式,便于索引。
- 检索增强生成(RAG):将分类后的区块输入搜索工具包,获取带有引用的、基于来源的答案。
- 智能体工作流:为发票处理智能体提供类型化字段和边界框,使其自动填写表单。
- 置信度门控管线:将低置信度区域路由至人工验证,其余部分自动通过。
- 企业搜索:将 OCR 4 作为数据源组件,用于整个档案库的数据摄入和实体提取。
早期用户运用 OCR 4 将发票转化为结构化字段,并实现公司档案的数字化。另一些用户则从技术报告中提取纯净文本,或用于增强企业级搜索。
Mistral 官方发布的适用范围说明:OCR 4 是一款文档理解模型,而非决策者。它不适用于医疗诊断、法律判决或高风险金融决策。同样不适合安全关键系统、实时处理,或原始音频、视频等非文档输入。
对比:纯提取模式 vs. 文档 AI 模式
OCR 4 通过单一 API 端点部署。每次请求都运行同一个模型。它始终返回提取的内容、边界框、区块类型、置信度分数以及 Markdown。区别在于你在上层叠加了多少处理。
| 能力 | 纯提取模式 | 文档 AI 模式(同一端点) |
|---|---|---|
| 输出 | Markdown、边界框、区块类型、置信度 | 由你定义 schema 的结构化 JSON |
| 工作原理 | 原始 OCR 响应 | OCR 输出送入 mistral-small-2603 |
| 图像标注 | 不应用 | 基于 schema 对每张图像进行视觉语言调用 |
| 自定义提示词 | 无 | 有,用于引导解读或摘要 |
| 最佳用途 | 流水线、智能体、批量接入 | 业务用户、试点项目、无需解析逻辑 |
| 价格 | $4 / 1,000 页(批处理 $2) | $5 / 1,000 页 |
| 自托管 | 企业可用 | 企业可用 |
决策规则很简单。需要原始提取内容?直接使用 OCR 4。需要将输出重塑为 schema 或添加领域字段标注?在同一个调用中加入 Document AI 参数即可。
使用 API
基本提取只需提供一个文档 URL,并返回结构化页面。设置 `include_blocks=True` 即可获取带类型的区块和边界框。
import os
from mistralai.client import Mistral
client = Mistral(api_key=os.environ["MISTRAL_API_KEY"])
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={
"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"
},
include_blocks=True, # typed blocks + bounding boxes
table_format="html", # None (inline), "markdown", or "html"
include_image_base64=True
)响应是一个包含 `pages` 数组的 JSON 对象。每个页面带有 markdown、图像、表格、超链接、尺寸和 `confidence_scores`。若要构建人工审核流程,可请求逐词置信度。
ocr_response = client.ocr.process(
model="mistral-ocr-latest",
document={"type": "document_url",
"document_url": "https://arxiv.org/pdf/2201.04234"},
confidence_scores_granularity="word" # or "page" for aggregates
)"word" 设置会在每个页面和每个表格条目中添加 `word_confidence_scores` 数组。对于高用量任务,Mistral 建议使用批量推理服务,可将单页成本减半。
试一试:交互式输出浏览工具
下方的嵌入可视化展示了 OCR 4 的结构化输出。可以在不同示例文档之间切换,开启或关闭边界框与块类型,并打开置信度热力图。Markdown 和 JSON 选项卡并排显示了两种输出格式。示例数据仅供示意,并非实时 API 调用。