Mistral OCR 4
Mistral OCR 4 把 bounding box 和置信度输出做进了产品,自托管部署和多语言能力很务实,做文档 RAG 和智能体的团队可以认真看看。
Mistral AI 发布 OCR 4,新增边界框、块分类(标题、表格、方程式、签名等)及逐页逐词置信度分数。支持 170 种语言、10 个语系,可单容器全自托管部署。在 OlmOCRBench 上得分 85.20,独立标注者偏好率平均 72%。定价每 1000 页 $4,Batch API 享 50% 折扣。可通过 API 或 Mistral Studio 的 Document AI 调用。
Studio:构建、测试并运行 AI 智能体和应用。 Forge:训练、对齐并评估自定义 AI 模型。 Vibe:面向长周期任务的 AI 智能体。 Vibe for Code:终端、IDE 及后台环境中的编码智能体。 Compute:面向训练和推理的一流基础设施。
定价
方案 / API 定价 / 企业版
服务
交付方法论 / 模型定制
行业
金融服务 / 公共部门与政府 / 制造业
使用场景
使用场景概览 / 编码 / 文档智能 / 语音
最新模型
Mistral OCR 4 / Mistral Medium 3.5 / Mistral Small 4 / Voxtral TTS
查看全部模型
文档 / API 参考 / Cookbooks
最新文章
Introducing Mistral OCR 4 / AI Now Summit 2026 / Vibe gets to work.
阅读全部新闻
分类
产品 / 研究 / 工程 / 解决方案 / 公司
精选案例
ASML / CMA CGM / HSBC / BMW
查看全部
关于我们
关于我们 / 招聘 / 品牌
联系
社区 / 合作伙伴 / 帮助中心
产品 / 解决方案 / 研究 / 开发者 / 博客 / 客户 / 公司
定价
方案 / API 定价 / 企业版
服务
交付方法论 / 模型定制
行业
金融服务 / 公共部门与政府 / 制造业
使用场景
使用场景概览 / 编码 / 文档智能 / 语音
最新模型
查看全部模型
文档 / API 参考 / Cookbooks
最新文章
阅读全部新闻
分类
产品 / 研究 / 工程 / 解决方案 / 公司
精选案例
ASML / CMA CGM / HSBC / BMW
查看全部
关于我们
关于我们 / 招聘 / 品牌
联系
社区 / 合作伙伴 / 帮助中心
开始构建
Studio / Vibe / Vibe for Code
联系销售
研究 Introducing OCR 4
2026 年 6 月 23 日
作者:Mistral AI
返回博客 阅读时间:10 分钟
分享此文章
复制到剪贴板 已复制
标题
副标题
文本
图片
表格
今天,我们发布了 Mistral OCR 4,它在提取文本的同时,还支持边界框、区块分类以及内联置信度分数。该模型覆盖 10 个语系的 170 种语言,可在单个容器中运行以实现完全自托管部署,并能作为企业搜索、RAG 以及领域特定检索管道的输入组件使用。OCR 4 是一个小巧、聚焦的模型,本文介绍了它的新特性、在公开及内部基准上的表现、这些基准的已知局限,以及何时应使用模型 API 而非 Document AI 的指导建议。
视频 1
**亮点**
**突破性性能。** 独立标注员将 OCR 4 与所有领先的 OCR 和文档 AI 系统进行了对比测试,结果表明 OCR 4 更受青睐,平均胜率达 72%,同时在 OlmOCRBench 上取得了最高总分(85.20)。关于方法及已知评分限制,请参见下方的基准测试部分。
**分割,不止是文本。** 除了提取的文本之外,OCR 4 还会返回边界框、类型化的区块分类(标题、表格、公式、签名等)以及逐行置信度分数。边界框是我们最常被要求提供的功能,可实现文本在上下文中的高亮显示,并构建可靠的数据管线。同时,区块类型和置信度分数还能驱动基于来源的引用、内容编辑以及人工参与验证流程。
**与 Mistral 搜索工具包(公开预览版)集成。** OCR 4 是搜索工具包的一个输入组件。搜索工具包是 Mistral 推出的开源、可组合的搜索框架,在 AI Now 峰会上发布。其结构化输出为工具包在 RAG 和企业搜索场景下的输入、检索与评估工作流提供了可直接用于引用的输入内容。
**多语言覆盖。** 支持 10 个语系共 170 种语言,且在多种竞争系统性能下降的稀有语言和低资源语言上取得了可衡量的提升。
**部署在自有基础设施上。** OCR 4 足够轻量,可部署在单个容器中,使文档数据留在您的环境中以满足数据驻地、数据主权和合规性要求,同时支持高效、高吞吐量的批量处理。自管部署面向企业客户开放。
**概述**
Mistral OCR 4 可从多种文档中提取并结构化内容。前几代产品侧重于将页面转换为清晰的文本和表格,而 OCR 4 则返回文档的结构化表示。每个区块都通过边界框进行定位,按类型分类,并逐页、逐词生成行内置信度分数。因此,下游系统不仅能获取文档说了什么,还能知道每个元素在什么位置、扮演什么角色,以及模型对每个区域的置信度有多高。
这种结构支持多种下游工作负载: **语义分块(RAG)**:干净、分类清晰的文本块能成为更好的检索单元。 **用于 AI 智能体的结构原语**:AI 智能体从读取文档转向对文档执行操作(如填写表单、处理发票、合规性检查)。 **面向连接器的结构化内容**:为数据摄入和索引管道提供一致、类型化的输出。
OCR 4 支持常见的企业格式,包括 PDF、DOC、PPT 和 OpenDocument,并覆盖 10 个语系中的 170 种语言,其中包括许多系统处理不好的稀有语言和低资源语言。作为可在单个容器中部署的紧凑型模型,它既适合对成本敏感的场景,也适合高吞吐量部署。它可以完全自托管运行,使有数据主权要求的组织能够将文档数据保留在自己的基础设施内。
开发者通过 API 集成该模型,团队则可以在 Mistral Studio 中使用 Document AI,通过应用层面的无代码路径访问同一引擎。Mistral OCR 4(通过 API)的定价为 $4 per 1,000 pages,批量 API 可享受 50% 折扣,成本降至 $2 per 1,000 pages。Document AI 的定价为 $5 per 1,000 pages。
**基准测试**
> “我们将 Mistral OCR 4 与领先的智能体文档解析器进行了基准测试,使用的数据集是图表和图片密集的金融问答数据集,结果达到了同等精度,但成本降低约 8 倍,延迟降低约 17 倍。对于大规模生产用例,这种差异会迅速累积。” > > _— Aidan Donohue,Rogo 公司 AI 工程师_
为了评估 OCR 4,我们将其与领先的 AI 原生 OCR 模型、前沿通用模型、企业文档服务以及我们自己的 Mistral OCR 3 进行了比较。
**人类偏好评估**
自动基准测试存在上述评分伪影问题,因此我们通过一项面对面对比的人类评估来加以补充,评估所使用的文档均经过精心挑选,以反映真实使用场景。我们收集了 600 多份涵盖 12 种以上语言的文档,这些文档来自第三方供应商,能代表真实的行业用例,然后请独立标注员逐一将每个竞品的输出与 OCR 4 的输出进行盲评排名。在所有被测试的系统中,标注员在大部分文档上都更偏好 OCR 4。由于这些是基于真实文档的人类判断,而非与固定参考文本进行字符串比对,因此它们规避了影响自动评分的许多标注和格式噪声。
**整体表现**
> “Mistral OCR 每页的处理速度比我们现有的供应商快约 4 倍,对于大批量文档处理工作流而言,这是一个令人印象深刻的结果,因为速度对于管理客户的知识产权时间线至关重要。” > > —— Ivan Mihailov,AI 工程师,Anaqua
除了在我们的人工偏好评测中排名第一之外,OCR 4 在我们测试的模型中,在公开的 **OlmOCRBench(85.20)** 上取得了最高总分,并在我们内部的 **Crawl Multilingual 评测(.98)** 上领先,同时超越了 AI 原生方案和企业级解决方案。
在 **OmniDocBench** 上,OCR 4 取得了 **93.07** 的分数。我们在报告这一分数时附带一个说明:**OlmOCRBench** 和 **OmniDocBench** 在评估某些输出时均存在已知的局限性,单一的汇总数字既可能低估也可能高估实际性能。
当我们审核分数背后的不匹配项时,发现大多数并非模型错误,而是基准测试比较输出结果时产生的伪影。反复出现的类别有:
**真实标注错误。** 某些参考标注本身有误:遗漏或多余的文本、被遮盖区域的转录、或者拼写错误(例如,参考文献中某位作者的名字拼写错误,但模型从页面上正确读取了该名字)。输出与源文档一致,却被标记为错误。
**等效的数学符号。** 渲染后完全相同的不同 LaTeX 会被计为不匹配。渲染出的公式是正确的,但字符串比较却认为不匹配。
**公式分段。** 一个表达式是作为单个公式输出,还是拆分为多个内联片段,会影响匹配结果——即使渲染后的内容完全相同,因为匹配器无法对齐这些片段。
**多栏阅读顺序。** 跨栏边界分割的单词(例如 “certifi-cates”)以及栏序假设,会导致正确的提取被判定为阅读顺序错误。
**区块类型归属。** 基准测试预期输出中不包含页眉/页脚。为解决此问题,我们在评分前从输出中移除页眉页脚。但测试随后会检查某个恰好也是页面标题的字符串,而该标题实际应当保留,于是错误地标记为异常。
这些伪影主要集中在数学、科学类和多栏文档中,而且它们更多时候是惩罚正确的输出,而非奖励错误的输出。因此我们将汇总分数视为方向性指标,而非决定性结论。
我们报告这些数字是为了说明 OCR 4 的水平,并建议您在自己的文档上进行评估。
**性能详情**
**Crawl 多语言分解。** 在我们的内部多语言评估中,OCR 4 在所有八种语言组中均领先——英语、西欧、东欧、中东、中文、东亚、东南亚以及稀有语言(印地语、日语、格鲁吉亚语、孟加拉语、亚美尼亚语、希伯来语、希腊语、古吉拉特语、泰米尔语、马拉雅拉姆语、卡纳达语、泰卢固语)。差距在稀有语言和低资源语言上最为显著,许多竞品系统在这些语言上性能急剧下降,而 OCR 4 仍保持高准确率。
英语 西欧 东欧 中东 中文 东亚 东南亚 稀有语言
**推荐使用场景**
OCR 4 既支持大规模流水线处理,也支持交互式文档工作流,包括:
**文档解析与提取:**复杂多语言文档。
**检索增强生成(RAG):**经过结构化、分类并可直接引用的内容,用于语义分块和基于源的答案。结合 Search Toolkit,OCR 4 的输出可直接馈入检索流水线。
**智能体工作流:**为智能体提供结构原语,以完成表单填写、发票处理和合规检查等任务,尤其适用于法律、金融服务和医疗保健领域。
**利用置信度分数的高效人工验证结构化数据流水线:**表单/发票提取、编辑和合规驱动流程。
**企业搜索与知识库:**OCR 作为自定义摄取和实体提取的数据源组件。
早期用户正在利用 OCR 4 将发票转换为结构化字段、数字化公司档案、从技术和科学报告中提取干净文本,以及支持企业搜索。
**关于范围外使用的说明。** OCR 4 是一个文档理解模型,而非决策者。它**不**适用于医疗诊断、法律建议或判决、高风险金融决策、安全关键系统、实时/延迟敏感处理或非文档输入(原始音频、视频等)。
**OCR 4 API:了解您的选项**
Mistral 的 OCR 4 通过单一 API 端点提供。……