Hacker News 热门（buzzing.cc 中文翻译）

Mistral OCR 4 发布

2026-06-23 23:24·8小时前·meetpateltech

AI 摘要

Mistral AI 于 6 月 23 日发布 OCR 4，除提取文本外还返回边界框、块分类（标题、表格、公式、签名等）和逐页/逐词置信度分数。支持 170 种语言、10 个语系，可单容器自托管部署。在 OlmOCRBench 上获 85.20 最高分，独立标注者偏好率达 72%。API 定价 $4/千页，Batch-API 五折后 $2/千页。可作为 Mistral Search Toolkit 的输入组件，为 RAG 和企业搜索提供结构化输出。

AI 翻译 · 中文

研究

发布

OCR 4

2026年6月23日

作者：Mistral AI

阅读时间 10 分钟

标题

副标题

正文

图像

表格

今天，我们发布了 Mistral OCR 4，该模型在提取文本的同时，还支持边界框、块分类和内联置信度分数。该模型支持 10 个语系的 170 种语言，运行于单个容器中，可用于完全自托管部署，并作为企业搜索、RAG 和领域特定检索管道的输入组件。OCR 4 是一个轻量、专注的模型，本文介绍了其新增功能、在公开和内部基准测试中的表现、这些基准测试的已知局限性，以及何时使用模型 API 与 Document AI 的指导建议。

亮点

突破性性能。独立标注员在测试中更偏爱 OCR 4，胜率高于所有领先的 OCR 和文档 AI 系统，平均胜率达 72%，同时在 OlmOCRBench 上取得最高总分（85.20）。基准测试方法和已知评分局限性详见下文。
分割，不仅仅是文本。除提取的文本外，OCR 4 还返回边界框、类型化块分类（标题、表格、公式、签名等）以及内联置信度分数。边界框是我们最常被要求的功能，可将文本定位以实现上下文高亮和可靠的数据管道。同时，块类型和置信度分数支持基于来源的引用、编辑和人工在环验证。
与 Mistral Search Toolkit 集成（公开预览）。OCR 4 是 Search Toolkit 的输入组件，Search Toolkit 是 Mistral 在 AI Now 峰会上发布的开源、可组合搜索框架。其结构化输出为工具包的 ingestion、检索和评估工作流提供可直接引用的输入，适用于 RAG 和企业搜索。
多语言覆盖。支持 10 个语系的 170 种语言，在稀有和低资源语言上取得了可衡量的进步，而多个竞争系统在这些语言上性能下降。
运行在自己的基础设施上。OCR 4 足够紧凑，可以部署在单个容器中，将文档数据保留在您的环境内以满足数据驻留、主权和合规性要求，同时支持高吞吐量、低成本的批量处理。企业客户可使用自托管部署。

概述

Mistral OCR 4 能够从各种文档中提取并结构化内容。与以往侧重于将页面转换为干净文本和表格的版本不同，OCR 4 返回文档的结构化表示。每个区块都用边界框定位、按类型分类，并逐页、逐词生成行内置信度分数。因此，下游系统不仅能够获取文档说了什么，还能知道每个元素的位置、扮演什么角色以及模型在每个区域有多高的置信度。

这种结构可支撑多种下游工作负载：

面向 RAG 的语义分块：干净、分类明确的区块成为更优质的检索单元。
面向智能体的结构化基元：智能体从读取文档转变为对文档执行操作（如填写表单、处理发票、合规检查）。
面向连接器的结构化内容：为摄入和索引管道提供一致、带类型标注的输出。

OCR 4 支持常见的企业格式，包括 PDF、DOC、PPT 和 OpenDocument，并覆盖 10 个语系的 170 种语言，其中包括许多系统处理不佳的稀有和低资源语言。作为可部署在单个容器中的紧凑模型，它既适合对成本敏感的场景，也适合高吞吐量部署。它能够完全自托管，使得有数据主权需求的组织可以将文档数据保留在自己的基础设施内。

开发者通过 API 集成模型，团队也可在 Mistral Studio 中使用 Document AI，通过应用级、无需编码的方式访问同一引擎。通过 API 使用的 Mistral OCR 4 定价为每 1,000 页 4 美元，Batch API 可享受 50% 折扣，成本降至每 1,000 页 2 美元。Document AI 定价为每 1,000 页 5 美元。

基准测试

Rogo 的 AI 工程师 Aidan Donohue 表示：“我们在一组图表和图形密集的金融问答数据集上，将 Mistral OCR 4 与领先的智能文档解析器进行了对比评测，结果表明，在达到同等精度的同时，成本降低了约 8 倍，延迟降低了 17 倍。对于大规模的生产用例而言，这种差距会迅速累积。”

为了评估 OCR 4，我们将其与领先的 AI 原生 OCR 模型、前沿通用模型、企业级文档服务，以及我们自己的 Mistral OCR 3 进行了比较。

人工偏好评估

自动化基准测试存在上文所述的评分人工偏差，因此我们采用基于真实用户场景选取的文档，进行了面对面的主观评估作为补充。我们从第三方供应商处收集了 600 多份涵盖 12 种以上语言的文档，以代表真实的行业用例，并邀请了独立的标注员，逐份文档对每个竞争对手的输出结果与 OCR 4 进行盲评对比。

在所有测试的系统中，标注员对 OCR 4 在大多数文档上的表现更为青睐。由于这些是基于真实文档的人工判断，而非与固定参考文本进行的字符串比对，因此它们规避了影响自动化评分的许多标注和格式噪声。

整体性能

Anaqua 的 AI 工程师 Ivan Mihailov 表示：“Mistral OCR 每页的处理速度大约是我们现有供应商的 4 倍，这对于处理大量案卷工作流的场景来说是一个非常出色的成果，因为速度对于管理我们客户的 IP 时间线至关重要。”

除了在我们的主观评价中排名第一外，OCR 4 在我们测试的模型中，于公开的 OlmOCRBench 基准上取得了最高总分（85.20），并在我们的内部评测基准 Crawl Multilingual 上（得分为 .98）领先于其他 AI 原生和企业级解决方案。

在 OmniDocBench 基准上，OCR 4 获得了 93.07 的分数。我们在此附带一个说明：OlmOCRBench 和 OmniDocBench 在如何评判某些输出方面都存在已知的局限性，单一的汇总分数可能低估或高估其真实世界的表现。

当我们审计分数背后不匹配的情况时，发现大多数并非模型错误，而是基准测试在比较输出时产生的人工痕迹。反复出现的类别包括：

真实标注错误。部分参考标注本身就有误：存在缺失或多余的文本、对脱敏区域的转录、或拼写错误（例如，参考文献中某个被引作者的姓名拼写错误，但模型从页面中正确读取了该姓名）。模型输出与源文档匹配，却仍被判错。
等效数学符号。不同但渲染结果相同的 LaTeX 被判定为不匹配。渲染后的公式是正确的，但字符串比较却未能识别。
公式分段。一个表达式是作为一个整体输出还是拆分成多个内联片段，会影响匹配结果，即使渲染后的内容完全相同，因为匹配器无法对齐这些片段。
多栏阅读顺序。跨栏分割的单词（例如 "certifi-cates"）以及阅读顺序假设，会导致正确的提取结果被判定为阅读顺序错误。
区块类型归属。该基准测试预期输出中不包含页眉/页脚。为解决此问题，我们在评分前从输出中去除页眉/页脚。但测试随后会检查某个同样也是页面标题的字符串——该字符串本应出现在输出中——从而错误地将其标记为错误。

这些伪影主要集中在数学、科学和多栏文档中，并且它们更多时候是惩罚正确输出，而非奖励错误输出。因此，我们将综合得分视为方向性指标，而非决定性结论。

我们报告这些数字是为了说明 OCR 4 当前所处水平，并建议在您自己的文档上进行评估。

性能详情

多语言爬取细分。在我们内部的多语言评估中，OCR 4 在所有八个语言组中均领先——英语、西欧语、东欧语、中东语、中文、东亚语、东南亚语以及稀有语言（印地语、日语、格鲁吉亚语、孟加拉语、亚美尼亚语、希伯来语、希腊语、古吉拉特语、泰米尔语、马拉雅拉姆语、卡纳达语、泰卢固语）。差距在稀有语言和低资源语言上最为显著，许多竞品系统在这些语言上性能急剧下降，而 OCR 4 保持高准确率。

OCR 4

Premier

全球最优秀的文档提取与理解模型。

OCR

多模态

文本到文本

OCR

$4 / 1000 页

Batch-API

$2 / 1000 页

Document AI

$5 / 1000 页

生产环境中的 OCR。

了解 OCR4 版本的新功能，以及如何在工作流和搜索工具中使用它们来实现生产级索引。

立即注册

多模态模型发布部署/工程

阅读原文

Hacker News 热门（buzzing.cc 中文翻译）

Mistral OCR 4 发布

2026-06-23 23:24·8小时前·meetpateltech

AI 摘要

AI 翻译 · 中文

研究

发布

OCR 4

2026年6月23日

作者：Mistral AI

阅读时间 10 分钟

标题

副标题

正文

图像

表格

亮点

突破性性能。独立标注员在测试中更偏爱 OCR 4，胜率高于所有领先的 OCR 和文档 AI 系统，平均胜率达 72%，同时在 OlmOCRBench 上取得最高总分（85.20）。基准测试方法和已知评分局限性详见下文。
分割，不仅仅是文本。除提取的文本外，OCR 4 还返回边界框、类型化块分类（标题、表格、公式、签名等）以及内联置信度分数。边界框是我们最常被要求的功能，可将文本定位以实现上下文高亮和可靠的数据管道。同时，块类型和置信度分数支持基于来源的引用、编辑和人工在环验证。
与 Mistral Search Toolkit 集成（公开预览）。OCR 4 是 Search Toolkit 的输入组件，Search Toolkit 是 Mistral 在 AI Now 峰会上发布的开源、可组合搜索框架。其结构化输出为工具包的 ingestion、检索和评估工作流提供可直接引用的输入，适用于 RAG 和企业搜索。
多语言覆盖。支持 10 个语系的 170 种语言，在稀有和低资源语言上取得了可衡量的进步，而多个竞争系统在这些语言上性能下降。
运行在自己的基础设施上。OCR 4 足够紧凑，可以部署在单个容器中，将文档数据保留在您的环境内以满足数据驻留、主权和合规性要求，同时支持高吞吐量、低成本的批量处理。企业客户可使用自托管部署。

概述

这种结构可支撑多种下游工作负载：

面向 RAG 的语义分块：干净、分类明确的区块成为更优质的检索单元。
面向智能体的结构化基元：智能体从读取文档转变为对文档执行操作（如填写表单、处理发票、合规检查）。
面向连接器的结构化内容：为摄入和索引管道提供一致、带类型标注的输出。

基准测试

Rogo 的 AI 工程师 Aidan Donohue 表示：“我们在一组图表和图形密集的金融问答数据集上，将 Mistral OCR 4 与领先的智能文档解析器进行了对比评测，结果表明，在达到同等精度的同时，成本降低了约 8 倍，延迟降低了 17 倍。对于大规模的生产用例而言，这种差距会迅速累积。”

为了评估 OCR 4，我们将其与领先的 AI 原生 OCR 模型、前沿通用模型、企业级文档服务，以及我们自己的 Mistral OCR 3 进行了比较。

人工偏好评估

整体性能

Anaqua 的 AI 工程师 Ivan Mihailov 表示：“Mistral OCR 每页的处理速度大约是我们现有供应商的 4 倍，这对于处理大量案卷工作流的场景来说是一个非常出色的成果，因为速度对于管理我们客户的 IP 时间线至关重要。”

当我们审计分数背后不匹配的情况时，发现大多数并非模型错误，而是基准测试在比较输出时产生的人工痕迹。反复出现的类别包括：

真实标注错误。部分参考标注本身就有误：存在缺失或多余的文本、对脱敏区域的转录、或拼写错误（例如，参考文献中某个被引作者的姓名拼写错误，但模型从页面中正确读取了该姓名）。模型输出与源文档匹配，却仍被判错。
等效数学符号。不同但渲染结果相同的 LaTeX 被判定为不匹配。渲染后的公式是正确的，但字符串比较却未能识别。
公式分段。一个表达式是作为一个整体输出还是拆分成多个内联片段，会影响匹配结果，即使渲染后的内容完全相同，因为匹配器无法对齐这些片段。
多栏阅读顺序。跨栏分割的单词（例如 "certifi-cates"）以及阅读顺序假设，会导致正确的提取结果被判定为阅读顺序错误。
区块类型归属。该基准测试预期输出中不包含页眉/页脚。为解决此问题，我们在评分前从输出中去除页眉/页脚。但测试随后会检查某个同样也是页面标题的字符串——该字符串本应出现在输出中——从而错误地将其标记为错误。

我们报告这些数字是为了说明 OCR 4 当前所处水平，并建议在您自己的文档上进行评估。