2026年6月23日,Mistral AI发布非开源模型Mistral OCR 4,支持170种语言。核心能力包括为每个识别结果生成边界框、自动分类文本块(标题/正文/表格/页眉页脚)、附带置信度评分。定价$4/1000页。该模型不走长文档理解路线,而是提供结构化输出,使OCR从认字工具进化为文档理解引擎,下游开发者无需再做版面分析。
刚刚,Mistral发布OCR 4!(非开源模型) 170种语言,自带置信度评分,OCR赛道又开始卷了啊!
2026年6月23日,Mistral AI发布了Mistral OCR 4。
这家以大语言模型闻名的法国公司,突然杀进了OCR领域。
Mistral OCR 4的核心能力不是简单的文字识别。
它为每个识别结果生成边界框,精确标注文字在页面上的位置。
它对每个文本块进行自动分类:标题、正文、表格、页眉页脚。
它为每个识别结果附带置信度评分,告诉你这个字它有多确定。
支持170种语言。
这件事的背景是,过去三个月OCR赛道经历了一场密集的技术迭代。
百度刚刚开源了Unlimited OCR,用R-SWA机制实现了一次推理处理几十页文档。
Now Mistral带着完全不同的思路入场,不是做长文档理解,而是做结构化输出。
两种路线指向同一个方向:OCR正在从"认字工具"进化为"文档理解引擎"。
以前OCR输出的是纯文本。 现在输出的是带位置、带类型、带置信度的结构化数据。
对开发者来说,这意味着下游任务不需要再自己做版面分析。OCR直接给你答案。