# 百度开源Unlimited-OCR：可一次性处理数百页文档

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-23 00:24
- AIHOT 分数：66
- AIHOT 链接：https://aihot.virxact.com/items/cmqph4lub00ldslp50d26k28m
- 原文链接：https://x.com/berryxia/status/2069094144153464907

## AI 摘要

百度PaddlePaddle在HuggingFace发布Unlimited-OCR，核心创新R-SWA（Reference Sliding Window Attention）使解码时KV Cache保持恒定，避免随页数爆炸。该模型可一次性处理数百页文档，速度和稳定性优于逐页处理。在OmniDocBench上得分93%，比DeepSeek-OCR高出6个百分点。这使长文档OCR从“分块+拼接”变为端到端一镜到底，直接理解整篇文档结构与布局。

## 正文

这速度真特么离谱啊！卧槽！

最新开源的Unlimited-OCR能一次性处理几百页文档，而且速度还很稳。

而这个模型来自百度刚刚在hugging face 发布，其核心创新是R-SWA（Reference Sliding Window Attention）。

它让模型在解码时KV Cache保持恒定，不会随着文档页数增加而爆炸式增长。

结果就是：一张图或者一本多页PDF，直接扔进去就能一次性解析完，速度和稳定性都比传统逐页处理的方式好很多。

在OmniDocBench上拿到了93分，比DeepSeek-OCR高出6个百分点。

这已经不是简单的准确率提升，而是把长文档OCR的工作流从"分块+外部调度器拼接"变成了真正的端到端一镜到底。

以前做多页文档最头疼的就是上下文断裂和格式不一致，现在模型能一次性看到整篇文档的结构、布局和逻辑关系，输出质量自然上了一个台阶。

这其实是把OCR从"认字工具"往"长文档理解引擎"又往前推了一大步。

技术路线很清晰，也很实用。
果然百度现在OCR独树一帜，遥遥领先了。

模型地址见评论区~ 👇

### 引用推文

> Adina Yakup：Unlimited-OCR 🔥New OCR from @PaddlePaddle It can parse hundreds of pages in a single pass while maintaining stable speed. The key idea is R-SWA (Reference Slid...