小互@xiaohu

2026-06-24 11:51·8天前

AI 摘要

百度开源全新 Unlimited OCR 模型，采用参考滑动窗口注意力（R-SWA）技术。模型 3B 参数、500M 激活，在标准 32K 上下文下可一次前向推理处理数十页文档，无需切页。R-SWA 将原件与已写文字区分：原件全程保留，已写文字仅关注最近 128 个 token，使显存和算力不随页数增长，有别于传统 OCR 逐页清空拼接的方式。

原样抄写几十页的 PDF，几乎所有模型都做不到

一种全新参考滑动窗口注意力（R-SWA）技术

能让模型像人类抄书一样"连抄几十页"，而不会造成其记忆混乱。

最新开源的 Unlimited OCR 模型：

可以模拟人类解析工作记忆的模式

3B大小 500M激活

但在标准 32K 上下文上

它可以一次前向推理能吞几十页文档，不用切页…

该模型由百度研发，据说是挖走DeepSeek OCR核心贡献者的新作

此前所有模型都无法通过一次前向推理完成数十页文档的解析。

因为传统 OCR 是一页一页跑，每跑完一页就清空记忆，最后再把各页结果拼起来

唯独人类可以连续的抄录数百页书籍而不停歇…

Unlimited OCR，就是模拟人类抄书过程，使用了一种叫参考滑动窗口注意力（R-SWA）的技术

模型干活的时候，眼前有两样东西：

一样是"原件"（要识别的文档图，加上你给的指令）

一样是"它自己已经写出来的字"

R-SWA 的规矩很简单，这两样区别对待：

原件，从头到尾一直完整看着，保证抄写位置不出错。

正在写的字，只看最近一小段（默认 128 个字），更早的就不管了，等于边写边忘。

好处是，它脑子里要记的东西，始终恒定那么多。不存在需要记的太多，脑子掉线的情况，所以不管文档多少页，显存和算力都不涨。

还能一直连续的的抄写文档…

多模态开源/仓库模型发布

在 X 查看原推导出 Markdown

小互@xiaohu · X

61导出 Markdown