百度开源全新 Unlimited OCR 模型,采用参考滑动窗口注意力(R-SWA)技术。模型 3B 参数、500M 激活,在标准 32K 上下文下可一次前向推理处理数十页文档,无需切页。R-SWA 将原件与已写文字区分:原件全程保留,已写文字仅关注最近 128 个 token,使显存和算力不随页数增长,有别于传统 OCR 逐页清空拼接的方式。
原样抄写几十页的 PDF,几乎所有模型都做不到
一种全新参考滑动窗口注意力(R-SWA)技术
能让模型像人类抄书一样"连抄几十页",而不会造成其记忆混乱。
最新开源的 Unlimited OCR 模型:
可以模拟人类解析工作记忆的模式
3B大小 500M激活
但在标准 32K 上下文上
它可以一次前向推理能吞几十页文档,不用切页…
该模型由百度研发,据说是挖走DeepSeek OCR核心贡献者的新作
此前所有模型都无法通过一次前向推理完成数十页文档的解析。
因为传统 OCR 是一页一页跑,每跑完一页就清空记忆,最后再把各页结果拼起来
唯独人类可以连续的抄录数百页书籍而不停歇…
Unlimited OCR,就是模拟人类抄书过程,使用了一种叫参考滑动窗口注意力(R-SWA)的技术
模型干活的时候,眼前有两样东西:
一样是"原件"(要识别的文档图,加上你给的指令)
一样是"它自己已经写出来的字"
R-SWA 的规矩很简单,这两样区别对待: