百度开源 Unlimited-OCR,R-SWA 实现单次多页 PDF 解析 · AI HOT
Berryxia.AI@berryxia73
2026-06-23 08:01·10天前
AI 摘要百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。
Berryxia.AI@berryxia · X2026-06-23 08:01·10天前
在 X 看原推· x.comAI 摘要百度在 HuggingFace 开源 Unlimited-OCR 模型,核心创新 R-SWA 使解码时 KV Cache 恒定,不随页数增长。模型不逐页处理,一次前向推理即可转录多页 PDF,32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分,比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位,暗示架构继承;同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。
他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。
也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊!
从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。
这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。
不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。
项目、模型都是开源,感兴趣的自己试试地址评论区👇🏻。
Berryxia.AI这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window Attention)。 它让模型在解码时KV Cache保持恒定,不会随着文档页数增...
据说这个模型灵感来源很有意思,人类抄书的时候,不会把整本书都记在脑子里。
只关注三个点:原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。
近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。
Unlimited OCR的核心机制R-SWA,参考滑动窗口注意力,就是模拟这个过程。
每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文,一次推理几十页。KV Cache大小恒定,不随文档长度增长。
这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。
现在越来越清楚:只要上下文够长、模型够强,一镜到底反而更高效、更准确。
技术报告的写法也很有意思,故事性极强,想法激进。
有种探索者的气质,这种风格此前都是DeepSeek技术报告的专属标签。
翻了下技术报告的核心贡献者。
三位中,两个人用真名。
唯独技术总监挂了个两字母缩写YY。YY是谁?
GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。
DeepEncoder最初就是在DeepSeek OCR中被引入的。
这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。
里面提及DeepSeek OCR的部分,语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。
国内OCR圈也不算太大哈。
能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人,一只手数得过来。
2026年4月24日,DeepSeek-V4正式发布。58页技术报告末尾,近300个名字按字母顺序排列。
其中有10个名字旁边标注了一个小小的星号:已离职。
从2025年下半年到2026年初,不到半年,DeepSeek走了五个人。
他们去了哪。YY是谁。报告没直说,但越读越觉得答案在字里行间。
也明显看出来百度走最近的路子确实不一样了,你可要知道一直最强的OCR 莫属于他们啊,几乎没有什么对手啊!
从PaddleOCR到这次的Unlimited OCR,能感觉到在往一个更前沿的方向走。
这更新迭代速度,这人才储备的能力,以及发展方向,未来可期。
不管八卦,单论技术。一镜到底的长文档OCR这个方向确实是对的。
项目、模型都是开源,感兴趣的自己试试地址评论区👇🏻。
Berryxia.AI这速度真特么离谱啊!卧槽! 最新开源的Unlimited-OCR能一次性处理几百页文档,而且速度还很稳。 而这个模型来自百度刚刚在hugging face 发布,其核心创新是R-SWA(Reference Sliding Window Attention)。 它让模型在解码时KV Cache保持恒定,不会随着文档页数增...