Berryxia.AI@berryxia

2026-06-23 08:01·10天前

AI 摘要

百度在 HuggingFace 开源 Unlimited-OCR 模型，核心创新 R-SWA 使解码时 KV Cache 恒定，不随页数增长。模型不逐页处理，一次前向推理即可转录多页 PDF，32K 上下文覆盖几十页。在 OmniDocBench 上获 93 分，比 DeepSeek-OCR 高 6 个百分点。技术报告致谢栏将 DeepSeek-OCR 排首位，暗示架构继承；同期 DeepSeek-V4 报告末 10 人标注“已离职”。模型已开源。

卧槽，这一波直接把DeepSeek的"墙角挖到了啊"！

昨晚看到HuggingFace刷到这个有意思的OCR开源模型和原来背后有趣的故事。

这个OCR模型直接与传统的OCR模型完全不同！光着速度和精准度真的就无敌了~~

先说说背景，熟悉的朋友都知道，我最近做过几次OCR评测（可以翻阅我的前面文章），测过18个文档、6类场景，搭过本地工作流。对OCR的能力边界，算是有点体感。

之前评测最头疼的并不是准确率，是多页文档的工作流。所有模型都是逐页处理。

每一页清空一次记忆，再用外部调度器拼接结果。本质上是个for-loop （循环），并不是真正的长程理解。

而百度这次开源的Unlimited OCR，解法完全不同。它不逐页处理。

一次前向推理，几十页文档直接转录完。

核心卖点就一句话：One-Shot Long-Horizon Parsing（单次长时解析），也就是说句话说：无需大规模标注数据，低成本实现长文本深度句法理解，适配大语言模型少样本能力。

一张图或者一本多页PDF，直接扔进去就能一次性解析完，不用再切成小块反复跑。这特么是真的爽啊！

据说这个模型灵感来源很有意思，人类抄书的时候，不会把整本书都记在脑子里。

只关注三个点：原文、刚写完的几个字、下一个要写的字。较早的内容自然淡出。近期的上下文用来追踪进度。这种日常行为揭示了一种与当前模型截然不同的注意力模式。

Unlimited OCR的核心机制R-SWA，参考滑动窗口注意力，就是模拟这个过程。

每个token能看到完整图像。但输出端只维护前面128个状态。32K上下文，一次推理几十页。KV Cache大小恒定，不随文档长度增长。

这其实是把OCR从认字工具往文档理解引擎又推进了一步。以前大家觉得长文档处理必须分块。

现在越来越清楚：只要上下文够长、模型够强，一镜到底反而更高效、更准确。

技术报告的写法也很有意思，故事性极强，想法激进。有种探索者的气质，这种风格此前都是DeepSeek技术报告的专属标签。

然后事情就开始变得有趣了。

翻了下技术报告的核心贡献者。三位中，两个人用真名。唯独技术总监挂了个两字母缩写YY。YY是谁？

顺着线索往回找下看看？

GitHub致谢栏把DeepSeek-OCR和DeepSeek-OCR-2排在了前两位。 DeepEncoder最初就是在DeepSeek OCR中被引入的。

这次Unlimited OCR恰恰完美融合了这一高压缩率编码器。

里面提及DeepSeek OCR的部分，语气不像在对标竞品。更像在对自己之前的研究展开反思和优化。

国内OCR圈也不算太大哈。能做出R-SWA这种级别突破、还对DeepSeek OCR架构有亲手做过级别熟悉的人，一只手数得过来。

我们再看看另一外个细节哈。

2026年4月24日，DeepSeek-V4正式发布。58页技术报告末尾，近300个名字按字母顺序排列。

其中有10个名字旁边标注了一个小小的星号：已离职。从2025年下半年到2026年初，不到半年，DeepSeek走了五个人。

Berryxia.AI@berryxia · X

73导出 Markdown