# OpenDataLoader PDF：开源RAG PDF解析器，比Marker快116倍

- 来源：AYi (@AYi_AInotes)
- 发布时间：2026-06-14 10:53
- AIHOT 分数：63
- AIHOT 链接：https://aihot.virxact.com/items/cmqd8sais05q7sltt1ckk5hc8
- 原文链接：https://x.com/AYi_AInotes/status/2065990967618933026

## AI 摘要

OpenDataLoader PDF是专为RAG管道设计的开源PDF解析器，在200份真实文档（含多栏、学术论文、财报）测试中综合基准得分0.907排名第一，GitHub 2.4万星。本地CPU运行，无需GPU，每页处理仅0.46秒，比Marker快116倍且准确率更高。支持表格、公式、图片、图表解析及OCR（80+语言），输出Markdown、JSON（含坐标边界框）、HTML。原生集成LangChain（`pip install langchain-opendataloader-pdf`）。采用Apache 2.0许可，可商用。

## 正文

强烈推荐所有做 RAG 的人收着这个项目，这款 PDF 解析器比 Marker 快 116 倍，准确率更高，本地 CPU 就能跑还完全开源。

叫做OpenDataLoader PDF，
专为 RAG 管道打造的 PDF 解析器， 基准综合第一，得分 0.907，GitHub 2.4 万星🌟，

搭过 RAG 的朋友应该都懂那种绝望，
PDF 进去之后，阅读顺序乱了，表格压成一行， 公式变成一堆符号，多栏排版全错位， 大模型再强也没用，毕竟进来的就是烂的，

几个我觉得做得比较扎实的地方：

1、200 份真实文档测出来的（含多栏/学术论文/财报）

2、本地 CPU 运行，不需要 GPU，每页只要 0.46 秒 3、表格/公式/图片/图表 + OCR 80+ 语言，扫描件直接能进

4、输出 Markdown / JSON（含坐标边界框）/ HTML，LangChain 原生集成

有个对比数据看了有点炸，
Marker 跑一页 PDF 要 53.9 秒， OpenDataLoader 跑一页 0.46 秒，
快了 116 倍，综合准确率还比它高，

常规页面本地规则高效搞定， 遇到极度复杂的特殊页面才交 AI 增强， 不是脑子一热全交大模型烧钱那种，

Apache 2.0，商用完全没顾虑，
支持知识库入库/文档问答/论文解析/合同分析， 在RAG 管道里这一环，终于有人做得比较扎实了，

LangChain 原生集成：pip install langchain-opendataloader-pdf

GitHub 🔗评论区一楼见⬇️

### 引用推文

> AYi：Claude Code、OpenClaw、Hermes、Codex,一个比一个能干, 但 2026 年了,这批最先进的 Agent 还集体卡在同一件小事上: 上不了网,查推特要付费 API,读小红书卡登录,上 Reddit 动不动被封 IP。 一个叫 Agent Reach 的开源项目,把这三堵墙一起拆了, 26.4k...
