OpenDataLoader PDF是专为RAG管道设计的开源PDF解析器,在200份真实文档(含多栏、学术论文、财报)测试中综合基准得分0.907排名第一,GitHub 2.4万星。本地CPU运行,无需GPU,每页处理仅0.46秒,比Marker快116倍且准确率更高。支持表格、公式、图片、图表解析及OCR(80+语言),输出Markdown、JSON(含坐标边界框)、HTML。原生集成LangChain(pip install langchain-opendataloader-pdf)。采用Apache 2.0许可,可商用。
强烈推荐所有做 RAG 的人收着这个项目,这款 PDF 解析器比 Marker 快 116 倍,准确率更高,本地 CPU 就能跑还完全开源。
叫做OpenDataLoader PDF, 专为 RAG 管道打造的 PDF 解析器, 基准综合第一,得分 0.907,GitHub 2.4 万星🌟,
搭过 RAG 的朋友应该都懂那种绝望, PDF 进去之后,阅读顺序乱了,表格压成一行, 公式变成一堆符号,多栏排版全错位, 大模型再强也没用,毕竟进来的就是烂的,
几个我觉得做得比较扎实的地方:
1、200 份真实文档测出来的(含多栏/学术论文/财报)
2、本地 CPU 运行,不需要 GPU,每页只要 0.46 秒 3、表格/公式/图片/图表 + OCR 80+ 语言,扫描件直接能进
4、输出 Markdown / JSON(含坐标边界框)/ HTML,LangChain 原生集成
有个对比数据看了有点炸, Marker 跑一页 PDF 要 53.9 秒, OpenDataLoader 跑一页 0.46 秒, 快了 116 倍,综合准确率还比它高,