Simon Willison 博客

在浏览器中提取PDF文本：LiteParse推出网页版

2026-04-24 05:54·70天前

AI 摘要

LlamaIndex开源项目LiteParse现已推出网页版，用户可直接在浏览器中上传PDF并提取文本，所有处理均在本地完成，无需上传服务器。该工具基于PDF.js和Tesseract.js，采用空间文本解析技术，能智能识别多列布局等复杂格式，并支持OCR和非OCR两种模式。作者在原Node.js CLI工具基础上，借助Claude AI辅助开发，成功将其迁移至浏览器环境。示例显示，一个86页的PDF文件可被快速解析，输出文本及包含位置、字体等元数据的JSON结果。

这是一则列表来源，站内未收录完整正文。

智能体大佬观点教程/实践编码

阅读完整原文导出 Markdown

Simon Willison 博客

64导出 Markdown