AYi@AYi_AInotes

2026-05-24 21:11·39天前

AI 摘要

作者发现直接使用PDF文档喂给AI存在严重问题。AI处理PDF时并非进行“阅读”，而是在执行字符坐标识别、结构猜测等复杂任务，这不仅消耗更多Token，还容易导致数据错乱（如数字位置被调换）。相比之下，Markdown具有清晰的结构化标记，能直接被模型高效理解。经过咨询Claude和Grok，确认在大量RAG工程实践中，将PDF转换为Markdown再输入是标准流程。因此，建议对技术文档等非视觉主导内容，优先以Markdown格式创建，现有PDF可借助markitdown、LlamaParse等工具进行转换。

http://x.com/i/article/2058505118186635264

我用了三年 PDF 喂AI，昨天才发现自己一直在干一件特别蠢的事

PDF 不是 AI 的母语，这句话我第一次看到的时候，直接愣了三秒。我一直觉得，喂 AI 文档这事 PDF 是默认最优解，排版精准、跨平台稳定、连律师签合同都用它，AI 既然号称什么都能读，PDF 当然也没问题。

结果我错了，而且错得相当离谱。

从 2023 年开始玩AI到现在也三年了，我自己电脑里躺着几百份 PDF 文档。

说实话，每次扔给 AI 总有那么几次得到的回答让我想砸键盘，漏段落、串数据、还能编造原文里压根不存在的句子。

最离谱的一次，是上个月，我让 Claude 帮我读一份产品调研报告，PDF 三十几页，里面有一组用户留存数据「7 日留存 38%、30 日留存 19%」。

Claude 给我返回的总结里，这两个数字直接被换了位置，38% 写成了 19%，19% 写成了 38%。

我盯着那段回答看了好几分钟，喵的差点把它发给老板。

那一刻我以为是模型抽风，直到昨天才反应过来，是我一直在用错的方式喂它。

一、你以为 PDF 是最优解，其实它是二手翻译

事情是这样，最近好几个粉丝私信我同一个问题，为什么 AI 读他们的 PDF 总是出错，是模型不够新吗，要不要升级到 Pro。

我本来想糊弄过去，让他们换个 Claude 试试。

但话到嘴边停住了，因为我自己也踩过一模一样的坑。

那种感觉你应该熟悉，你花二十分钟把一份几十页的产品文档传上去，让 AI 总结核心要点，它给你一段看起来很正经的回答，你一开始还挺满意，结果回头核对原文，发现关键的那个数据，它写错了。

不是漏掉，是写错。

我跑去问 Grok 和 Claude，问的就一个问题，PDF 和 Markdown 到底哪个更适合喂给你？

两个模型的答案出奇一致：Markdown。

更让我没想到的是 Claude 接着说的一句话--

大量 RAG 工程实践的标准流程，是先把 PDF 转成 Markdown 再喂给模型。

啥意思呢，就是真正做 AI 应用的那帮专业团队，他们自己都不直接用 PDF 喂模型，他们先转一道，转成 MD 再说。

对，你没看错。

这不是因为他们闲，是因为剥开来看，PDF 在 AI 眼里本来就不是一份"文档"，它是一张图加一堆坐标加一些字符，AI 得先把这堆东西重新拼回成"句子"才能开始读。

这一拼，损耗就来了。

打个比方，Markdown 就像别人直接把演讲稿递到你手里，每一个字都清清楚楚，PDF 呢，就像让一个同声传译先听一遍演讲、再凭记忆复述给你，他业务再熟练，也总会漏掉点什么。

我之前那个 38% 和 19% 被换位的故事，本质就是 AI 在"复述"的时候记混了数字。

差别就这么大。

二、AI 读 PDF 的时候，干的根本不是"读"这件事

AYi@AYi_AInotes · X

62导出 Markdown