Andrej Karpathy@karpathy

精选

2025-08-29 02:07·308天前

精选理由

Karpathy提出LLMification概念，将教科书重构为LLM训练数据的新范式

AI 摘要

教科书等知识载体应从人类可读格式转为LLM优化格式：提取正文为结构化markdown，例题转为SFT训练数据，练习题转为RL环境并附加答案作为评判标准，同时支持合成数据无限扩展（如将时钟角度问题泛化为任意时间的自动出题器），最终构建RAG或MCP服务供LLM像学生一样系统学习，远比简单PDF转文本更高效。

AI 翻译 · 中文

将人类知识、传感器和执行器从以人为本、人类可读的形式转变为以LLM为本、LLM可读的形式，是一个美丽且潜力巨大的领域，有着太多可以做的事情……

最近我痴迷的一个例子——对于每一本教科书PDF/EPUB，都有一个完美的“LLM化”版本，其目标读者不是人类，而是LLM（尽管这一转化并不简单，需要人类参与其中）。

所有说明性内容被提取到一个Markdown文档中，包括所有LaTeX、样式（粗体/斜体）、表格、列表等。所有图形被提取为图片。 - 所有已解答的例题被提取为SFT示例。任何对前文图形/表格等的引用都被解析并包含在内。 - 所有练习题被提取为RL的环境示例。正确答案位于答案附录中并附上。任何额外信息都被添加为潜在LLM评判者的“答案附录”。 - 合成数据扩展。对于每个具体问题，你可以创建一个无限问题生成器，它生成该类型的问题。例如，如果一个问题是“上午9点时，时针和分针之间的夹角是多少？”，你可以想象将其泛化到任意时间，并使用Python代码计算答案，还可能生成提示词文本的合成变体。 - 上述所有数据都可以被良好地索引并嵌入到RAG数据库中以便后续引用，或者通过MCP服务器使其可用。

那么，就像（人类）学生可以选修一门高中物理课程一样，LLM也可以以完全相同的方式学习它。对于LLM而言，这将是一种比简单的“PDF转文本”（当前主流做法）丰富得多的可读、可用的信息来源——后者只是让LLM逐token地从头到尾预测教科书内容（嗯——太逊了）。

作为上述示例的合成变体的一个快速且粗糙的例子，GPT-5给了我这个问题生成器（见图），它现在可以将该问题模板泛化为许多变体：

当时间为上午 11:07 时，指针之间的角度是多少度？（答案：68） - 确定上午 4:14 时钟表指针之间的角度（单位：度）。（答案：43） - 当时间为上午 11:47 时，时钟指针形成多大的角度？（答案：71） - 上午 7:02 时，时针和分针之间的角度是多少？（答案：161） - 上午 4:14 时，计算两根指针之间的角度。（答案：43） - 下午 4:45 时，时钟指针形成的角度是多少？（答案：127） - 下午 8:37 时，时针和分针之间的角度是多少？（答案：36）（可以无限生成练习题……）

检索增强大佬观点数据/训练

在 X 查看原推导出 Markdown

Andrej Karpathy@karpathy · X

精选导出 Markdown