Karpathy提出LLMification概念,将教科书重构为LLM训练数据的新范式
教科书等知识载体应从人类可读格式转为LLM优化格式:提取正文为结构化markdown,例题转为SFT训练数据,练习题转为RL环境并附加答案作为评判标准,同时支持合成数据无限扩展(如将时钟角度问题泛化为任意时间的自动出题器),最终构建RAG或MCP服务供LLM像学生一样系统学习,远比简单PDF转文本更高效。
将人类知识、传感器和执行器从以人为本、人类可读的形式转变为以LLM为本、LLM可读的形式,是一个美丽且潜力巨大的领域,有着太多可以做的事情……
最近我痴迷的一个例子——对于每一本教科书PDF/EPUB,都有一个完美的“LLM化”版本,其目标读者不是人类,而是LLM(尽管这一转化并不简单,需要人类参与其中)。
- 所有说明性内容被提取到一个Markdown文档中,包括所有LaTeX、样式(粗体/斜体)、表格、列表等。所有图形被提取为图片。 - 所有已解答的例题被提取为SFT示例。任何对前文图形/表格等的引用都被解析并包含在内。 - 所有练习题被提取为RL的环境示例。正确答案位于答案附录中并附上。任何额外信息都被添加为潜在LLM评判者的“答案附录”。 - 合成数据扩展。对于每个具体问题,你可以创建一个无限问题生成器,它生成该类型的问题。例如,如果一个问题是“上午9点时,时针和分针之间的夹角是多少?”,你可以想象将其泛化到任意时间,并使用Python代码计算答案,还可能生成提示词文本的合成变体。 - 上述所有数据都可以被良好地索引并嵌入到RAG数据库中以便后续引用,或者通过MCP服务器使其可用。
那么,就像(人类)学生可以选修一门高中物理课程一样,LLM也可以以完全相同的方式学习它。对于LLM而言,这将是一种比简单的“PDF转文本”(当前主流做法)丰富得多的可读、可用的信息来源——后者只是让LLM逐token地从头到尾预测教科书内容(嗯——太逊了)。
作为上述示例的合成变体的一个快速且粗糙的例子,GPT-5给了我这个问题生成器(见图),它现在可以将该问题模板泛化为许多变体:
- 当时间为上午 11:07 时,指针之间的角度是多少度?(答案:68) - 确定上午 4:14 时钟表指针之间的角度(单位:度)。(答案:43) - 当时间为上午 11:47 时,时钟指针形成多大的角度?(答案:71) - 上午 7:02 时,时针和分针之间的角度是多少?(答案:161) - 上午 4:14 时,计算两根指针之间的角度。(答案:43) - 下午 4:45 时,时钟指针形成的角度是多少?(答案:127) - 下午 8:37 时,时针和分针之间的角度是多少?(答案:36) (可以无限生成练习题……)