PageIndex提出一种全新的RAG方法,摒弃了传统依赖向量数据库、嵌入模型、分块和相似度搜索的技术路线。它通过为文档构建树状索引,让LLM能够像人类阅读一样进行分层推理。该方法在FinanceBench基准测试中取得了98.7%的准确率,超越了所有传统向量RAG方案,并且完全开源。这标志着一个范式级的转变:从“检索优先”转向“推理优先”,核心思路是让LLM先理解整体文档结构再回答问题,而非仅仅优化检索速度。此举可能对过去三年构建的整个RAG基础设施产生颠覆性影响。
如今的AI疯狂的迭代和发展,但是回头看!
整个RAG行业过去三年疯狂卷向量数据库、嵌入模型、分块策略、相似度搜索……
结果今天被一个新方法直接宣告"结束":开始从新洗牌 !
就是今天刷到这个PageIndex: - 不用向量DB - 不用任何嵌入 - 不用chunking - 不用相似度搜索
它直接给文档建一棵树索引,让LLM像人类读书一样一层层推理下去。
FinanceBench上干到98.7%,把所有传统向量RAG全部甩在身后。
100%开源。
这不是一次小优化,这是RAG从"检索优先"到"推理优先"的范式级转变。
我们花了无数钱和精力去优化"怎么更快地找到信息", PageIndex却直接问:为什么不让LLM像人一样先把整本书读懂再回答?
当RAG终于开始"像人一样思考"的时候, 整个行业过去的所有基础设施,可能都要重新洗牌。
你觉得PageIndex会成为下一代RAG标配,还是只是特定场景的玩具?