LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程:上传后通过 ADE 提取为结构化 Markdown,超过 15MB 的文档异步处理。提取后按文档类型路由归一化:发票/贷款/合同采用确定性解析(无 LLM);10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j(500 词分块,100 词重叠,all-mpnet-base-v2 向量化),图谱包含 10 类实体和 26 种规范关系,并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。
如何从 PDF 构建金融知识图谱?
LandingAI 黑客松项目「ArthaNethra」,展示了从 PDF 到可查询、可溯源、可推理的知识图谱的完整流程: 上传 → ADE 提取 → 归一化 → 双库索引 → 风险检测
· Upload:文档进入 /api/v1/ingest,分配 ID、存储路径 · Extract:LandingAI ADE → 结构化 Markdown,>15MB 走异步任务 + 指数退避 · Normalize:按文档类型路由解析器,发票/贷款/合同:确定性解析,无 LLM;10-K/MD&A:Claude Haiku + 正则,必要时 Sonnet · Index:实体入 Weaviate,关系入 Neo4j,500 词分块、100 词重叠;all-mpnet-base-v2 向量化 · Risk Detect:规则 + LLM 异常检测,4 条阈值规则 + 图模式异常扫描
知识图谱设计 10 类实体:Company、Subsidiary、Loan、Invoice、Metric、Clause、Instrument、Vendor、Person、Location
26 种规范关系,分四类: · 金融:HAS_LOAN、FINANCED_BY、OWNS、GUARANTEES 等 · 运营:SUPPLIES_TO、PARTNERS_WITH 等 · 治理:REGULATED_BY、WORKS_FOR 等 · 交叉引用:MENTIONED_IN、REFERENCES 等