# 如何从 PDF 构建金融知识图谱？

- 来源：meng shao (@shao__meng)
- 发布时间：2026-05-31 08:25
- AIHOT 分数：46
- AIHOT 链接：https://aihot.virxact.com/items/cmpt264wy06kxsluzvw34h8s9
- 原文链接：https://x.com/shao__meng/status/2060880354949611982

## AI 摘要

LandingAI 黑客松项目「ArthaNethra」展示了从 PDF 到金融知识图谱的流程：上传后通过 ADE 提取为结构化 Markdown，超过 15MB 的文档异步处理。提取后按文档类型路由归一化：发票/贷款/合同采用确定性解析（无 LLM）；10-K/MD&A 使用 Claude Haiku 结合正则。实体和关系分别存入 Weaviate 和 Neo4j（500 词分块，100 词重叠，all-mpnet-base-v2 向量化），图谱包含 10 类实体和 26 种规范关系，并通过别名映射进行同义词归一化。最后结合规则与 LLM 进行风险检测。

## 正文

如何从 PDF 构建金融知识图谱？

LandingAI 黑客松项目「ArthaNethra」，展示了从 PDF 到可查询、可溯源、可推理的知识图谱的完整流程：
上传 → ADE 提取 → 归一化 → 双库索引 → 风险检测

· Upload：文档进入 /api/v1/ingest，分配 ID、存储路径
· Extract：LandingAI ADE → 结构化 Markdown，>15MB 走异步任务 + 指数退避
· Normalize：按文档类型路由解析器，发票/贷款/合同：确定性解析，无 LLM；10-K/MD&A：Claude Haiku + 正则，必要时 Sonnet
· Index：实体入 Weaviate，关系入 Neo4j，500 词分块、100 词重叠；all-mpnet-base-v2 向量化
· Risk Detect：规则 + LLM 异常检测，4 条阈值规则 + 图模式异常扫描

知识图谱设计
10 类实体：Company、Subsidiary、Loan、Invoice、Metric、Clause、Instrument、Vendor、Person、Location

26 种规范关系，分四类：
· 金融：HAS_LOAN、FINANCED_BY、OWNS、GUARANTEES 等
· 运营：SUPPLIES_TO、PARTNERS_WITH 等
· 治理：REGULATED_BY、WORKS_FOR 等
· 交叉引用：MENTIONED_IN、REFERENCES 等

同义词归一化层：40+ 别名映射到 26 种规范类型（如 OWNER_OF / PARENT_COMPANY → OWNS），避免图谱碎片化。

每条实体/关系都带 citation 元数据（文档、页码、章节）

双库架构
· Weaviate：语义相似，「找关于 covenant 违约的文档」
· Neo4j：多跳遍历，「Company X 到 Vendor Y 经过哪些子公司和贷款的路径」

### 引用推文

> LandingAI：http://x.com/i/article/2060438013273108480
