# LLM端到端延迟中预填充与解码占比分析

- 来源：SemiAnalysis (@SemiAnalysis_)
- 发布时间：2026-05-27 07:00
- AIHOT 分数：58
- AIHOT 链接：https://aihot.virxact.com/items/cmpn8wash0vh5sl018oc335kn
- 原文链接：https://x.com/SemiAnalysis_/status/2059409408635892017

## AI 摘要

PDOOM警报🚨：约48%的端到端LLM延迟是预填充，约52%是解码。预填充本身分为两个操作：
🟠 预填充扩展（缓存写入）——摄入新上下文/文件，写入新的KV token
🟠 缓存读取——重用先前轮次的现有KV缓存

## 正文

PDOOM ALERT 🚨 ： ~48% of e2e LLM latency is prefill， ~52% is decode. Prefill itself breaks into 2 ops：

🟠 Prefill extend （cache write） - ingests new context/files， writes fresh KV tokens
🟠 Cache read - reuses existing KV cache from prior turns
