精选理由
官方给出的 prompt cache 预热技巧,一行代码优化延迟,做长上下文 API 产品的开发者可以直接抄进流程里。
AI 摘要
减少API长提示首令牌生成时间的实用技巧:预热提示缓存。 在用户提示前发送系统提示。Claude会将其写入缓存,但跳过生成任何输出。 当真实用户请求到达时,将直接命中预热缓存。
AI 翻译 · 中文
在 API 中缩短较长提示词的首 token 延迟的一个实用技巧:预先预热提示词缓存。
在用户提示词之前先发送你的系统提示词。Claude 会将其写入缓存,但跳过生成任何输出。
当真实的用户请求到达时,它将命中一个已预热好的缓存。