# Anthropic工程师在Code with Claude分享提示词工程实战手册

- 来源：Berryxia.AI (@berryxia)
- 发布时间：2026-06-29 22:49
- AIHOT 分数：61
- AIHOT 链接：https://aihot.virxact.com/items/cmqzdby9m00oasltjbhtsgg3j
- 原文链接：https://x.com/berryxia/status/2071607081984266584

## AI 摘要

Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点：维护已有提示词比从零写更常见，最佳起点是评估（Eval）而非直接改提示词。两个场景：客服机器人需用XML标签结构化，移除旧模型冗余指令，为精确计算提供工具；零售排班Agent应拆分成生成-评估-修复循环，使用更强推理模型（Opus）+自适应思考。强调评估是判断改动有效性的唯一严谨方式。

## 正文

睡前来一发，这个视频还是挺完美的。

Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。

核心观点是：我们很少从零写提示词，大部分时间都在调试和维护已有的生产提示词。

最好的起点永远是评估（Eval），而不是直接改提示词。

她用两个真实场景演示了最佳实践：

1. 维护已有提示词**（客服机器人）

- 先做通用清理：用XML标签结构化（角色/政策/语气/指南分开）、移除冗余补丁、明确输出格式。

- 常见陷阱：以前为旧模型加的"禁止列表"指令，在新模型上会过度拟合，导致模型隐瞒它其实能提供的信息。

- 当模型需要做精确计算时，指令没用，要给它工具。

- 升级/转人工的决策，要把代价和收益两面都说清楚，否则模型会过度优化某一边。

2. 从零构建新Agent（零售排班）

- 单一复杂提示词容易失败。

- 更好的方式是拆成生成-评估-修复循环，让三个简单提示词各司其职。

- 模型选择很重要：更强的推理模型（Opus）+ 自适应思考，往往比小模型+复杂提示词更高效。

她反复强调：评估是唯一能告诉你改动是否真正有效的严谨方式。

没有评估，就只是在碰运气。