Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点:生产提示词大多时间在调试维护,最好起点是评估而非直接修改。维护客服机器人提示词时,需用XML标签结构化,移除冗余补丁,明确输出格式;避免旧模型“禁止列表”指令在新模型上过度拟合;精确计算应赋予工具;升级决策需说明代价与收益。从零构建零售排班Agent,应拆分为生成-评估-修复循环,三个简单提示词各司其职;更强推理模型+自适应思考更高效。评估是唯一验证改动的严谨方式。
睡前来一发,这个视频还是挺完美的。
Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。
核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。
最好的起点永远是评估(Eval),而不是直接改提示词。
她用两个真实场景演示了最佳实践:
- 维护已有提示词(客服机器人)
- 先做通用清理:用XML标签结构化(角色/政策/语气/指南分开)、移除冗余补丁、明确输出格式。
- 常见陷阱:以前为旧模型加的"禁止列表"指令,在新模型上会过度拟合,导致模型隐瞒它其实能提供的信息。
- 当模型需要做精确计算时,指令没用,要给它工具。
- 升级/转人工的决策,要把代价和收益两面都说清楚,否则模型会过度优化某一边。
- 从零构建新Agent(零售排班)