Margot Van Laar把提示词维护讲到了工程级别,评估驱动迭代、清理旧指令、拆分任务循环,这些方法比死记prompt模板重要得多,做AI应用的人都该看一遍。
An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战,核心观点:大部分时间在调试和维护已有生产提示词而非从零编写。两个场景:客服机器人维护中,用XML标签结构化清理,移除旧模型遗留的“禁止列表”指令(新模型会过度拟合),精确计算应调用工具,转人工决策需明确代价与收益;零售排班Agent从零构建时,拆成生成-评估-修复三个简单提示词更稳定,选用更强推理模型(Opus)。她反复强调:评估(Eval)是唯一严谨方式,没有评估就是碰运气。
Margot Van Laar是Anthropic应用AI团队的工程师。
她在Code with Claude大会上做了一场关于提示词工程实战的分享。
核心观点只有一个:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。
她用两个真实场景演示了这件事。
第一个场景是客服机器人的维护。
团队接手了一个已经在跑的提示词,第一步不是改内容,而是做结构化清理--用XML标签把角色、政策、语气、指南分开,移除冗余补丁,明确输出格式。
然后她发现了一个经典陷阱。
团队之前为旧模型加了一条"禁止列表"指令,告诉模型不要提供某些信息。
换到新模型后,这条指令导致模型过度拟合--它开始隐瞒自己其实能提供的信息。
旧模型需要这条指令是因为能力不够,新模型不需要了,但指令还在。
另一个发现是:当模型需要做精确计算时,提示词里的"请仔细计算"没有用。
要给它工具。让模型调用计算器,比让它在脑子里算靠谱得多。
升级转人工的决策也是个坑。如果提示词只告诉模型"用户不满就转人工",模型会过度优化这一边,把所有对话都转出去。
正确做法是把代价和收益两面都说清楚,转人工的成本是什么,不转的风险是什么,让模型自己权衡。
第二个场景是从零构建零售排班Agent。
团队最初的方案是写一个复杂提示词,把所有逻辑塞进去。结果频繁失败。
更好的方式是拆成三个简单提示词,组成生成-评估-修复循环。
第一个负责生成排班方案,第二个负责评估方案是否合规,第三个负责修复问题。
每个提示词只做一件事,组合起来比一个大提示词稳定得多。
她还提到了模型选择。
团队测试发现,用更强的推理模型(Opus)加自适应思考,效果往往比小模型加复杂提示词更好。不是所有场景都需要优化成本,有时候用更好的模型反而是最省事的方案。