Berryxia.AI@berryxia

精选77

2026-06-29 23:04·12小时前

精选理由

Margot Van Laar把提示词维护讲到了工程级别，评估驱动迭代、清理旧指令、拆分任务循环，这些方法比死记prompt模板重要得多，做AI应用的人都该看一遍。

AI 摘要

An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战，核心观点：大部分时间在调试和维护已有生产提示词而非从零编写。两个场景：客服机器人维护中，用XML标签结构化清理，移除旧模型遗留的“禁止列表”指令（新模型会过度拟合），精确计算应调用工具，转人工决策需明确代价与收益；零售排班Agent从零构建时，拆成生成-评估-修复三个简单提示词更稳定，选用更强推理模型（Opus）。她反复强调：评估（Eval）是唯一严谨方式，没有评估就是碰运气。

Margot Van Laar是Anthropic应用AI团队的工程师。

她在Code with Claude大会上做了一场关于提示词工程实战的分享。

核心观点只有一个：我们很少从零写提示词，大部分时间都在调试和维护已有的生产提示词。

她用两个真实场景演示了这件事。

第一个场景是客服机器人的维护。

团队接手了一个已经在跑的提示词，第一步不是改内容，而是做结构化清理--用XML标签把角色、政策、语气、指南分开，移除冗余补丁，明确输出格式。

然后她发现了一个经典陷阱。

团队之前为旧模型加了一条"禁止列表"指令，告诉模型不要提供某些信息。

换到新模型后，这条指令导致模型过度拟合--它开始隐瞒自己其实能提供的信息。

旧模型需要这条指令是因为能力不够，新模型不需要了，但指令还在。

另一个发现是：当模型需要做精确计算时，提示词里的"请仔细计算"没有用。

要给它工具。让模型调用计算器，比让它在脑子里算靠谱得多。

升级转人工的决策也是个坑。如果提示词只告诉模型"用户不满就转人工"，模型会过度优化这一边，把所有对话都转出去。

正确做法是把代价和收益两面都说清楚，转人工的成本是什么，不转的风险是什么，让模型自己权衡。

第二个场景是从零构建零售排班Agent。

团队最初的方案是写一个复杂提示词，把所有逻辑塞进去。结果频繁失败。

更好的方式是拆成三个简单提示词，组成生成-评估-修复循环。

第一个负责生成排班方案，第二个负责评估方案是否合规，第三个负责修复问题。

每个提示词只做一件事，组合起来比一个大提示词稳定得多。

她还提到了模型选择。

团队测试发现，用更强的推理模型（Opus）加自适应思考，效果往往比小模型加复杂提示词更好。不是所有场景都需要优化成本，有时候用更好的模型反而是最省事的方案。

她反复强调一句话：评估是唯一能告诉你改动是否真正有效的严谨方式。

没有评估，就只是在碰运气。

这句话适用于所有做AI应用的人。

大部分人改提示词的方式是"感觉这样写更好"，然后上线看效果。但"感觉"不是评估。

你需要一个可量化的基准，每次改动后跑一遍，才能确定到底是变好了还是变差了。

Berryxia.AI睡前来一发,这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。核心观点是:我们很少从零写提示词,大部分时间都在调试和维护已有的生产提示词。最好的起点永远是评估(Eval),而不是直接改提示词。她用两个真实场景演示了...

智能体Anthropic推理教程/实践

在 X 查看原推

Berryxia.AI@berryxia · X