文章指出,只有具备明确、可程序自动验收标准的Skill才能有效自我进化,例如优化代码性能。微软等机构提出的SkillOpt框架,通过让AI评估并迭代优化Skills,使GPT-5.5直接对话准确率提升23.5分。其核心机制是每次编辑需在验证集上得分提升才能合并,并引入学习率预算。论文主张Skill应作为外部状态被系统性“训练”,这标志着提示词工程与模型训练界限的融合。
以我的经验,只有明确的可以程序自动验收标准的 Skills 才能自我进化,比如说你写个 Skill 去优化代码性能,这个代码性能是可测量可量化的,那么给一些测试样例去优化 Skill,那么能越来越好。
对于一些没有明确的验收标准的 Skill,比如你写一个写作的 Skill,写作的好坏并没有很明确的验收标准,只能是 AI "自己打分",但是这个打分其实和真实人类的体感还是有差距,AI 打分很好的稿子可能真人看起来一股 AI 味。
真想写好 Agent Skills,还是要人去用,人去指出优化的方向,才能优化好。
但有一点,没必要人自己去写 Skill,最好是人指挥 AI 去优化 Skill,AI 在具体执行上是做的蛮好的。
另外做好版本管理,一轮一轮迭代,有时候还会出现负优化,得回退到旧的版本。