karminski-牙医@karminski3

2026-05-27 07:01·37天前

AI 摘要

微软联合上海交通大学等机构发布SkillOpt框架，旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型，通过harness闭环流程对技能进行编辑，且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算，使核心修改控制在1到4个。实验表明，优化后的技能可使GPT-5.5的对话准确率提升23.5分。

什么？！ skill 也能"训练"了？

以往大家都是凭经验让AI写 skill，然后调试的时候也是运行几下感觉没bug就完事了.

但 skill 能运行就一定好吗？于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt，直接让AI评估skill写的好不好然后不断去优化！

最终，这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分！

这个框架具体是怎么做的也很简单，让skill迭代过程实现 harness 闭环！大模型写完 skill 后，立刻进入跑分流程，只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙.

框架的设计也很值得做 Agent 框架的同学借鉴，比如：

它设计了一个独立的优化器模型，这个模型是用来写 skill 的，它会根据 Agent 执行任务的试错表现得分，对 skill 进行编辑操作（增加、删除、替换文本）.

然后就是 harness 流程了：每一次文本编辑都必须在独立的验证集上分数有提升，才会允许合并.

最后，也是最精彩的地方，框架还引入深度学习训练机制，设计了文本层的学习率预算，这个的核心就是限制大模型每次只能修改skill的一小部分，慢慢迭代，而不是全都重写. 论文中最有价值的数据就在这里，论文实验发现，每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改.

甚至他们还设计了被拒编辑缓冲区，用来存储训练过程的反面胶材，以及周期性慢速/元更新，这个则是跑完一个周期后，会进行一次盘点，类似于让框架形成记忆，能更好的维持后续迭代.

这篇论文的结论十分深刻： skill（prompt）完全配得上，也需要一套系统级的训练流程.

原文中的描述直接是：我们主张， skill 应当作为 Agent 的外部冻结状态来被"训练"，并且训练过程还要"让权重空间优化具有可重复性"！

这是不是意味着，提示词工程（Prompting）和模型训练（Training）的界限将逐渐变得模糊？而提示词工程完全进入了机器学习的领域. 也许很快，我们再也不需要人类去手动瞎改和调试提示词了！

论文地址： http://arxiv.org/pdf/2605.23904

#skillopt #微软 #提示词工程 #harness