# 微软等发布SkillOpt框架，用机器学习流程系统优化AI智能体技能

- 来源：karminski-牙医 (@karminski3)
- 发布时间：2026-05-27 07:01
- AIHOT 分数：69
- AIHOT 链接：https://aihot.virxact.com/items/cmpn9e9ul0vkdsl01wx6kgp42
- 原文链接：https://x.com/karminski3/status/2059409495303045579

## AI 摘要

微软联合上海交通大学等机构发布SkillOpt框架，旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型，通过harness闭环流程对技能进行编辑，且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算，使核心修改控制在1到4个。实验表明，优化后的技能可使GPT-5.5的对话准确率提升23.5分。

## 正文

什么？！ skill 也能"训练"了？

以往大家都是凭经验让AI写 skill， 然后调试的时候也是运行几下感觉没bug就完事了.

但 skill 能运行就一定好吗？ 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt， 直接让AI评估skill写的好不好然后不断去优化！

最终， 这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分！

这个框架具体是怎么做的也很简单， 让skill迭代过程实现 harness 闭环！ 大模型写完 skill 后， 立刻进入跑分流程， 只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙.

框架的设计也很值得做 Agent 框架的同学借鉴， 比如：

它设计了一个独立的优化器模型， 这个模型是用来写 skill 的， 它会根据 Agent 执行任务的试错表现得分， 对 skill 进行编辑操作（增加、删除、替换文本）.

然后就是 harness 流程了：每一次文本编辑都必须在独立的验证集上分数有提升， 才会允许合并.

最后， 也是最精彩的地方， 框架还引入深度学习训练机制， 设计了文本层的学习率预算， 这个的核心就是限制大模型每次只能修改skill的一小部分， 慢慢迭代， 而不是全都重写.
论文中最有价值的数据就在这里， 论文实验发现， 每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改.

甚至他们还设计了被拒编辑缓冲区， 用来存储训练过程的反面胶材， 以及周期性慢速/元更新， 这个则是跑完一个周期后， 会进行一次盘点， 类似于让框架形成记忆， 能更好的维持后续迭代.

这篇论文的结论十分深刻： skill（prompt） 完全配得上， 也需要一套系统级的训练流程.

原文中的描述直接是： 我们主张， skill 应当作为 Agent 的外部冻结状态来被"训练"， 并且训练过程还要"让权重空间优化具有可重复性"！

这是不是意味着， 提示词工程（Prompting）和模型训练（Training） 的界限将逐渐变得模糊？ 而提示词工程完全进入了机器学习的领域. 也许很快， 我们再也不需要人类去手动瞎改和调试提示词了！

论文地址： http://arxiv.org/pdf/2605.23904

#skillopt #微软 #提示词工程 #harness