微软联合上海交通大学等机构发布SkillOpt框架,旨在通过机器学习流程系统性地优化AI智能体的技能。该框架引入独立的优化器模型,通过harness闭环流程对技能进行编辑,且每次编辑必须在验证集上带来分数提升才被接受。框架设置了每步4到8个编辑操作的学习率预算,使核心修改控制在1到4个。实验表明,优化后的技能可使GPT-5.5的对话准确率提升23.5分。
什么?! skill 也能"训练"了?
以往大家都是凭经验让AI写 skill, 然后调试的时候也是运行几下感觉没bug就完事了.
但 skill 能运行就一定好吗? 于是微软联合上交复旦同济等机构发了一个新框架 SkillOpt, 直接让AI评估skill写的好不好然后不断去优化!
最终, 这个框架写的 skill 让GPT-5.5的直接对话准确率飙升了 23.5分!
这个框架具体是怎么做的也很简单, 让skill迭代过程实现 harness 闭环! 大模型写完 skill 后, 立刻进入跑分流程, 只有得分更高的 skill 变更才会留下来. 跟大模型的强化学习过程如出一辙.
框架的设计也很值得做 Agent 框架的同学借鉴, 比如:
它设计了一个独立的优化器模型, 这个模型是用来写 skill 的, 它会根据 Agent 执行任务的试错表现得分, 对 skill 进行编辑操作(增加、删除、替换文本).
然后就是 harness 流程了:每一次文本编辑都必须在独立的验证集上分数有提升, 才会允许合并.
最后, 也是最精彩的地方, 框架还引入深度学习训练机制, 设计了文本层的学习率预算, 这个的核心就是限制大模型每次只能修改skill的一小部分, 慢慢迭代, 而不是全都重写. 论文中最有价值的数据就在这里, 论文实验发现, 每一步设置 4 到 8 个编辑操作的预算效果最好. 最终的最佳 skill 往往只包含 1 到 4 个被接受的核心修改.