SkillOS提出一种经验驱动的强化学习框架,用于训练自进化智能体学习长期技能管理。该系统由一个固定的智能体执行器和一个可训练的技能管理器组成,后者依据累积经验更新外部技能库。通过设计复合奖励并在基于技能相关性的分组任务流上训练,该方法解决了从间接、延迟反馈中学习复杂管理策略的挑战。实验表明,在多轮智能体任务和单轮推理任务中,SkillOS在效果与效率上均优于无记忆及强记忆基线,且所学技能管理器能泛化至不同执行器与任务领域。分析显示,管理器能实现更精准的技能调用,技能库中的技能会逐渐演化为结构更丰富、编码高层元技能的Markdown文件。