研究提出战略轨迹抽象(StraTA)框架,将显式的轨迹级策略引入智能体强化学习,以优化大语言模型在长时决策中的表现。该方法从初始任务状态采样紧凑策略,使后续动作基于该策略执行,并通过分层GRPO式训练设计联合优化策略生成与动作执行,辅以多样化策略推进与关键自评判机制。在ALFWorld、WebShop和SciWorld上的实验表明,StraTA在样本效率和最终性能上均稳定超越基线模型,在ALFWorld上达到93.1%的成功率,在WebShop上取得84.2%的成功率,在SciWorld上以63.5%的综合得分超越前沿闭源模型。