ECHO(环境交叉熵混合目标)是一种针对CLI智能体的新训练方法。它在标准的GRPO策略梯度损失之上,增加了一个辅助损失项,训练模型预测自身动作产生的环境观察token。这将稀疏的结果奖励转化为每一轮rollout的密集监督。实验表明,在TerminalBench-2.0上,ECHO使Qwen3-8B的pass@1从2.70%提升至5.17%,Qwen3-14B从5.17%提升至10.79%。该方法无需专家示范,能使基础模型匹配专家SFT后GRPO的性能,并在部分场景下可能实现无验证器的自我改进。