研究揭示标准LLM智能体依赖上下文窗口保持计划信息,而非将其内化为持久状态。在Llama-3.1-70B上,计划信号写入一步后从0.453骤降4.1倍,HotpotQA下降12.4倍。推理模型(DeepSeek-R1-Distill-Llama-70B)的思维链痕迹会重新推导计划,严格剥离后恢复样本内+163%、样本外+153%信号,非推理模型仅+4.8%。基于Llama训练的分类器迁移到R1上AUROC为0.748,R1专用分类器达1.000。压力测试中,丢弃计划导致ALFWorld成功率下降34.7个百分点。该框架证明关键信息仅驻留于上下文而非持久存在。