传统扩展大语言模型上下文窗口的方法需要在目标长度的序列上训练,计算成本高昂。EndPrompt方法仅通过短序列训练即可有效扩展上下文,其核心是将原始短上下文作为第一段,附加一个简短的末端提示作为第二段,并为其分配接近目标上下文长度的位置索引。这种两段式构造在短序列内引入局部和长程相对距离,同时保持文本语义连续性。理论分析基于旋转位置嵌入和伯恩斯坦不等式,表明位置插值能约束注意力函数。在LLaMA模型上将上下文从8K扩展到64K时,EndPrompt在LongBench上平均得分最高(76.03),超越LCEG、LongLoRA等方法,且计算量更少,证明长上下文泛化可从稀疏位置监督诱导,挑战了密集训练的必要假设。