循环LLM架构(如Ouro)通过迭代更新内部表征进行推理,但其标准KV缓存导致内存消耗随推理深度线性增长,限制了可扩展性。本研究提出高效内存循环Transformer(MELT),通过每层共享一个跨循环的KV缓存,并利用可学习的门控机制更新缓存,从而将推理深度与内存消耗解耦。MELT采用分块训练的两阶段轻量级后训练方法:插值过渡与注意力对齐蒸馏。实验表明,基于预训练Ouro微调的MELT模型性能优于同等规模标准LLM,同时内存占用与标准模型相当,远低于Ouro,实现了不牺牲性能的恒定内存迭代推理。