针对长程编码智能体输出冗长、难以比较的问题,本文提出基于轨迹压缩的测试时计算缩放框架。通过将执行过程转化为保留关键假设、进展与失败模式的结构化摘要,实现有效选择与会话。框架包含并行缩放的递归锦标赛投票(RTV)和序列缩放的Parallel-Distill-Refine(PDR)两种机制。实验显示,Claude-4.5-Opus在SWE-Bench Verified上准确率从70.9%提升至77.6%,在Terminal-Bench v2.0上从46.9%提升至59.1%,验证了表示、选择与重用的核心作用。