AK@_akhaliq · 4月7日Test-Time Scaling Makes Overtraining Compute-Optimal
paper: https://huggingface.co/papers/2604.01411
译新论文提出,Test-Time Scaling(测试时扩展)可让 Overtraining(过度训练)实现 Compute-Optimal。传统 Chinchilla 最优假设训练与推理计算固定,而该研究表明,若允许推理阶段增加计算,过度训练模型在总成本下反而性能更优。