状态预测分离假说:双计算流Transformer变体提升语言建模效率 · AI HOT