内存主导但非带宽受限:批量1大语言模型解码在物理AI推理中的差距 · AI HOT