在标准GPU上进行实时大语言模型推理:单次请求生成速度达3k tokens/s · AI HOT