针对实际用例对模型做基准测试:Gemini 3.1 Pro vs GPT-5.5 咖啡馆案例 · AI HOT