MiniMax-M2.7模型已在六家推理服务提供商上线,性能与价格呈现明显差异。SambaNovaAI以每秒435个输出令牌的速度领先,是次快的FireworksAI_HQ(127令牌/秒)的3.4倍。在定价上,FireworksAI_HQ等四家提供商与官方API持平,而SambaNova价格高出约2倍。Fireworks和SambaNova在速度与价格的权衡中处于帕累托前沿。各提供商缓存折扣策略不同,部分提供80%折扣,这影响了缓存密集型工作负载的成本。最优选择取决于具体需求:SambaNova更适合延迟敏感型应用,而Fireworks则适用于对延迟不敏感的大规模任务。
Thanks to the @SambaNovaAI team. Once M2.7 hits 400 TPS, latency becomes virtually imperceptible.