198B稀疏MoE加MTP解码把速度推到400 tok/s,还开源Apache 2.0,这规格做agent的大脑正合适,做实时应用的可以试试手。
阶跃星辰的 Step 3.7 Flash 已上架 Fireworks AI。该模型为 198B 稀疏 MoE 多模态大模型(VLM),含 196B 语言骨干和 1.8B 视觉编码器,从设计之初优化推理效率,采用硬件友好架构与 MTP 辅助解码,速度达 400 tokens/s。具备原生多模态理解与行动、可靠工具使用、增强搜索能力,面向真实智能体工作负载,采用 Apache 2.0 开源许可。
很高兴看到 Step 3.7 Flash 在 @FireworksAI_HQ 上线。
Step 3.7 Flash 从第一天起就专为推理设计,它将硬件友好的架构与 MTP 辅助解码相结合,实现了高达 400 tokens/s 的速度。
它快速、多模态,并随时准备为实际工作流程中的强大 AI 智能体提供动力。