华为云首发适配 DeepSeek-V4,提供免部署、一键调用 API 的 Tokens 服务
阅读原文· ithome.comDeepSeek-V4预览版正式上线并开源。华为云宣布首发适配,在其MaaS平台上为开发者提供免部署、一键调用DeepSeek-V4-Flash API的Tokens服务。该服务通过适配分层注意力压缩机制、提供多种昇腾高性能融合算子等优化,支持原生100万Token长上下文的高性能推理。V4系列包含1.6万亿参数的旗舰版Pro和2840亿参数的经济型Flash两个MoE架构版本,均原生支持100万Token上下文。新技术大幅降低了长上下文下的计算和显存需求。官方表示V4-Pro体验优于Anthropic Sonnet 4.5,但仍落后于GPT-5.4等前沿闭源模型。
IT之家 4 月 24 日消息,备受关注的 DeepSeek-V4 预览版今日正式上线并同步开源。
随后,华为云官方宣布为 DeepSeek-V4 提供首发适配,华为云 MaaS 模型即服务平台已为开发者提供免部署、一键调用 DeepSeek-V4-Flash API 的 Tokens 服务。
在适配过程中,华为云针对 V4 模型的特性,首发适配了模型分层注意力压缩机制,实现了 V4 注意力机制下 KVCache 的高效分配管理,提供了 TopK、SWA、CFA 等 10 余种昇腾高性能融合算子,搭配框架异步调度、MTP 多步投机等框架优化,支持原生 100 万 Token 长上下文的高性能推理。
DeepSeek 方面已经确认,受限于高端算力,目前 Pro 版本的服务吞吐较为有限,预计下半年昇腾 950 超节点批量上市后,Pro 的价格还将大幅下调。IT之家此前报道,昇腾超节点全系列产品也已全面支持 DeepSeek-V4 系列模型。
本次发布的 V4 系列包含两个 MoE 架构版本:旗舰版 DeepSeek-V4-Pro 总参数 1.6 万亿、激活参数 490 亿,经济型 DeepSeek-V4-Flash 总参数 2840 亿、激活参数 130 亿,两者均原生支持 100 万 Token 的超长上下文。