DeepSeek 把开源模型的参数量拉到 1.6T 但只激活 49B,1M 上下文直接对标闭源旗舰,这是开源阵营第一次在长上下文和性价比上同时逼近天花板,做 Agent 和长文档场景的该认真测一轮了。
DeepSeek 正式开源新一代模型 DeepSeek V4,开启高性价比的百万上下文长度时代。该系列包含两个版本:DeepSeek-V4-Pro 采用混合专家架构,拥有1.6万亿总参数,每次推理仅激活490亿参数,性能媲美顶级闭源模型;DeepSeek-V4-Flash 则为总参数量2840亿、激活130亿参数的高效轻量版。模型已通过官网的专家模式和即时模式开放体验,API同步更新。技术报告和模型权重已在 Hugging Face 平台公开。
DeepSeek V4 发布了。
开源,拥有巨大的 100 万上下文窗口。
采用混合专家模型,DeepSeek-V4-Pro 拥有 1.6T 总参数,但只激活 49B 参数。