公众号:DeepSeek(深度求索)
精选66
DeepSeek 上线推理模型预览版,其推理性能与 OpenAI 的 o1-preview 相当,并公开了模型的完整思维链。
推荐理由:虽然已是旧闻,但 DeepSeek 首次公开推理模型完整思维链,对理解 o1 类模型的内部机制是个重要线索,做推理模型研究的值得回看。
DeepSeek 上线推理模型预览版,其推理性能与 OpenAI 的 o1-preview 相当,并公开了模型的完整思维链。
DeepSeek-V2.5 在 LMSYS ChatBotArena(全球大模型竞技场)榜单中上榜,创下国产大模型在该竞技场的最高得分记录。
DeepSeek-V2.5 保留原有 Chat 模型的通用对话能力和 Coder 模型的代码处理能力,并更好地对齐人类偏好。
SGLang v0.3 正式发布,实现显著性能提升与新架构支持。针对 DeepSeek MLA 机制深度优化,采用权重吸收、FP8 量化等技术,在 H100 GPU 上吞吐量最高提升 7 倍。集成 torch.compile 使批量 1-32 场景延迟降低 1.5 倍。新增 LLaVA-OneVision 支持,可处理交错文本、多图像及视频输入,速度提升 4.5 倍。同时全面支持 Gemma-2 的 8K 上下文与交错窗口注意力,突破 4K 限制。
DeepSeek API 新增续写、FIM、Function Calling 和 JSON Output 功能,所有新功能均可通过 deepseek-chat 和 deepseek-coder 模型调用。
DeepSeek-V2-0628在「全球大模型竞技场」榜单更新中位列开源模型榜首,成为全球开源大模型性能第一。