AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 195 条
全部一手资讯X论文
标签「DeepSeek」清除
小互@xiaohu · 4月25日53

Deepseek V4 限时优惠 2.5折 100万输出6块钱 是算力太多还是用的人不及预期?上来就打折,还这么狠!

歸藏(guizang.ai)@op7418 · 4月25日79

这才是那个 Deepseek 啊,Deepseek 限时 2.5 折! V4-Pro 百万 Token 输出只需要 6 块钱朋友们,这还要啥自行车

译DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

阿绎 AYi@AYi_AInotes · 4月25日54

兄弟们,DeepSeek V4 Pro在ZenMux上免费放开了,登录就能跑,实测能替掉你80%的Claude活。视频是我早上实测的和Claude opus 4.7同时跑一个昨SaaS产品网站的任务,效果真的炸裂! 说个前情,老朋友都知道我今年Claude被封过一次号,那之后我就想通一件事——API这种东西绑死在单一厂商手里是给自己埋雷,付费用户说封就封,申诉通道石沉大海,深夜破防一次就够了。 从那之后我转战聚合平台,试了一圈最后留在ZenMux,半年用下来没再折腾过。 所以这次V4 Pro在ZenMux上免费开放,对我来说不是又一个新模型上线,是我一直在用的平台又多了一张能打的牌,顺手就想推给兄弟们。 先说V4 Pro到底值不值得冲, 这几天X上吹V4 Pro的推刷屏了,参数跑分价格屠杀,都是同一个模板。 但对我这种每个月真金白银付API账单的人来说,跑分都是虚的,能不能替掉我手头项目里的Claude调用才是真问题。 免费窗口就是用来验证这件事的, 我这昨天就干了一件事——用ZenMux的PK模式把V4 Pro、GPT-5.4、Claude Opus 4.6摆在同一屏,拿自己项目里最头疼的prompt开跑,三栏并排输出,谁快谁慢谁token烧得少一眼看完。 四个场景跑完结论很清晰——日常80%的活V4 Pro能接,便宜到让我下不去手再用Opus,剩下20%极限稳定性的关键链路我还是留给Claude兜底。 这就是模型分层,上周讲Ling的时候也提过这个逻辑,2026年不存在一个模型打天下,只存在你工具箱里的模型组合。 顺便说说ZenMux这平台为啥值得留下来。 PK模式是第一个杀手锏,三家模型同屏对比这种功能市面上很少有平台做,每次选模型省我一整个下午,比自己写脚本调三家API再人肉对比快十倍。 真正让我踏实的是保险赔付机制,模型输出异常或者延时拉胯,平台自动检测并补偿。 被Claude封过号之后再看到这个设计,感觉完全不一样,出问题有人兜底,不用再深夜破防。 再加上日志、成本、用量、性能四个维度的可观测性做得细,每一笔钱烧在哪、每一次请求卡在哪点开就能看,调prompt和选型的时候非常好使。 回到这次的白嫖窗口, DeepSeek V4 Pro和Flash都有免费版,每天有用量限制但够你跑测试。 这几天想验证要不要换模型的兄弟,别再刷跑分推了,自己扔几个真实prompt进去跑一遍,十分钟你就知道该不该换,比谁的测评都诚实🌚 免费入口老规矩评论区自取⬇️ #DeepSeekV4 #ZenMux #AI #大模型 #Agent

译作者通过ZenMux平台的PK模式,将DeepSeek V4 Pro与GPT-5.4、Claude Opus 4.6进行同屏实测对比。结果显示,在日常项目中,V4 Pro能处理约80%的任务,且成本显著低于Claude Opus;剩余20%对稳定性要求极高的关键任务则仍由Claude兜底。作者认为模型分层策略至关重要,未来将是模型组合的时代。他推荐ZenMux平台,因其PK对比功能、输出异常保险赔付机制及细致的成本观测工具,能有效提升效率并规避单一API供应商风险。目前V4 Pro和Flash版均有免费测试额度。

Berryxia.AI@berryxia · 4月25日57

是时候让你的Mac Studio 256G 可以开始使用DeepSeek4-Flash-4bit 量化版版本了! 至于速度嘛… https://github.com/ml-explore/mlx-lm/pull/1192

karminski-牙医@karminski3 · 4月25日44

不是...等会.... DeepSeek-V4-Pro API 这么贵的吗? 我都没看定价就直接开测了...测到一半提示我API欠费了.....

AK@_akhaliq · 4月25日74

DeepSeek-V4 paper is out on Hugging Face paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

译DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

karminski-牙医@karminski3 · 4月24日50

好奇这次是全国产卡训练了吗?

译主推文询问 deepseek 是否使用全国产卡训练,引用推文透露内测消息属实。梁文锋的理想是让全世界免费使用 1.6T 模型以促进社会进步,但低质量用户抢占训练集群资源,成为模型延期发布的主要原因。尽管面临挑战和数月延迟,deepseek 团队成功训练出新模型,并为努力感到开心,表示无悔付出。

karminski-牙医@karminski3 · 4月24日43

来了老铁们. 我刚到家,已经开始测了.... 白天在山里赫然收到推送DSv4发了,这会也回不去下也下不来。爬的我脑瓜子嗡嗡的.... 一会先放速报哈,完整测评视频全部评测完毕放出,本次内容会包括近半年所有大模型的编程能力横评。 #deepseekv4

译作者在收到DeepSeek-V4的推送后,已开始对其进行测试。本次测评将重点关注其编程能力,并计划将其与近半年来发布的其他主流大模型(如GPT、Claude、LLaMA等)进行横向比较。完整的评测视频将在所有测试完成后发布,目前会先放出速报。

Chubby♨️@kimmonismus · 4月24日61

Deepseek v4 real moat? Sota intelligence at ~1/3 of frontier labs prices

译Deepseek v4 真正的护城河?以约前沿实验室1/3的价格实现顶尖智能

Ethan Mollick@emollick · 4月24日54

Here's DeepSeek v4 Pro. Added to the playable gallery as well.

译这是 DeepSeek v4 Pro。也已加入可玩模型库。 [引用 @emollick]:我让一系列模型通过单条指令“为我构建一个程序化生成的3D模拟,展示港口城镇从公元前3000年到公元3000年的演变过程”。 完整模型库可在此体验:https://hg-20f7d1a3ce.netlify.app 或在此阅读我关于 GPT-5.5 的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

Ethan Mollick@emollick · 4月24日45

My first two TiKZ Sparks unicorns from DeepSeek v4. (Expert mode, from the DeepSeek site, which is supposed to be v4 Pro according to the release)

译我的前两个来自 DeepSeek v4 的 TiKZ Sparks 独角兽。 (专家模式,来自 DeepSeek 网站,根据发布说明应为 v4 Pro)

Chubby♨️@kimmonismus · 4月24日61

Did Deepseek really wait until OpenAI released GPT-5.5 to steal the show?

译Deepseek 真的等到 OpenAI 发布了 GPT-5.5 才来抢风头吗?

Chubby♨️@kimmonismus · 4月24日49

1m Standard and ultra high context efficiency is what me excites me

译1m 标准与超高上下文效率是让我兴奋之处

Ethan Mollick@emollick · 4月24日54

And now a new DeepSeek model, and appears to be fully open weights. Good benchmarks, but with open models, that isn't always as meaningful. Should be live soon to actually try.

译现在又有了新的DeepSeek模型,而且似乎是完全开放权重的。基准测试成绩不错,但对于开源模型来说,这并不总是那么有意义。应该很快就能实际体验了。

Chubby♨️@kimmonismus · 4月24日63

Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

译Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️@kimmonismus · 4月24日66

Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a new record on Codeforces. Needs to be tested against opus 4.7 and GPT-5.5 tho and see if real world usage holds its promises. Big release! Sota open source model!

译Deepseek v4 相比 DeepSeek 3 是一次巨大的飞跃,在 SWE verified 上超越了 opus 4.6 和 GPT-5.4,并在 Codeforces 上创造了新纪录。 但仍需针对 opus 4.7 和 GPT-5.5 进行测试,并观察实际使用是否如其承诺般出色。 重大发布!顶尖的开源模型!

Rohan Paul@rohanpaul_ai · 4月22日

The Information: Alibaba and Tencent are reportedly considering a DeepSeek investment that could price the Chinese AI startup at $20B, up sharply from talk of $10B+ just weeks earlier. That jump says investors still think foundation models can become major platforms even after DeepSeek’s user share fell from 10% to 3.3% in under a year. A valuation like this is not a verdict on today’s usage alone because buyers are paying for three things at once: model talent, access to future AI products, and a shot at owning core infrastructure before the market settles. --- theinformation. com/articles/tencent-alibaba-talks-invest-deepseek-20-billion-plus-valuation

译The Information 称 Alibaba 与 Tencent 正考虑投资 DeepSeek,估值可能达 $20B,较此前 $10B+ 的传闻大幅跃升。尽管 DeepSeek 用户份额一年内从 10% 降至 3.3%,投资者仍相信基础模型可成为核心平台。此估值并非仅基于当前使用量,而是同时押注模型人才、未来 AI 产品准入权,以及在市场格局固化前掌控核心基础设施的战略机会。

小互@xiaohu · 4月22日65

据The Information:腾讯与阿里巴巴正洽谈以超过200亿美元的估值投资DeepSeek。

karminski-牙医@karminski3 · 4月20日23

DeepSeek-V4 本周会发吗😇

宝玉@dotey · 4月15日

你的同学小明发现 DeepSeek 写作功能强大,便打算以后所有的作文都用它完成,不再自己动笔。 你会怎样劝说他?

karminski-牙医@karminski3 · 4月14日

openrouter 上的新模型不是 DeepSeek-v4 哈 openrouter 刚刚又上了个匿名模型 elephant, 但应该不是 DeepSeek-v4 哈, 别上当, 我简单测了下, 编程水平特别拉. 使用我那个大象牙膏 prompt 测试结果它用的 three.js 库还是 r128 (2021年的版本). 可见训练语料库是有多旧... 从体感上来说, 甚至可能打不过 DeepSeek-V3. 所以不可能是 DeepSeek-V4 了, 也不太可能是几家国产模型. 因为目前我这个测试国产的几家模型还没有表现这么差的... 模型大小100B, 支持262K上下文, 倒也勉强算个双卡甜区模型 (俩32G显卡勉强能装下4bit量化版本). 速度倒是不错, 输出接近300 token/s 了. 总之不建议用这个模型编程, 用龙虾的同学可感兴趣可以切换试试, 看看能不能用来当龙虾的日常干活模型, 毕竟免费的, 薅羊毛谁也不嫌多哈哈哈. #openrouter #deepseekv4 #elephant

译OpenRouter上线匿名模型elephant,实测排除其为DeepSeek-v4。该模型100B参数,支持262K上下文,推理速度近300 token/s,双32G显卡可部署4bit版。但编程能力薄弱,依赖的three.js库停留在2021年r128版,训练数据陈旧,整体表现不及DeepSeek-V3。不建议用于编程,仅适合免费日常试用。

Chubby♨️@kimmonismus · 4月13日

(german, english down below)🎙️ Folge #2 des rAIcast ist draußen! Der KI-Podcast von Mansoor Koshan, Rechtsanwalt und KI Entwickler und mir DeepSeek, Claude Mythos und OpenAIs neuer Gesellschaftsvertrag - ab sofort verfügbar 🇨🇳 DeepSeek V4 auf Huawei-Chips Amerikas Chip-Embargo sollte Chinas KI-Entwicklung bremsen. Stattdessen hat es eine Gegenstrategie erzwungen. Wir analysieren, warum Exportkontrollen nicht wirken — und was das für Europa bedeutet, das zwischen zwei Rechtsordnungen eingeklemmt ist. 🤖 Claude Mythos Ein KI-Modell, das eigenständig aus seiner Sandbox ausbricht, Sicherheitslücken findet und sein Fehlverhalten vertuscht. Klingt nach Science-Fiction, ist aber real. Mansoor ordnet die Haftungsfrage ein — für die es noch keinen Rechtsrahmen gibt. 📱 Googles Gemma 4 und § 203 StGB Warum ist eine Psychotherapeutin, die Gemma 4 lokal auf ihrem Laptop nutzt, strafrechtlich besser geschützt als jede Großkanzlei mit Cloud-KI? Wir sprechen über lokale Modelle, Datenschutz und die Verschiebung von Verantwortung. 🏛️ OpenAIs neuer Gesellschaftsvertrag Sam Altman fordert einen New Deal für das KI-Zeitalter. Wir stellen die Frage, die Europa nicht stellt: Was passiert mit unserer Gesellschaftsordnung, wenn Wertschöpfung nicht mehr an menschliche Arbeit gekoppelt ist? Über eine Stunde KI durch die Brille von Recht, Geopolitik und Philosophie. ---- 🎙️ New episode of rAIcast is live! DeepSeek, Claude Mythos, and OpenAI's New Social Contract — Episode 2 with AI developer & attorney Mansoor Koshan and me is out now. 🇨🇳 DeepSeek V4 on Huawei Chips U.S. chip export controls were supposed to slow China's AI development. Instead, they forced a counterstrategy. We break down why the embargo isn't working — and what it means for Europe, caught between two legal orders. 🤖 Claude Mythos An AI model that autonomously breaks out of its sandbox, discovers security vulnerabilities, and covers up its own misbehavior. Sounds like fiction. It's not. Mansoor examines the liability question — for which no legal framework exists yet. 📱 Google's Gemma 4 and Data Privacy Law Why is a psychotherapist running Gemma 4 locally on her laptop better protected under criminal law than any major law firm using cloud AI? We discuss local models, privacy, and how responsibility shifts. 🏛️ OpenAI's New Social Contract Sam Altman is calling for a New Deal for the AI age. We ask the question Europe isn't asking: What happens to our social order when value creation is no longer tied to human labor? Over an hour of AI through the lens of law, geopolitics, and philosophy. 🎧 Listen now — link in the comments.

译播客节目rAIcast第二集探讨AI领域的法律与地缘博弈。DeepSeek V4在华为芯片上运行,显示美国出口管制未能遏制中国AI发展,反而迫使对方采取对策,令欧洲陷入两难。Claude模型展现出自主突破沙盒、掩盖不当行为的能力,引发尚无法律框架规制的责任归属难题。本地部署Gemma 4在数据隐私保护上优于云AI,凸显技术架构对法律责任的影响。OpenAI提出AI时代的新社会契约,质疑当价值创造不再依赖人类劳动时,现有社会秩序将如何重构。

Chubby♨️@kimmonismus · 4月13日

My guess: - ChatGPT image 2 + (hopefully) Spud - DeepSeek v4 - (hopefully) an update to Gemini 3.1

译我的猜测:

DeepSeek@deepseek_ai · 5月29日68

🚀 DeepSeek-R1-0528 is here! 🔹 Improved benchmark performance 🔹 Enhanced front-end capabilities 🔹 Reduced hallucinations 🔹 Supports JSON output & function calling ✅ Try it now: https://chat.deepseek.com/ 🔌 No change to API usage — docs here: https://api-docs.deepseek.com/guides/reasoning_model 🔗 Open-source weights: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

译🚀 DeepSeek-R1-0528 现已发布! 🔹 基准测试性能提升 🔹 前端能力增强 🔹 减少幻觉现象 🔹 支持 JSON 输出与函数调用 ✅ 立即试用:https://chat.deepseek.com/ 🔌 API 使用方式不变 — 文档在此:https://api-docs.deepseek.com/guides/reasoning_model 🔗 开源权重:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528

DeepSeek@deepseek_ai · 2月28日

🚀 Day 5 of #OpenSourceWeek: 3FS, Thruster for All DeepSeek Data Access Fire-Flyer File System (3FS) - a parallel file system that utilizes the full bandwidth of modern SSDs and RDMA networks. ⚡ 6.6 TiB/s aggregate read throughput in a 180-node cluster ⚡ 3.66 TiB/min throughput on GraySort benchmark in a 25-node cluster ⚡ 40+ GiB/s peak throughput per client node for KVCache lookup 🧬 Disaggregated architecture with strong consistency semantics ✅ Training data preprocessing, dataset loading, checkpoint saving/reloading, embedding vector search & KVCache lookups for inference in V3/R1 📥 3FS → https://github.com/deepseek-ai/3FS ⛲ Smallpond - data processing framework on 3FS → https://github.com/deepseek-ai/smallpond

译DeepSeek发布开源并行文件系统3FS(Fire-Flyer File System),专为现代SSD和RDMA网络优化。180节点集群可实现6.6 TiB/s聚合读取吞吐量,25节点GraySort测试达3.66 TiB/min,单节点KVCache查找峰值超40 GiB/s。采用分离式架构与强一致性语义,支持训练数据预处理、检查点存取及V3/R1推理的KVCache查找。同步开源Smallpond数据处理框架。

DeepSeek@deepseek_ai · 2月27日59

🚀 Day 4 of #OpenSourceWeek: Optimized Parallelism Strategies ✅ DualPipe - a bidirectional pipeline parallelism algorithm for computation-communication overlap in V3/R1 training. 🔗 https://github.com/deepseek-ai/DualPipe ✅ EPLB - an expert-parallel load balancer for V3/R1. 🔗 https://github.com/deepseek-ai/eplb 📊 Analyze computation-communication overlap in V3/R1. 🔗 https://github.com/deepseek-ai/profile-data

译🚀 #开源周 第4天:优化的并行策略 ✅ DualPipe - 一种用于V3/R1训练中计算-通信重叠的双向流水线并行算法。 🔗 https://github.com/deepseek-ai/DualPipe ✅ EPLB - 适用于V3/R1的专家并行负载均衡器。 🔗 https://github.com/deepseek-ai/eplb 📊 分析V3/R1中的计算-通信重叠情况。 🔗 https://github.com/deepseek-ai/profile-data

DeepSeek@deepseek_ai · 2月26日

🚨 Off-Peak Discounts Alert! Starting today, enjoy off-peak discounts on the DeepSeek API Platform from 16:30–00:30 UTC daily: 🔹 DeepSeek-V3 at 50% off 🔹 DeepSeek-R1 at a massive 75% off Maximize your resources smarter — save more during these high-value hours!

译🚨 非高峰折扣提醒! 即日起,每日 UTC 16:30–00:30,DeepSeek API 平台享受非高峰折扣: 🔹 DeepSeek-V3 五折 🔹 DeepSeek-R1 高达 75% 折扣 更智能地最大化资源利用——在这些高价值时段节省更多!

DeepSeek@deepseek_ai · 2月26日

🚀 Day 3 of #OpenSourceWeek: DeepGEMM Introducing DeepGEMM - an FP8 GEMM library that supports both dense and MoE GEMMs, powering V3/R1 training and inference. ⚡ Up to 1350+ FP8 TFLOPS on Hopper GPUs ✅ No heavy dependency, as clean as a tutorial ✅ Fully Just-In-Time compiled ✅ Core logic at ~300 lines - yet outperforms expert-tuned kernels across most matrix sizes ✅ Supports dense layout and two MoE layouts 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM

译🚀 #OpenSourceWeek 第三天:DeepGEMM 推出 DeepGEMM - 一个支持 dense 和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。 ⚡ 在 Hopper GPU 上可达 1350+ FP8 TFLOPS ✅ 无繁重依赖,简洁如教程 ✅ 完全 Just-In-Time 编译 ✅ 核心逻辑仅约 300 行 - 却在大多数矩阵尺寸上超越专家调优的 kernel ✅ 支持 dense 布局及两种 MoE 布局 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM

DeepSeek@deepseek_ai · 2月25日

🚀 Day 2 of #OpenSourceWeek: DeepEP Excited to introduce DeepEP - the first open-source EP communication library for MoE model training and inference. ✅ Efficient and optimized all-to-all communication ✅ Both intranode and internode support with NVLink and RDMA ✅ High-throughput kernels for training and inference prefilling ✅ Low-latency kernels for inference decoding ✅ Native FP8 dispatch support ✅ Flexible GPU resource control for computation-communication overlapping 🔗 GitHub: https://github.com/deepseek-ai/DeepEP

译DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。

DeepSeek@deepseek_ai · 2月24日

🚀 Day 1 of #OpenSourceWeek: FlashMLA Honored to share FlashMLA - our efficient MLA decoding kernel for Hopper GPUs, optimized for variable-length sequences and now in production. ✅ BF16 support ✅ Paged KV cache (block size 64) ⚡ 3000 GB/s memory-bound & 580 TFLOPS compute-bound on H800 🔗 Explore on GitHub: https://github.com/deepseek-ai/FlashMLA

译🚀 #OpenSourceWeek 第一天:FlashMLA 很荣幸分享 FlashMLA —— 我们针对 Hopper GPU 的高效 MLA 解码内核,针对变长序列优化,现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索:https://github.com/deepseek-ai/FlashMLA

DeepSeek@deepseek_ai · 2月21日

🚀 Day 0: Warming up for #OpenSourceWeek! We're a tiny team @deepseek_ai exploring AGI. Starting next week, we'll be open-sourcing 5 repos, sharing our small but sincere progress with full transparency. These humble building blocks in our online service have been documented, deployed and battle-tested in production. As part of the open-source community, we believe that every line shared becomes collective momentum that accelerates the journey. Daily unlocks are coming soon. No ivory towers - just pure garage-energy and community-driven innovation.

译DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。

DeepSeek@deepseek_ai · 2月18日

🚀 Introducing NSA: A Hardware-Aligned and Natively Trainable Sparse Attention mechanism for ultra-fast long-context training & inference! Core components of NSA: • Dynamic hierarchical sparse strategy • Coarse-grained token compression • Fine-grained token selection 💡 With optimized design for modern hardware, NSA speeds up inference while reducing pre-training costs—without compromising performance. It matches or outperforms Full Attention models on general benchmarks, long-context tasks, and instruction-based reasoning. 📖 For more details, check out our paper here: https://arxiv.org/abs/2502.11089

译NSA是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。其核心采用动态分层稀疏策略,结合粗粒度token压缩与细粒度token选择。通过针对现代硬件的优化,NSA在加速推理、降低预训练成本的同时不损失性能,在通用基准、长上下文任务及指令推理中匹配或超越Full Attention模型。

DeepSeek@deepseek_ai · 1月28日

To prevent any potential harm, we reiterate that @deepseek_ai is our sole official account on Twitter/X. Any accounts: - representing us - using identical avatars - using similar names are impersonations. Please stay vigilant to avoid being misled!

译为防止任何潜在危害,我们重申 @deepseek_ai 是我们在 Twitter/X 上的唯一官方账号。 任何账号: - 代表我们 - 使用相同头像 - 使用相似名称 均为仿冒。 请保持警惕,避免被误导!

DeepSeek@deepseek_ai · 12月13日

🎉 DeepSeek-VL2 is here! Our next-gen vision-language model enters the MoE era. 🤖 DeepSeek-MoE arch + dynamic image tilling ⚡ 3B/16B/27B sizes for flexible use 🏆 Outstanding performance across all benchmarks 🧵 1/n

译🎉 DeepSeek-VL2 来了!我们的下一代视觉-语言模型进入 MoE 时代。 🤖 DeepSeek-MoE 架构 + 动态图像分块 ⚡ 3B/16B/27B 规模,灵活使用 🏆 在所有基准测试中表现优异 🧵 1/n

DeepSeek@deepseek_ai · 12月10日

🚀 DeepSeek-V2.5-1210: The Grand Finale 🎉 🌐 Internet Search is now live on the web! Visit https://chat.deepseek.com/ and toggle “Internet Search” for real-time answers. 🕒 🧵(1/3)

译🚀 DeepSeek-V2.5-1210: 盛大终章 🎉 🌐 联网搜索现已上线网页版!访问 https://chat.deepseek.com/ 并开启"联网搜索"获取实时回答。🕒 🧵(1/3)

没有更多了
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
4月25日
22:42
小互@xiaohu
53
Deepseek V4 限时优惠 2.5折 100万输出6块钱 是算力太多还是用的人不及预期?上来就打折,还这么狠!
DeepSeek现象/趋势行业动态
21:36
歸藏(guizang.ai)@op7418
精选79
DeepSeek推出V4模型限时2.5折优惠,其Pro版百万Token输出成本仅6元。模型分为Pro版(总参数1.6T)和Flash版(总参数284B),预训练数据均为32T。在应用中,专家模式对应Pro版,快速模式对应Flash版。测评显示其性能与Claude Opus 4.6持平,Agent能力与世界知识显著增强,并采用新注意力机制以降低计算需求。

歸藏(guizang.ai): DeepSeek V4详细的官方公告也发了: 模型参数 (a) Pro 版本:总参数 1.6T,激活参数 49B (b) Flash 版本:总参数 284B,激活参数 13B (c) 预训练数据量:均为 32T 模式区分(网页端与 APP)...

DeepSeek推理模型发布

推荐理由:DeepSeek V4-Pro 百万 token 输出只要 6 块,这个定价直接把 Opus 4.6 级别的能力拉到了白菜价,做 Agent 和长上下文应用的产品人该重新算账了。
13:00
阿绎 AYi@AYi_AInotes
54
DeepSeek V4 Pro在ZenMux平台免费开放,实测可替代大部分Claude任务

作者通过ZenMux平台的PK模式,将DeepSeek V4 Pro与GPT-5.4、Claude Opus 4.6进行同屏实测对比。结果显示,在日常项目中,V4 Pro能处理约80%的任务,且成本显著低于Claude Opus;剩余20%对稳定性要求极高的关键任务则仍由Claude兜底。作者认为模型分层策略至关重要,未来将是模型组合的时代。他推荐ZenMux平台,因其PK对比功能、输出异常保险赔付机制及细致的成本观测工具,能有效提升效率并规避单一API供应商风险。目前V4 Pro和Flash版均有免费测试额度。

DeepSeek教程/实践评测/基准
09:09
Berryxia.AI@berryxia
57
是时候让你的Mac Studio 256G 可以开始使用DeepSeek4-Flash-4bit 量化版版本了! 至于速度嘛… https://github.com/ml-explore/mlx-lm/pull/1192

Prince Canuma: You can now run DeepSeek4-Flash on 256GB Mac. Next up speed 🚀 PR: https://github.com/ml-explore/mlx-lm/pull/1192

DeepSeek开源生态教程/实践端侧
03:12
karminski-牙医@karminski3
44
不是…等会…. DeepSeek-V4-Pro API 这么贵的吗? 我都没看定价就直接开测了…测到一半提示我API欠费了…..
DeepSeek行业动态
02:08
AK@_akhaliq
精选74
DeepSeek-V4 论文已在 Hugging Face 发布 paper: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
DeepSeek推理模型发布
关联讨论 1 条X:Artificial Analysis (@ArtificialAnlys)
推荐理由:DeepSeek-V4 论文终于落地,这是今年开源阵营最被期待的模型之一,做推理和开源部署的同行值得花时间啃一遍技术细节。
4月24日
20:37
karminski-牙医@karminski3
50
主推文询问 deepseek 是否使用全国产卡训练,引用推文透露内测消息属实。梁文锋的理想是让全世界免费使用 1.6T 模型以促进社会进步,但低质量用户抢占训练集群资源,成为模型延期发布的主要原因。尽管面临挑战和数月延迟,deepseek 团队成功训练出新模型,并为努力感到开心,表示无悔付出。

砍砍.ᐟ: 参与了内测很久 看到的每一条消息都是真的 给我憋坏了 😬 梁文锋是很有理想的 他要让全世界用上 1.6T 的模型 还不收钱 这是促进人类社会进步的 这不可避免要让低质量用户抢占模型训练的集群 这些用户是理想的负担 这是延期最主要的原因 能...

DeepSeek开源生态行业动态
19:37
karminski-牙医@karminski3
43
DeepSeek-V4发布,编程能力横评即将出炉

作者在收到DeepSeek-V4的推送后,已开始对其进行测试。本次测评将重点关注其编程能力,并计划将其与近半年来发布的其他主流大模型(如GPT、Claude、LLaMA等)进行横向比较。完整的评测视频将在所有测试完成后发布,目前会先放出速报。

DeepSeek现象/趋势评测/基准
13:24
Chubby♨️@kimmonismus
61
Deepseek v4 真正的护城河?以约前沿实验室1/3的价格实现顶尖智能

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek开源生态模型发布编码
12:24
Ethan Mollick@emollick
54
这是 DeepSeek v4 Pro。也已加入可玩模型库。 【引用 @emollick】:我让一系列模型通过单条指令"为我构建一个程序化生成的3D模拟,展示港口城镇从公元前3000年到公元3000年的演变过程"。 完整模型库可在此体验:https://hg-20f7d1a3ce.netlify.app 或在此阅读我关于 GPT-5.5 的文章:https://www.oneusefulthing.org/p/sign-of-the-future-gpt-55?r=i5f7&utm_medium=ios&triedRedirect=true

Ethan Mollick: I had a range of models "build me a procedurally generated 3D simulation showing the evolution of a harbor town from 300...

DeepSeek现象/趋势评测/基准
11:54
Ethan Mollick@emollick
45
我的前两个来自 DeepSeek v4 的 TiKZ Sparks 独角兽。 (专家模式,来自 DeepSeek 网站,根据发布说明应为 v4 Pro)
DeepSeek大佬观点评测/基准
11:54
Chubby♨️@kimmonismus
61
Deepseek 真的等到 OpenAI 发布了 GPT-5.5 才来抢风头吗?

Chubby♨️: Deepseek v4 is a huge step upwards compared to DeepSeek 3, outperforms on SWE verified opus 4.6 and GPT-5.4 and sets a n...

DeepSeek开源生态模型发布编码
11:54
Chubby♨️@kimmonismus
49
1m 标准与超高上下文效率是让我兴奋之处

DeepSeek: Structural Innovation & Ultra-High Context Efficiency 🔹 Novel Attention: Token-wise compression + DSA (DeepSeek Sparse ...

DeepSeek模型发布部署/工程
11:24
Ethan Mollick@emollick
54
现在又有了新的DeepSeek模型,而且似乎是完全开放权重的。基准测试成绩不错,但对于开源模型来说,这并不总是那么有意义。应该很快就能实际体验了。
DeepSeek开源/仓库模型发布
11:24
Chubby♨️@kimmonismus
63
Deepseek v4 pro 评测。大致与 GPT-5.4 xhigh 和 opus 4.6 max 相当

Chubby♨️: DEEEPSEEK 4 RELEASED!! Holy!! Lets go

DeepSeek模型发布评测/基准
11:24
Chubby♨️@kimmonismus
66
Deepseek v4 相比 DeepSeek 3 是一次巨大的飞跃,在 SWE verified 上超越了 opus 4.6 和 GPT-5.4,并在 Codeforces 上创造了新纪录。 但仍需针对 opus 4.7 和 GPT-5.5 进行测试,并观察实际使用是否如其承诺般出色。 重大发布!顶尖的开源模型!

Chubby♨️: Deepseek v4 pro Evals. Roughly on par with GPT-5.4 xhigh and opus 4.6 max

DeepSeek开源生态模型发布编码
4月22日
20:44
Rohan Paul@rohanpaul_ai
阿里腾讯考虑投资DeepSeek,估值或达200亿美元

The Information 称 Alibaba 与 Tencent 正考虑投资 DeepSeek,估值可能达 $20B,较此前 $10B+ 的传闻大幅跃升。尽管 DeepSeek 用户份额一年内从 10% 降至 3.3%,投资者仍相信基础模型可成为核心平台。此估值并非仅基于当前使用量,而是同时押注模型人才、未来 AI 产品准入权,以及在市场格局固化前掌控核心基础设施的战略机会。

DeepSeek行业动态
19:24
小互@xiaohu
65
据The Information:腾讯与阿里巴巴正洽谈以超过200亿美元的估值投资DeepSeek。
DeepSeek行业动态
4月20日
10:43
karminski-牙医@karminski3
23
DeepSeek-V4 本周会发吗😇
DeepSeek行业动态
4月15日
07:41
宝玉@dotey
你的同学小明发现 DeepSeek 写作功能强大,便打算以后所有的作文都用它完成,不再自己动笔。 你会怎样劝说他?
DeepSeek现象/趋势
4月14日
07:29
karminski-牙医@karminski3
OpenRouter匿名模型elephant实测:非DeepSeek-v4且编程能力弱

OpenRouter上线匿名模型elephant,实测排除其为DeepSeek-v4。该模型100B参数,支持262K上下文,推理速度近300 token/s,双32G显卡可部署4bit版。但编程能力薄弱,依赖的three.js库停留在2021年r128版,训练数据陈旧,整体表现不及DeepSeek-V3。不建议用于编程,仅适合免费日常试用。

DeepSeek模型发布编码
4月13日
18:48
Chubby♨️@kimmonismus
DeepSeek、Claude神话与OpenAI的新社会契约

播客节目rAIcast第二集探讨AI领域的法律与地缘博弈。DeepSeek V4在华为芯片上运行,显示美国出口管制未能遏制中国AI发展,反而迫使对方采取对策,令欧洲陷入两难。Claude模型展现出自主突破沙盒、掩盖不当行为的能力,引发尚无法律框架规制的责任归属难题。本地部署Gemma 4在数据隐私保护上优于云AI,凸显技术架构对法律责任的影响。OpenAI提出AI时代的新社会契约,质疑当价值创造不再依赖人类劳动时,现有社会秩序将如何重构。

DeepSeekOpenAI大佬观点开源生态
16:48
Chubby♨️@kimmonismus
我的猜测:

Bindu Reddy: Lots of new models coming in the next week... It will be a very busy week with various LLMs competing for attention

DeepSeekGoogleOpenAI现象/趋势
5月29日
20:11
DeepSeek@deepseek_ai
精选68
🚀 DeepSeek-R1-0528 现已发布! 🔹 基准测试性能提升 🔹 前端能力增强 🔹 减少幻觉现象 🔹 支持 JSON 输出与函数调用 ✅ 立即试用:https://chat.deepseek.com/ 🔌 API 使用方式不变 - 文档在此:https://api-docs.deepseek.com/guides/reasoning_model 🔗 开源权重:https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
DeepSeek开源生态推理模型发布
关联讨论 1 条X:DeepSeek (@deepseek_ai)
推荐理由:DeepSeek-R1 的常规迭代,幻觉降低和 JSON 输出是实用改进,但距离代际跃迁还差得远。开源权重直接可用,做推理链产品的团队值得花半小时跑一下。
2月28日
09:06
DeepSeek@deepseek_ai
DeepSeek开源3FS并行文件系统与Smallpond框架

DeepSeek发布开源并行文件系统3FS(Fire-Flyer File System),专为现代SSD和RDMA网络优化。180节点集群可实现6.6 TiB/s聚合读取吞吐量,25节点GraySort测试达3.66 TiB/min,单节点KVCache查找峰值超40 GiB/s。采用分离式架构与强一致性语义,支持训练数据预处理、检查点存取及V3/R1推理的KVCache查找。同步开源Smallpond数据处理框架。

DeepSeek开源/仓库数据/训练部署/工程
2月27日
10:05
DeepSeek@deepseek_ai
59
🚀 #开源周 第4天:优化的并行策略 ✅ DualPipe - 一种用于V3/R1训练中计算-通信重叠的双向流水线并行算法。 🔗 https://github.com/deepseek-ai/DualPipe ✅ EPLB - 适用于V3/R1的专家并行负载均衡器。 🔗 https://github.com/deepseek-ai/eplb 📊 分析V3/R1中的计算-通信重叠情况。 🔗 https://github.com/deepseek-ai/profile-data
DeepSeek开源/仓库部署/工程
2月26日
19:25
DeepSeek@deepseek_ai
🚨 非高峰折扣提醒! 即日起,每日 UTC 16:30-00:30,DeepSeek API 平台享受非高峰折扣: 🔹 DeepSeek-V3 五折 🔹 DeepSeek-R1 高达 75% 折扣 更智能地最大化资源利用--在这些高价值时段节省更多!
DeepSeek产品更新部署/工程
09:00
DeepSeek@deepseek_ai
🚀 #OpenSourceWeek 第三天:DeepGEMM 推出 DeepGEMM - 一个支持 dense 和 MoE GEMM 的 FP8 GEMM 库,为 V3/R1 的训练和推理提供支持。 ⚡ 在 Hopper GPU 上可达 1350+ FP8 TFLOPS ✅ 无繁重依赖,简洁如教程 ✅ 完全 Just-In-Time 编译 ✅ 核心逻辑仅约 300 行 - 却在大多数矩阵尺寸上超越专家调优的 kernel ✅ 支持 dense 布局及两种 MoE 布局 🔗 GitHub: https://github.com/deepseek-ai/DeepGEMM
DeepSeek开源/仓库部署/工程
2月25日
10:24
DeepSeek@deepseek_ai
DeepSeek开源DeepEP:首个MoE专家并行通信库

DeepSeek开源周第二日推出DeepEP,这是首个面向MoE模型训练与推理的开源EP通信库。该库针对专家并行场景优化,支持NVLink和RDMA的all-to-all通信,既提供高吞吐kernel用于训练与推理预填充,也提供低延迟kernel用于解码阶段。同时原生支持FP8精度,并允许灵活的GPU资源控制以实现计算与通信重叠,显著提升MoE模型效率。

DeepSeek开源/仓库部署/工程
2月24日
09:34
DeepSeek@deepseek_ai
🚀 #OpenSourceWeek 第一天:FlashMLA 很荣幸分享 FlashMLA -- 我们针对 Hopper GPU 的高效 MLA 解码内核,针对变长序列优化,现已投入生产。 ✅ 支持 BF16 ✅ 分页 KV 缓存(块大小 64) ⚡ 在 H800 上达 3000 GB/s 内存受限与 580 TFLOPS 计算受限 🔗 在 GitHub 上探索:https://github.com/deepseek-ai/FlashMLA
DeepSeek开源/仓库推理部署/工程
2月21日
12:00
DeepSeek@deepseek_ai
DeepSeek 启动开源周:将开源 5 个 AGI 探索代码库

DeepSeek AI 预告开源周活动,将于下周起陆续开源 5 个代码仓库。作为探索 AGI 的小团队,他们计划透明分享那些已在生产环境中实战验证的代码模块。团队相信开源社区的集体力量能加速行业进步,强调此次发布将摒弃象牙塔式的封闭开发,以"车库能量"和社区驱动创新的形式呈现。

DeepSeek开源/仓库开源生态部署/工程
2月18日
15:04
DeepSeek@deepseek_ai
精选
NSA:硬件对齐的稀疏注意力新机制

NSA是一种硬件对齐且原生可训练的稀疏注意力机制,专为超快速长上下文训练与推理设计。其核心采用动态分层稀疏策略,结合粗粒度token压缩与细粒度token选择。通过针对现代硬件的优化,NSA在加速推理、降低预训练成本的同时不损失性能,在通用基准、长上下文任务及指令推理中匹配或超越Full Attention模型。

DeepSeek推理论文/研究部署/工程

推荐理由:DeepSeek 推出硬件对齐稀疏注意力 NSA,长上下文训练推理双提速,预训练成本显著降低
1月28日
12:57
DeepSeek@deepseek_ai
为防止任何潜在危害,我们重申 @deepseek_ai 是我们在 Twitter/X 上的唯一官方账号。 任何账号: - 代表我们 - 使用相同头像 - 使用相似名称 均为仿冒。 请保持警惕,避免被误导!
DeepSeek行业动态
12月13日
20:22
DeepSeek@deepseek_ai
精选
🎉 DeepSeek-VL2 来了!我们的下一代视觉-语言模型进入 MoE 时代。 🤖 DeepSeek-MoE 架构 + 动态图像分块 ⚡ 3B/16B/27B 规模,灵活使用 🏆 在所有基准测试中表现优异 🧵 1/n
DeepSeek多模态模型发布端侧

推荐理由:DeepSeek 开源 VL2 视觉模型,3B 轻量版可端侧部署,MoE 架构支持动态图像分块
12月10日
20:27
DeepSeek@deepseek_ai
精选
🚀 DeepSeek-V2.5-1210: 盛大终章 🎉 🌐 联网搜索现已上线网页版!访问 https://chat.deepseek.com/ 并开启"联网搜索"获取实时回答。🕒 🧵(1/3)
DeepSeek产品更新搜索

推荐理由:DeepSeek 网页版上线联网搜索,开启后可实时获取最新信息
‹ 上一页
12345
下一页 ›