DeepSeek v4 Pro还是可以的。几轮对话，实现一个工具，用xbox手柄控制电脑应用和浏览器。当遥控器，躺床上刷小说和看视频。

http://x.com/i/article/2050492808184659968 # NVIDIA Blackwell vs. Huawei Ascend: Did DeepSeek V4 prove China doesn't need Western silicon? Every Saturday, I write a Deep Dive for my newsletter at getsuperintel.com. Given how important the China–US chip race has become, I’m publishing today’s Deep Dive here on X as a full article. Yesterday, I promised to take a closer look at Huawei chips vs. NVIDIA and DeepSeek. Here it is. Enjoy the read. For the better part of three years, the Western technology establishment slept soundly on a reassuring premise: China was hopelessly behind in AI chips, and export controls would keep it that way. Chris Miller's bestselling book "Chip War" painted a vivid and persuasive picture of a global semiconductor supply chain so intricate, so dependent on Western chokepoints, that Chinese self-sufficiency seemed a decade or more away. ASML's monopoly on extreme ultraviolet lithography, NVIDIA's stranglehold on AI training through its CUDA software ecosystem, and TSMC's unmatched manufacturing prowess formed what appeared to be an impenetrable triple lock. Then, in April 2026, DeepSeek released V4, a 1.6 trillion parameter Mixture-of-Experts model with 49 billion active parameters and a one-million-token context window. On selected coding and reasoning benchmarks, it approaches frontier-class performance, even though CAISI’s May 2026 evaluation still places it roughly eight months behind the absolute frontier; a model deeply optimized for Huawei's domestic Ascend chip ecosystem and confirmed to run on Huawei's latest Ascend 950 infrastructure for inference and deployment. While the full details of V4's training hardware remain ambiguous, with some reports suggesting pre-training still relied on NVIDIA GPUs (ChinaTalk, 04/27/2026), the strategic significance is clear: DeepSeek has built a frontier model that no longer depends on Western hardware to operate at scale, and that may soon no longer need it to train, either. Huawei's Ascend processors, manufactured domestically by China's SMIC foundry using equipment that Western analysts said could never produce chips this advanced. The implications are staggering, and they demand an honest reckoning with a central question: How did China close a gap that was supposed to take 10 to 15 years, in roughly three? ## The chip gap was real, but measured wrong To understand what happened, you first need to understand what the "chip gap" actually meant, and where the framing went wrong. On the level of a single chip, Western superiority remains overwhelming. NVIDIA's current flagship, the Blackwell B200, is fabricated on TSMC's cutting-edge 4-nanometer process and delivers around 2,250 teraflops of computing power at BF16 precision, paired with 192 gigabytes of the latest HBM3e memory running at 8 terabytes per second of bandwidth. Huawei's earlier domestic alternative, the Ascend 910C, illustrates the scale of the gap. Built on SMIC's optimized 7-nanometer process using older lithography tools, it manages roughly 700 teraflops and offers only 3.2 terabytes per second of memory bandwidth, roughly a third of the compute and less than half the bandwidth of a single B200. Huawei's newer Ascend 950 generation, which is now central to the DeepSeek V4 story, narrows the gap further but still appears to trail NVIDIA's most advanced chips significantly. This is the metric much of the Western chip-control debate focused on, and on this metric, the diagnosis was largely correct. China remains one to two hardware generations behind. But here is where the Western analysis made a critical error: it assumed the chip-level gap would translate directly into a capability gap. It did not. Brute Force at Scale Huawei's answer to NVIDIA's chip-level dominance is what engineers call a "scale-out" strategy, and it is as elegant in concept as it is brutal in execution. Where NVIDIA's reference data center system, the GB200 NVL72, connects 72 Blackwell GPUs into a unified computing fabric delivering about 180 petaflops, Huawei simply built bigger. Its CloudMatrix 384 system packs 384 Ascend 910C chips into a densely interconnected cluster, delivering a theoretical 300 petaflops of BF16 compute, roughly 1.7 times the NVIDIA system's raw output. It also offers 3.6 times the aggregate memory capacity and 2.1 times the total memory bandwidth. The trade-off is enormous. A single NVIDIA NVL72 rack consumes about 145 kilowatts. The Huawei CloudMatrix 384 devours 560 kilowatts, making it about 2.5 times less energy-efficient per unit of useful computation. In any normal commercial context, this would be economic suicide. No Western cloud provider would willingly operate hardware this inefficient when cheaper, more performant alternatives exist. But China is not operating under normal commercial logic. The development of domestic AI infrastructure is treated as a matter of national sovereignty. State-backed telecommunications giants and government investment funds subsidize the astronomical energy costs. When the goal is strategic independence from a hostile technology embargo, electricity bills become a secondary variable. ## Software Ate the Hardware Gap The CUDA moat falls? The brute-force hardware story only gets you halfway to an explanation. Even with 384 chips wired together, you still need software sophisticated enough to orchestrate them. This was supposed to be NVIDIA's second, even more durable advantage: its CUDA software platform, the invisible infrastructure that makes AI training on NVIDIA hardware almost effortless and that locked in developers through massive switching costs. Huawei's alternative, called CANN (Compute Architecture for Neural Networks), was for years considered unstable and painful to use. Training runs on Huawei clusters frequently crashed. Hardware utilization rates hovered around a dismal 60 percent, meaning 40 percent of the expensive compute was being wasted to coordination failures and software bugs. DeepSeek V4 is the proof that this barrier has been overcome. DeepSeek engineers worked directly with Huawei to write custom software kernels, specifically designed for the Ascend chip's architecture, that overlap computation, memory access, and network communication simultaneously. These optimizations pushed hardware utilization from 60 percent to over 85 percent, fundamentally changing the economics of Chinese AI clusters. Algorithmic genius as compensation But the truly revolutionary contribution of DeepSeek V4 is not the hardware adaptation. It is the model architecture itself, a masterclass in using software innovation to compensate for hardware limitations. The model employs a Mixture-of-Experts (MoE) architecture. While it has 1.6 trillion total parameters, only 49 billion, roughly 3 percent, are activated for any given computation. The network consists of hundreds of specialized sub-networks, or "experts," each trained for specific tasks like mathematical reasoning, Chinese grammar, or Python code generation. A dynamic routing system decides which experts to engage for each input token. The result is a model with the knowledge capacity of a 1.6-trillion-parameter giant but the computational cost of something far smaller. Earlier MoE systems suffered from a problem called "routing collapse," where a few popular experts got overwhelmed while others sat idle. DeepSeek solved this with what they call "Anticipatory Routing," computing expert assignments asynchronously in advance using slightly older network weights. This decouples the routing decision from the critical computation path and dramatically stabilizes training (DeepSeek-AI, Technical Report, 04/2026). The team also deployed the Muon optimizer, a departure from the AdamW optimizer used across virtually the entire Western AI industry. Muon works by ensuring that parameter updates during training remain mathematically orthogonal to each other, preventing the kind of conflicting gradient updates that can cause training to collapse, a risk that is especially acute on less reliable hardware. Perhaps most impressively, DeepSeek introduced FP4 quantization-aware training. While most AI labs train their models in 16-bit or 8-bit numerical precision, DeepSeek trained its expert weights in just 4-bit precision. Because each expert handles only a narrow domain, this extreme compression works without meaningful quality loss, and it dramatically reduces memory bandwidth consumption, precisely the resource where Huawei's chips are most disadvantaged relative to NVIDIA. The cumulative effect of these innovations is staggering. DeepSeek V4-Pro can process contexts of one million tokens, the equivalent of 15 to 20 full novels, while requiring only 27 percent of the compute and 10 percent of the memory cache compared to its predecessor, DeepSeek V3.2. ## The Lithography Question: Did China Copy ASML? The question of how SMIC (Semiconductor Manufacturing International Corporation (SMIC) is the largest and most advanced pure-play semiconductor foundry in mainland China) manufactures advanced chips without access to ASML's extreme ultraviolet (EUV) lithography machines is perhaps the most technically fascinating part of this story. EUV uses light with a wavelength of 13.5 nanometers to etch transistor patterns onto silicon wafers. It is considered physically essential for chip features below 7 nanometers, and the Netherlands has banned its export to China since 2019. SMIC's workaround is a technique called Self-Aligned Quadruple Patterning (SAQP). Since the older deep ultraviolet (DUV) light it has access to, at 193 nanometers, is too coarse to draw fine features in a single pass, SMIC exposes the wafer four times in succession with extraordinary precision, effectively creating structures equivalent to 7-nanometer and, as of late 2025, even 5-nanometer processes. Independent analysis by TechInsights confirmed that Huawei's Kirin 9030 uses SMIC's N+3 process, a scaled evolution of its 7nm-class technology that shows how close SMIC is getting to 5nm-class manufacturing without EUV, while still remaining meaningfully behind leading commercial 5nm nodes from TSMC and Samsung (TechInsights, 12/11/2025). The catch is yield. SMIC's multi-patterning approach produces catastrophic defect rates, with only 30 to 40 percent of chips coming off the line in working condition. For comparison, TSMC achieves yields above 80 percent with its EUV processes. Each wafer takes longer to produce, the machinery wears out faster, and the cost per working chip is astronomical. For any company operating in a free market, this approach would mean bankruptcy. For China, it is a matter of state policy: hundreds of billions of yuan in subsidies from government investment funds absorb the losses. China's EUV Manhattan Project The long-term DUV workaround has a ceiling. Pushing beyond the current 5nm-class toward the 3nm and emerging 2nm frontier becomes exponentially harder without EUV. Each additional patterning step adds cost, defect risk, and cycle time, and the economics deteriorate rapidly. DUV can be stretched further, but not indefinitely, and not competitively. An ASML EUV machine costs over 370 million dollars, weighs more than 180 tons, contains over 100,000 specialized components, and requires three Boeing 747 cargo planes to transport. The precision of its mirror system, supplied by Germany's Carl Zeiss, operates at tolerances measured in picometers, the width of individual atoms. You cannot reverse-engineer this from a blueprint. The knowledge is embedded in people. China has pursued exactly this vector. Reporting from late 2025 revealed that China had initiated a classified research program of extraordinary scale, internally compared to the Manhattan Project (Reuters, 11/2025). Under high-level political coordination, a secured laboratory in Shenzhen produced a functioning EUV prototype in early 2025. The effort relied heavily on recruiting former ASML engineers, including key figures from the company's light-source development division, with signing bonuses reportedly reaching up to $700,000. Within 18 months, one recruited team filed eight critical EUV-related patents. The prototype is far from commercially viable. It fills nearly an entire factory hall, uses secondary-market optics from Nikon and Canon rather than Zeiss-grade components, and achieves only about 3.4 percent conversion efficiency, far too low for high-volume manufacturing. It demonstrates an important proof-of-concept milestone. Western intelligence agencies, which had projected a Chinese EUV machine for 2035 at the earliest, were caught off guard. The timeline has compressed by nearly a decade, with Chinese officials targeting functional EUV chip production by 2028 to 2030. ## A preliminary verdict The evidence leads to a clear, if uncomfortable, set of conclusions. DeepSeek V4 is not a benchmark stunt. On selected coding tasks, V4-Pro is highly competitive! It achieves 80.6% on the SWE-bench Verified coding benchmark, essentially matching Claude Opus 4.6 at 80.8%, and surpasses it on LiveCodeBench with 93.5% versus 88.8% (Of course, it's also true that real-world usage differs from the benchmarks.). It accomplishes this while offering API prices 90 to 97 percent lower than Western equivalents, a cost advantage driven not by predatory pricing but by genuine architectural efficiency. China did not close the chip gap. It went around it! The hardware remains inferior chip-for-chip, but radical system-level scaling, extraordinary software innovation, state-subsidized energy costs, and a willingness to accept manufacturing inefficiencies that would destroy any commercial enterprise combined to produce an outcome that the sanctions were specifically designed to prevent. ## The sanctions paradox The deepest irony of this story is that the export controls may have accelerated the very outcome they sought to prevent. Before October 2022, Chinese AI labs were happy NVIDIA customers, content to buy American hardware and train their models on CUDA. The sanctions forced them into an uncomfortable but ultimately productive marriage with Huawei, compelled DeepSeek to invent algorithmic solutions to hardware problems, and gave the Chinese government the political mandate to pour unlimited resources into semiconductor independence. Chris Miller's analysis in "Chip War" was not wrong about the physics. EUV lithography is genuinely hard, and NVIDIA's chips are genuinely superior. What it underestimated was the degree to which software innovation, system-level engineering, and state-directed economic irrationality could neutralize those advantages in practice. The 10-to-15-year gap was measured in hardware generations. China's response was to make the hardware generation gap matter less. The question going forward is not whether China can match NVIDIA chip for chip. It probably cannot, at least not soon. The question is whether chip-for-chip superiority still matters when the competition is being fought on a different axis entirely, one where algorithmic efficiency, system architecture, and political will have proven to be just as decisive as nanometers and transistors. The West built a fortress around its silicon. China built a ladder out of software, and climbed over the wall. A few final words and personal views The future of AI infrastructure is more open than anyone in Washington or Silicon Valley assumed even 12 months ago, and the comfortable narrative of permanent Western dominance no longer holds. What we are watching is the emergence of a genuine two-player race between the US and China, one that will be fought across hardware, software, and industrial policy simultaneously, with escalating intensity on both sides. Europe, absent any frontier chip design capability or hyperscaler of its own, risks being reduced to a spectator in this contest. But one European lever remains decisive: as long as ASML remains the only supplier of production-grade EUV lithography, Europe is not merely watching the game. It holds one of the few choke points that still shapes the board. P.s. This text is essentially the answer to my open question: Sources referenced in the article: 1. DeepSeek V4 Technical Report (04/24/2026) https://huggingface.co/collections/deepseek-ai/deepseek-v4 / https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf 1. TechInsights: SMIC N+3 Confirmed, Kirin 9030 Analysis (12/11/2025) https://www.techinsights.com/blog/smic-n3-confirmed-kirin-9030-analysis-reveals-how-close-smic-5nm 1. Reuters (via Modern Diplomacy): Inside China's Secret Push to Build Its Own EUV Chip Machine (12/17/2025) https://moderndiplomacy.eu/2025/12/18/inside-chinas-secret-push-to-build-its-own-euv-chip-machine/ (Original Reuters article is paywalled; this is the most complete openly accessible version citing Reuters directly) 1. MIT Technology Review: Three Reasons Why DeepSeek's New Model Matters (04/24/2026) https://www.technologyreview.com/2026/04/24/1136422/why-deepseeks-v4-matters/ 1. NIST/CAISI Evaluation of DeepSeek V4 Pro (05/02/2026) https://www.nist.gov/news-events/news/2026/05/caisi-evaluation-deepseek-v4-pro 1. EE Times: China EUV Breakthrough and the Rise of the 'Silicon Curtain' (12/23/2025) https://www.eetimes.com/china-euv-breakthrough-and-the-rise-of-the-silicon-curtain/ 1. Asia Times: Made-in-China EUV Machine Targets AI Chip Output by 2028 (12/24/2025) https://asiatimes.com/2025/12/made-in-china-euv-machine-targets-ai-chip-output-by-2028/

译西方长期认为中国在AI芯片领域落后10-15年，但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态，可在昇腾950基础设施上部署推理，实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上，昇腾950仍显著落后于NVIDIA Blackwell B200，但中国通过“横向扩展”战略，用大量国产芯片集群结合软件优化和模型架构创新（如MoE），使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。

Artificial Analysis@ArtificialAnlys · 5月1日57

All three leading open weights models were released last week. Progress continues for open weights models alongside proprietary ones, with the gap to GPT-5.5, the leading proprietary model, sitting at 6 points on the Artificial Analysis Intelligence Index @Kimi_Moonshot’s Kimi K2.6 (Reasoning) and @Xiaomi's MiMo V2.5 Pro (Reasoning) tie as the leading open weights models on the Artificial Analysis Intelligence Index at 54, with @deepseek_ai's DeepSeek V4 Pro (Reasoning, Max Effort) at 52. This places the best open weights models within 3-6 points of the leading proprietary models: @OpenAI's GPT-5.5 (xhigh) at 60, and @Google's Gemini 3.1 Pro Preview and @AnthropicAI's Claude Opus 4.7 (Adaptive Reasoning, Max Effort) at 57. For context: just one year ago the highest-scoring open weights model was DeepSeek V3 0324 which achieved 22 on the Intelligence Index, and was ~13 points below the highest-scoring proprietary model, Claude 3.7 Sonnet (Reasoning) at 35. Key takeaways: ➤ The top three most intelligent open weights models are trillion-plus-parameter MoE architectures with permissive licenses. Kimi K2.6 (Reasoning) has 1T total / 32B active parameters with 256K context window, MiMo V2.5 Pro (Reasoning) has 1T total / 42B active with 1M context window, and DeepSeek V4 Pro (Reasoning, Max Effort) has 1.6T total / 49B active with 1M context window. ➤ The gap to proprietary remains wide on the hardest reasoning and agentic coding evaluations. On HLE (Humanity's Last Exam) the three top open weights models score 34-36%, vs 44% for GPT-5.5 (xhigh) and 45% for Gemini 3.1 Pro Preview. On CritPt (Research-level Physics) they score 4-12%, vs 27% for GPT-5.5 (xhigh). On TerminalBench Hard (Agentic Coding & Terminal Use) they score 43-46%, vs 61% for GPT-5.5 (xhigh) and 54% for Gemini 3.1 Pro Preview. ➤ Omniscience (knowledge + hallucination) shows a large gap to proprietary models, with DeepSeek V4 Pro (Reasoning, Max Effort) hallucinating significantly more than its open weights peers. DeepSeek V4 Pro (Reasoning, Max Effort) scores -10, MiMo V2.5 Pro (Reasoning) +4, and Kimi K2.6 (Reasoning) +6. By comparison, GPT-5.5 (xhigh) scores +20, Claude Opus 4.7 (Adaptive Reasoning, Max Effort) +26, and Gemini 3.1 Pro Preview +33.

译上周，Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布，在Artificial Analysis Intelligence Index上得分达52-54分，与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内，相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而，在复杂推理、智能体编码及知识准确性方面，开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后；在Omniscience评估中，DeepSeek V4 Pro的幻觉问题尤为突出。

Orange AI@oran_ge · 5月1日33

能看出 deepseek 的中文确实不咋样...

译主推文指出DeepSeek的中文润色效果不佳。引用推文中，美国开发者@goodhunt推广其开源项目DeepSeek-TUI，希望连接中国开发者社区，但受限于翻墙和微信验证问题。他请求帮助扩散工具和验证微信号，以建群讨论DeepSeek、开源及agent开发，并承诺使用cargo install安装路径避免npm。该推文中文由DeepSeek润色，凸显了其语言处理的局限性。

小互@xiaohu · 5月1日65

好的兄弟哈哈哈哈

译一位开发了DeepSeek-TUI终端工具的美国开发者，希望与国内开发者社群建立联系，共同探讨DeepSeek、开源及智能体开发。他因无法自行解决网络问题以使用微信，特请求社区帮助：一是转发推广其开源项目，二是协助验证微信号以便建群交流。作为回报，他承诺工具将通过cargo install方式安装。

elvis@omarsar0 · 5月1日58

I have been testing DeepSeek-V4-Pro with the Pi coding agent. I am mindblown by how well it works out of the box. A few notes: I spent a few hours building an LLM wiki with an agent powered entirely by DeepSeek-V4-Pro on @FireworksAI_HQ inference. This is the first time I feel like there is an open-weight model that can reason at the level of Claude and Codex. And it does this in a cost-effective way with support for 1M context length. To be clear, I am using DeepSeek-V4-Pro inside of Pi without any special configuration. It works out of the box. It's exciting that there is a model that can just be plugged into a basic harness like Pi, and it just works. I've never seen that before. Most models require lots of configuration and setup. @deepseek_ai's DeepSeek-V4-Pro is clearly good at agentic coding (probably the best from the open-weight models), but the model is also great on knowledge-intensive tasks where reasoning matters. The agent pulled agentic engineering best practices from different company docs (Anthropic, OpenAI, Google, Stripe, Meta, Modal, DeepSeek, Mistral, Cohere), searched and digested Reddit and HN threads, summarized arxiv papers, and surfaced trending GitHub repos. Then it distilled everything into actionable tips across categories. I love the Wiki it built. The quality is really good. Here is a snapshot of what the wiki looks like: https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wiki DeepSeek-V4-Pro handled the task without breaking stride. Multi-step research queries, code generation for scaffolding, context-heavy reasoning across disparate sources. For coding specifically, this is the first open-weight model that genuinely feels like a Codex or Claude Code experience. It compares in capability and actual multi-turn agentic work. What made the loop feel so responsive was Fireworks' inference speed (the fastest in the market) and the fact that they actually validate models at the systems level before shipping. No corrupted reasoning traces. Just fast, reliable iteration. The hybrid CSA and HCA attention design cuts KV cache to just 10% and inference FLOPs by nearly 4x at 1M-token context. This is what makes the agent loop actually fast and cheap enough to run in practice. For devs who've been watching open-weight models close the gap but haven't found one that actually delivers in practice, this is the closest I've seen. Try it here: https://app.fireworks.ai/models/fireworks/deepseek-v4-pro

译测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

Nathan Lambert@natolambert · 5月1日47

Distillation is largely an industry standard and not just something done by Chinese labs targeting OpenAI/Anthropic. Many American companies also distill Chinese (open) models.

译蒸馏在很大程度上是行业标准，并非仅是中国实验室针对 OpenAI/Anthropic 的做法。许多美国公司也会蒸馏中国的（开源）模型。

karminski-牙医@karminski3 · 5月1日72

给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (claude code, kimi cli 等) / AI IDE (cursor 等) 用 DeepSeek 的时候偶尔会遇到报错: HTTP 400 {"error":{"message":"The `reasoning_content` in the thinking mode must be passed back to the API.","type":"invalid_request_error","param":null,"code":"invalid_request_error"}} 这个报错的意思是, 请求 DeepSeek API 必须在 tool_call 的时候回传 reasoning_content 这个字段. 听上去没问题, 开了思考模式那肯定要把 reasoning_content 作为上下文回传. 但是来了, 如果任务的这一步制定的 tool_call 过于显而易见, deepseek 返回的 reasoning_content 其实是空字符串. 这就导致了有些写代码的 IDE 直接过滤掉了这个字段, 不回传, 导致 DeepSeek API 报错, 编码任务或者 Agent 就直接挂了. DeepSeek-V4 API会不会真的有的时候 reasoning_content 空字符串? 答案是会的, 我专门构建了个 POV 场景, 复现概率高达 59%. 那么出现 reasoning_content 为空字符串的时候该怎么办? 经过验证, 答案是必须原样传回去. 即也在 context 中保留这个值为空字符串的字段. 不能是空对象, 也不能丢掉. 那就原样传回去呗? 废什么话呀? 关键是, 现有的各种 terminal coding agent 或者 AI IDE 这并不是默认行为, 它们大部分的默认行为是直接把字段丢掉了, 导致 DeepSeek-V4 API 报错. 所以现在的解决方法是, 要么等 IDE 的官方修复, 要么你用的 IDE 或者 coding agent 是开源的, 自己 fork 一个版本魔改. 另外, 如果你的 Agent 项目要使用 DeepSeek-V4 也要注意这个坑. 避免运行到一半直接报错退出. 以及, 报错重试不太行的, 因为 DeepSeek-V4 在我 POV 这个场景, 59% 的概率都会为空. 如果重试次数为 3, 那偶尔都不够用. 所以还是老实的把问题解决为好. #deepseek #deepseekv4

译用户在使用DeepSeek-V4 API或集成该模型的终端编码代理（如Claude Code、Kimi CLI）和AI IDE（如Cursor）时，频繁遇到HTTP 400报错。错误信息指出，在思考模式下必须将`reasoning_content`字段回传给API。核心问题在于，当任务步骤的`tool_call`过于简单直接时，DeepSeek-V4返回的`reasoning_content`可能为空字符串。许多开发工具默认会过滤掉空值字段，导致该字段未被回传，从而触发API报错，致使编码任务或代理中断。经测试，在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传，不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具，使用DeepSeek-V4的代理项目也需注意此问题。

karminski-牙医@karminski3 · 5月1日64

POV 在这里 https://github.com/karminski/deepseek-reasoning-content-field-issue-pov

译使用DeepSeek-V4 API开启思考模式时，必须在后续请求中回传模型返回的`reasoning_content`字段。当任务过于简单时，该字段可能为空字符串，而许多终端编码代理和AI IDE的默认行为会过滤掉空值字段，导致API返回HTTP 400错误并中断任务。关键解决方案是必须原样回传该字段，即使其值为空字符串，不能丢弃或改为空对象。目前需等待工具官方修复或自行修改开源版本，仅靠重试难以根本解决此问题。

向阳乔木@vista8 · 5月1日61

http://x.com/i/article/2049885174113185792 # DeepSeek新论文解读：让AI像人一样“用手指着图片思考” DeepSeek 又在节前发论文了，真的顶不住。过去几年，多模态领域，大家卷的方向一直是"看得更清"：更高分辨率、更多视觉Token、动态裁剪。但 DeepSeek 这篇论文角度完全不一样，觉得看清后的信息利用效率远远不够，能推理清楚才更重要，真正的瓶颈不在感知。他们数据清洗做的很细致认真，比如把近 10 万数据用各种条件过滤到 3 万。还有数据合成也特别有意思，比如大量迷宫题的设计，哈哈哈哈。 DeepSeek 视觉 Token 用量只有其他前沿模型的十分之一，但效果基本持平，甚至不少维度有超越，牛逼！ > Github: https://github.com/deepseek-ai/Thinking-with-Visual-Primitives ## 一句话总结 DeepSeek团队提出了一种全新的多模态推理框架。核心思路是：让模型在推理过程中，像人类一样用"手指"指着图片上的具体位置来思考，用点和框这些视觉标记作为思维的最小单位。模型规模284B总参数（13B激活），视觉Token用量只有其他前沿模型的十分之一，却在空间推理、计数、拓扑推理等任务上达到甚至超越GPT-5.4、Claude-Sonnet-4.6和Gemini-3-Flash。 ## 这篇论文到底在解决什么问题？当前的多模态大模型，虽然已经很强了，但有一个根本性的瓶颈：语言天生就不擅长精确描述空间位置。举个生活中的例子。你让朋友帮你从一堆杂物里找东西，光靠嘴说"就在那个红色的旁边，偏左一点，上面那个"，说半天对方可能还是找不到。但你手一指，"就这个"，瞬间解决。模型也面临同样的困境。论文把这个问题定义为 "Reference Gap"（指代鸿沟）。之前业界的主要努力集中在另一个问题上，叫"Perception Gap"（感知鸿沟），就是让模型"看得更清楚"。比如用更高分辨率的图片、动态裁剪、多尺度patch等等。但论文指出，看清楚了不等于能推理清楚。即使模型把图片每个像素都看到了，当它需要在密集场景里数东西、做多步空间推理的时候，纯靠语言描述来追踪"我在说哪个物体"，很容易就乱套了。比如数一群人，模型用语言说"左边第三个穿蓝衣服的"，说着说着就搞混了，到底数到哪了？哪些数过了？这种混乱会像多米诺骨牌一样传导下去，论文称之为"级联幻觉"。之前也有一些工作尝试在思维链里加入边界框，但论文认为它们有三个局限： 1. 只是事后验证，把框当作辅助证据，没有真正融入思维过程本身 1. 主要解决的还是"看不清"的问题，集中在高分辨率场景 1. 依赖大量人工标注，扩展性差 1. 无法处理拓扑推理这类需要视觉标记作为思维媒介（而非仅仅作为证据）的复杂任务 ## 核心方案：用"视觉原语"来思考论文的解法非常直觉：既然语言不擅长指代空间位置，那就在思维链里直接嵌入坐标信息。具体来说，模型在推理的时候，可以随时输出两种"视觉原语"（Visual Primitives，可以理解为视觉世界里最基本的标记单元）： - Bounding Box（边界框）：用来框住某个物体，标记它的位置和大小 - Point（点）：用来标记一个抽象的位置，比如路径上的某个节点、运动轨迹上的一个点这些坐标信息直接穿插在模型的思维过程中。模型一边用语言推理，一边用坐标"指"着图片上的具体位置。论文把这叫做 "point-to-reason"（指着推理），灵感来自人类认知中的"指示性指代"（deictic pointers）。走迷宫的时候用手指沿着路径划，数密密麻麻的东西时用手指点着数，这些都是人类降低认知负荷、保持逻辑一致性的本能策略。看一个实际的例子就很好理解了。比如数一张图里有多少只熊在地面上： > 模型先扫描整张图，发现一只熊 [[452,23,804,411]] 抱在树上，排除掉。再看到一只熊 [[50,447,647,771]] 走在岩石上，算一个。又找到一只 [[380,645,868,961]] 在碎木头和泥土中间，也在地面上，再算一个。最终答案：2只。每一步推理都有明确的坐标锚定，不会出现"我刚才说的是哪只熊来着"这种混乱。 ## 模型架构：极致的视觉Token压缩整体结构模型采用类似LLaVA的标准架构：图片经过视觉编码器（ViT）提取特征，然后和文本指令拼接在一起，送入大语言模型生成回答。 - 语言骨干：DeepSeek-V4-Flash，一个MoE（Mixture-of-Experts，混合专家）架构的模型，总参数284B，推理时激活13B - 视觉编码器：DeepSeek-ViT，自研的视觉Transformer，支持任意分辨率输入压缩流水线这里是整个架构最值得关注的地方。模型对视觉信息做了三级压缩：第一级：ViT用14×14的patch（小方块）切图，生成patch token 第二级：ViT输出时做3×3空间压缩，把相邻的9个token沿通道维度合并成1个第三级：进入LLM后，利用CSA（Compressed Sparse Attention，压缩稀疏注意力，DeepSeek-V4-Flash自带的机制）把KV Cache（模型推理时存储的中间状态）再压缩4倍拿一张756×756的图片举例： - 原始像素：571,536个 - ViT patch token：2,916个 - 3×3压缩后送入LLM：324个 - CSA压缩后KV Cache条目：81个从原始像素到最终KV Cache，整体压缩比达到7,056倍。为了平衡性能和计算成本，ViT输出的视觉token数量被限制在81到384之间。超出这个范围的图片会在保持宽高比的前提下缩放。对比一下各模型处理800×800图片需要的Token/KV条目数。用最少的视觉Token，达到了前沿性能。这个效率差距相当惊人。 ## 预训练：大规模数据构建的工程细节为什么优先大规模扩展Box数据？论文给了三个很实在的理由：一、标注确定性高边界框紧紧包住物体，标注结果相对唯一。但点标注就很模糊了，物体上任何一个位置都可以是合法的点。极端情况下，如果物体被遮挡，你想标的背景物体上的点可能落在了前景遮挡物上，歧义非常大。二、任务泛化性好会输出框的模型可以轻松泛化到点格式，因为一个框本质上就是两个点（左上角和右下角）定义的。三、信息量更丰富点只提供位置，框还包含宽高等几何信息，能支持更复杂的下游推理。数据采集与清洗团队从互联网上大规模爬取目标检测相关数据。以Huggingface为例，用官方API筛选标记为"Object Detection"或"Grounding"的数据集，按热度排序做初筛，严格排除所有验证集和测试集防止数据泄露。还用LLM Agent自动解析各数据集的README文件，把五花八门的数据格式统一转换成预定义格式。爬取去重后，得到97,984个与框标注相关的数据源。人工抽检发现类别非常丰富，从常见目标（人、脸）到专业领域（CT扫描中的病灶区域、特定动漫角色）都有。但原始标注质量参差不齐，需要进一步过滤。两步过滤流水线第一步：语义审查。用MLLM自动检查标签的语义质量，过滤三类致命缺陷： 1、无意义的机器编码很多数据集保留了内部开发代码，比如标签就是"0"或"1"。强迫模型学这种映射会严重损害语言生成能力。 2、不可泛化的私人实体比如"MyRoommate（我的室友）"或"ID_Card_1"。模型没法从几个样本里学会某个非公众人物的视觉特征。公众人物则保留。 3、模糊缩写和主观评价比如工业检测里的"OK"或"NG"（Not Good）。一个"OK"标签，对应"完好的苹果"和"完好的电路板"，视觉上毫无关联。具体做法是：每个数据集抽3张图，让模型打0到10的质量分，输出"KEEP"或"DISCARD"决定，并附上理由。这一步从97,984个数据源筛到43,141个。第二步：几何质量审查。检查框标注的物理精度： 1、严重漏标（低召回率）图里明明有很多同类物体，只标了几个。抽样时漏标率超过50%的直接丢弃。 2、严重截断和偏移框没有合理包住目标。稍微松一点（包含少量背景噪声）可以接受，但严重截断关键视觉特征（比如切掉头或车轮）绝对不行。 3、巨型框问题框覆盖了图片90%以上面积，通常是图像分类数据被强行转成检测数据。偶尔出现算噪声，如果三张抽样图都这样，直接丢弃。这一步从43,141个筛到31,701个。类别均衡采样为了防止某些类别过度主导，团队设计了按类别采样的策略：每个数据集的每个类别最多随机抽1,000张图，不足1,000张的全保留。由于一张图可能属于多个类别，采样后做全局去重。最终得到超过4,000万高质量样本。统一的数据格式框标注和点标注都有统一的格式规范。框标注的提示模板类似："Locate TARGET in this image and report its bounding box coordinates." （请在该图像中定位目标，并报告其边界框坐标）回复格式用特殊token包裹：<|ref|>TARGET<|/ref|><|box|>[[x1,y1,x2,y2],...]<|/box|>。坐标归一化为0到999的离散整数，多个实例按从左到右排序。点标注的提示模板类似："Help me find TARGET. Give me the center point for each instance." （帮我找到目标。请给出每个实例的中心点）回复格式：<|point|>[[x1,y1],[x2,y2]...]<|/point|>。注意点格式的回复不需要输出物体名称，这是刻意设计的，目的是让点标记能扩展到更抽象的概念，比如用一串点表示一条轨迹。整个预训练阶段消耗了数万亿（trillions）多模态token。 ## 后训练：四类核心任务的冷启动数据预训练让模型具备了输出视觉原语的基础能力，但后训练需要一小批高精度的冷启动数据来引导模型学会"在推理过程中使用视觉原语"。冷启动数据有两个关键要求：（1）有明确的监督目标（来自标注或程序生成）。（2）尽可能配备自动验证器（比如规则检查器）来减少标签噪声。团队选了四类最能体现视觉原语价值的任务。 1. 计数（约10,000个冷启动样本）为什么计数特别需要视觉原语？人类数东西的时候会用"扫描并累加"的策略，一个一个点着数。但语言模型在物体数量多的时候，很难建立精确的一一对应关系。用框来锚定每个被数的物体，就像给每个物体贴了个编号。粗粒度计数比如"数图里有多少只狗"。从多个密集检测数据集聚合数据，经过三重过滤（避免物体过于密集、确保框足够大能看清、确保标注召回率高）。然后让MLLM按三步协议生成思维内容：（1）意图分析，识别目标类别（2）批量定位，一次性用视觉原语标记所有候选物体（团队发现批量定位比逐个枚举更高效，因为它能利用模型本身的定位能力，避免重复列举）（3）统计求和。还有一个严格的验证机制：确保思维内容中所有框坐标与元数据严格对齐、符合预定义语法、且与最终数字一致。细粒度计数比如"数图里有多少只在地面上的熊"。公开数据集太少，团队自建了一套数据构建流水线。先利用GQA数据集的图片和场景图（scene graph，记录了图中物体及其属性、关系的结构化数据），让MLLM生成细粒度计数问题，记录正确物体ID、排除的负样本ID和构题理由。然后以这些信息为输入，引导MLLM合成带视觉原语的推理链。跟粗粒度计数不同的关键点在于：细粒度计数要求模型做逐个扫描，系统性地检查场景中每个可能的物体是否满足指定的细粒度约束条件。团队还专门构建了答案为零的负样本，增强模型对幻觉的抵抗力。 2. 空间推理与通用视觉问答（约9,000个冷启动样本）论文把空间推理和通用VQA（视觉问答）合并为一个类别。核心假设是：在空间推理任务中培养出的"用视觉原语思考"能力，会自然泛化到更广泛的VQA场景。 1、自然场景数据同样基于GQA的图片和场景图，让MLLM设计以空间关系和物体交互为核心的问题，配合意图分析、物体定位、关系推理的结构化思维内容。在拥挤场景中，模型被指示选择有区分度的物体，并结合多种属性约束（比如同时用动作和属性）来唯一指定目标。但GQA的关系结构相对简单，很难大规模生成复杂的多跳推理样本。 2、合成场景数据为了突破这个限制，团队用CLEVR工具链生成多跳推理数据。 CLEVR支持可控的场景生成（不同物体密度）、问题生成、以及可编程的执行轨迹（每个推理步骤都映射到具体的物体ID）。团队把3D物体坐标投影为2D边界框作为监督信号，然后让MLLM合成包含意图分析、任务分解、多跳定位推理的思维链。 3、负样本增强专门构建查询物体或关系不存在的训练样本。在这种情况下，模型被训练为基于视觉证据给出"忠实拒绝"（faithful refusal），而非编造回答。 3. 迷宫导航（约460,000个冷启动样本）这是最有意思的任务，也是数据量最大的一个。为什么迷宫导航特别适合视觉原语？纯语言的思维链根本没法准确描述不规则形状的路径走向。但用点坐标就很自然，模型可以一步步标记"我现在在哪，我要往哪走"。迷宫生成方法：用三种经典算法（DFS深度优先搜索、Prim、Kruskal）生成可解且有难度的迷宫。这三种算法的共同特点是：任意两个格子之间只有少数路径，确保解不能被轻易猜到。三种拓扑结构：矩形网格、由同心环和角扇区组成的圆形迷宫、六边形（蜂巢）网格。不可解迷宫的精心设计：先生成一个可解迷宫，获取解路径，然后在路径中段（避开起点和终点附近）故意放几面墙，打断连通性。这样迷宫乍一看像是能走通的，但实际上需要完整搜索才能确认无解。这个设计非常巧妙，逼模型真正去搜索而不是凭直觉猜。视觉风格多样化：渐变色和加粗墙壁、多种背景图案、多种标记类型、随机小角度旋转，防止模型对特定视觉模式过拟合。图片分辨率随机化，宽高比连续采样，网格尺寸按比例调整。难度控制：通过改变网格大小来控制。网格越大，模型需要解析更多格子、在更长距离上追踪连通性、处理更多需要回溯的死胡同。简单迷宫只需要几步局部连通性检查，噩梦级迷宫需要持续链接数百个视觉原语操作，同时不丢失对已探索区域的记忆。每个难度级别都有最低分辨率阈值，确保视觉原语在最难的配置下仍然可感知，让任务难度来自推理复杂度而非视觉模糊性。思维内容合成：设计多种自然语言模板来描述基于DFS的探索过程，包括前进探索和回溯。每一步探索都通过点坐标锚定到图片上，把视觉原语操作（检查某个格子的墙壁连通性、前进到相邻格子、从死胡同退回）显式转化为语言化的推理链。最终输出迷宫是否可解，如果可解则提供验证过的解路径。 4. 路径追踪（约125,000个冷启动样本）任务是：给一堆缠绕在一起的曲线，指定一条线的起点，问它连接到哪个终点。数据生成：用多条贝塞尔曲线（Bézier curves，一种用控制点定义的平滑曲线）生成图片，每条线连接一个有标签的起点和终点。核心挑战在于交叉点消歧：两条线交叉的地方，模型必须判断哪条分支是目标曲线的延续。为了确保这个能力被真正测试，团队做了两个关键约束：（1）任何终点都不能与无关线条重叠或交叉，违反的配置直接丢弃重新生成（2）专门设计了统一风格模式，所有线条颜色和粗细完全相同，剥夺颜色捷径，强迫模型只能依靠曲率连续性来判断，直接测试路径追踪能力是否被真正内化。难度控制：随线条数量和曲率幅度自然增长。简单实例是几条平缓曲线、稀疏交叉。困难实例是大量紧密缠绕的曲线，交叉点密集。图片分辨率、宽高比、视觉风格（调色板、线条样式、端点标记、背景）全部随机化。思维内容合成：把路径追踪过程表示为沿目标曲线采样的坐标序列。从定位起点开始，经过一系列中间路径点，最终识别到达的终点。关键细节是：路径点的密度会自适应曲线的局部几何形状。直线段用较少的点，高度弯曲或交叉密集的区域用更密集的坐标，模拟人类"在视觉复杂区域放慢速度仔细看"的行为。 ## 后训练流水线：专家分治再合并整个后训练采用"先训专家，再合并"的策略，分四个阶段。阶段一：Specialized SFT（专项监督微调）训练数据由70%通用多模态和纯文本数据 + 30%专项"用视觉原语思考"数据组成。关键设计：分别用box数据和point数据训练两个独立模型，得到FTwG（Thinking with Grounding，用框思考）和FTwP（Thinking with Pointing，用点思考）。分开训练是为了防止模式冲突，当专项数据量相对较小时，两种模式混在一起会互相干扰。阶段二：Specialized RL（专项强化学习）对FTwG和FTwP分别做强化学习，使用GRPO（Group Relative Policy Optimization，组相对策略优化）算法。一个重要的设计决策：RL阶段不显式监督思维过程中的视觉原语。因为冷启动数据中的视觉原语已经经过严格验证，模型在SFT阶段已经学会了基本的使用方式。 RL阶段只需要图片、问题和最终答案，这大大拓宽了可用数据的范围，增强了RL训练的可扩展性。三层奖励模型每个任务从三个维度同时提供监督： Format RM（格式奖励）：基于规则，输出0到1的分数。检查视觉原语的表示格式是否正确。对于框模式，还额外检查输出冗余，比如生成重复的边界框，有效缓解SFT模型陷入无限循环生成框的问题。 Quality RM（质量奖励）：基于LLM的生成式奖励模型（GRM），评估五个方面： - 回复是否冗余 - 思维内容与最终回复是否一致 - "用视觉原语思考"过程中是否自相矛盾 - 输出框时指代的物体是否是有意义的实体 - 模型是否存在"奖励黑客"行为，比如在回复中强行编造一个与自己预测一致的假标准答案来欺骗奖励模型输出三档分数（0.0、0.5、1.0），并附上评分理由。 Accuracy RM（准确性奖励）：针对每个任务单独设计。计数任务的准确性奖励：用平滑指数衰减代替简单的对错判断。预测值和真实值的相对误差越小，奖励越高；差得越多，奖励衰减越快。分母加了真实值，使得在物体数量多的场景下，差一两个的容忍度更高。实践中衰减参数经验性地选择，确保学习信号稳定平滑。空间推理和通用VQA的准确性奖励：用LLM-based GRM，把模型的思维内容、最终回复、用户问题和标准答案一起输入，分别对思维过程和回复打分，取平均。迷宫导航的准确性奖励：拆成五个维度的加权组合，这是所有任务中设计最精细的： - 因果探索进度：按顺序处理模型的探索步骤，遇到第一次穿墙违规就截断后续所有探索（因为后续推理因果上已经无效了），然后计算已探索区域到终点的最短距离占最优路径长度的比例。只用于可解迷宫。 - 探索完整性：对于不可解迷宫，模型必须穷举探索所有可达区域才能证明无解。计算已探索区域占所有可达区域的比例。只用于不可解迷宫。 - 穿墙惩罚：独立于因果截断，扫描整个探索轨迹，统计每一次穿墙违规。确保穿墙行为永远有代价，即使发生在探索后期。 - 最终路径有效性：当模型声称迷宫可解时，验证给出的解路径中相邻格子是否合法连通、路径是否从起点到终点连续。可解迷宫的二元分数，不可解迷宫保持为1。 - 答案正确性：模型的可解性判断是否与真实答案一致的二元分数。这种分解确保奖励信号是密集且有信息量的：模型在每个正确应用视觉原语的步骤都能获得奖励，而非只看最终的二元答案。路径追踪的准确性奖励：也是多维度加权组合： - 轨迹准确性（双向评估）：正向，对每个预测点计算它到真实曲线任意线段的最小距离，取平均，惩罚偏离真实路径的点；反向，对每个真实路径点计算它到预测折线任意线段的最小距离，惩罚不完整覆盖（模型跳过了曲线的某些部分）。最终取两个方向的平均。单看正向会允许模型只在起点附近输出几个安全的点，单看反向不会惩罚虚构的绕路。两个方向结合才能逼模型完整且准确地追踪整条曲线。 - 端点准确性：分别验证模型是否正确识别了起点和终点位置。计算预测坐标与真实边界框中心的距离，超过容忍阈值分数降为零。 - 轨迹连续性惩罚：如果模型轨迹的最后一个点和它声称的终点之间距离超过阈值，施加固定惩罚。防止模型输出一段不完整的轨迹然后"跳"到一个猜测的终点。 - 答案正确性：模型最终回答中的终点标签是否与真实答案匹配。 RL数据的难度分级 RL训练前，用SFT冷启动模型对数据池做N次rollout（让模型对同一个问题生成N个回答），根据奖励模型打分，把数据分成三个难度级别： - Easy：N次全对 - Normal：1到N-1次正确 - Hard：N次全错只选Normal级别的数据做RL训练，确保模型能从中获得有价值的学习信号。全对的太简单学不到东西，全错的太难也学不到。这个策略在GRPO训练中非常关键。经过Specialized RL（专业强化学习），得到两个专家模型：ETwG（框专家）和ETwP（点专家）。阶段三：Unified RFT（统一拒绝微调）前面两个阶段分别训练出了"框专家"和"点专家"，各自在自己的领域很强，但它们是两个独立的模型。这个阶段的目标是：把两种能力合并到同一个模型里。怎么合并？核心思路是"让专家出题，让新模型学"：第一步：用专家模型生产高质量训练数据。让框专家和点专家分别对大量问题生成多个回答，然后用奖励模型打分，按之前的难度分级策略筛选——保留所有 Normal 级别数据（模型有时对有时错，最有学习价值），再加入 5% 的 Easy 级别数据（模型全对的简单题，掺进去是为了防止模型在简单场景上"退化"）。第二步：从头训练一个新模型。这里有一个反直觉的设计。不是在框专家或点专家的基础上继续训练，而是回到最初的预训练基座模型，用第一步筛选出的这批更大、更多样的数据重新做一遍SFT。 > SFT解释：预训练阶段的模型只是学会了"语言的规律"，像一个读了很多书但没上过课的学生。SFT 就是拿一批"标准问答对"来教它怎么正确回答问题为什么要"回到原点"重新来？因为专家模型已经在各自的专项数据上训练过，参数里带有偏向性。如果在它们的基础上继续训练，一种能力的参数可能会覆盖另一种。从干净的基座重新出发，用同时包含框数据和点数据的混合数据集训练，模型能更均衡地学会两种能力。训练的超参数和流程与最初的 SFT 冷启动阶段完全一致，唯一的区别就是训练数据更好了。因为这些数据是由已经很强的专家模型生产并经过严格筛选的。 > 超参数（Hyperparameters）是训练开始之前由人为设定的配置项，它们控制着"模型怎么学习"。打个比方：如果把训练模型比作做菜，那超参数就是火候、时间、翻炒频率这些你在开始做菜前就要决定好的东西，而不是食材本身。这一步得到的统一模型称为模型 F。阶段四：On-Policy Distillation（在策略蒸馏）虽然统一模型F比冷启动模型有了大幅提升，但跟各自领域的专家模型相比仍有差距。为了弥合这个差距，采用OPD（On-Policy Distillation）。核心思路是：让学生模型基于自己生成的轨迹来学习教师模型的输出分布。用反向KL散度作为损失函数，对两个教师模型（ETwG和ETwP）的输出分布做加权蒸馏。 > 反向KL散度让近似分布宁可只抓住真实分布的一个峰也不乱猜，追求"说得少但说得准"，而不是"面面俱到但不精确"。采用全词表logit蒸馏，也就是在整个词表上对齐概率分布，而非只看top-k。 ## 训练的工程细节 "用什么工具、怎么省算力"来完成这么大规模的训练？训练框架：使用 HAI-LLM，这是一个基于 PyTorch 的分布式训练框架，可以把训练任务拆分到大量 GPU 上并行执行。序列长度（模型一次能"看"多长的内容）： - 预训练阶段：64K token——相当于一次能读大约5万字 - 后训练阶段：扩展到 256K token——因为"用视觉原语思考"的推理链很长，模型需要在一次推理中输出大量坐标，所以必须把"视野"拉长4倍数值精度（用多少位数字来表示模型参数）：这是省算力的关键手段。正常的浮点数用32位（FP32）表示，精度最高但最耗资源。训练大模型时，业界会主动降低精度来换取速度和显存：越到后面的训练阶段，用的数字越"粗糙"，但因为任务性质允许，所以效果不受影响，算力成本却大幅降低。这是工程上非常务实的取舍。 ## 评估体系公开基准 - 计数：CountQA、Pixmo-Count（使用官方测试集） - 空间推理与通用VQA：SpatialMQA、CV-Bench、EmbSpatial、OmniSpatial、MIHBench 自建基准公开基准的评估维度往往有限，无法充分捕捉"用视觉原语思考"的能力。团队自建了三个维度的测试集： DS_Finegrained_Counting（600个测试样例）：现有细粒度计数基准（如TallyQA）存在标注错误和歧义。团队让MLLM生成受特定属性或空间位置约束的计数问题，刻意确保存在强干扰负样本（与目标同类别但不同属性的物体），经过严格人工验证。 DS_Spatial_Reasoning（2,000个测试样例）：从CLEVR验证集采样1,000个判断题和1,000个开放题，用MLLM为开放题生成干扰选项，转换为选择题格式，便于标准化自动评估。 DS_Maze_Navigation（2,000个测试样例）和DS_Path_Tracing（2,000个测试样例）：按照前述方法论构建。 ## 实验结果主要对比所有模型通过各自API用完全相同的提示词评估。对于支持可配置思考预算的模型（如GPT和Gemini-3-Flash），统一设置思考预算为low，确保公平。计数任务： Pixmo-Count上全场最高，细粒度计数也是最高。 CountQA上非常接近Gemini-3-Flash。空间推理与通用VQA： 6个基准中4个最高，1个并列最高，1个极度接近最高。拓扑推理：这是差距最大的地方。迷宫导航上，其他所有模型都在49到51之间徘徊（基本等于随机猜），只有本文模型达到66.9。路径追踪上更夸张，第二名GPT-5.4只有46.5，本文模型56.7。这说明当前主流模型在需要精确空间追踪的拓扑推理任务上存在系统性缺陷，视觉原语是目前最有效的解法。论文特别声明：报告的分数只覆盖与本文研究重点直接相关的评估维度子集，不代表各模型的整体能力。 ## 定性展示：模型实际表现框作为视觉原语跨领域知识融合：给一张金门大桥的照片，用中文问"这附近有NBA球队吗？"模型先用框标记金门大桥 [[0,134,882,795]]，识别出这是旧金山，然后关联到金州勇士队，回答球馆大通中心就在旧金山。反常识视觉推理：天平两端分别放着金属储物柜和彩虹小熊，模型通过框标记两个物体和两个托盘，观察天平倾斜方向，判断小熊更重。虽然违反日常直觉，但模型忠实于视觉证据。实用场景指导：看到一台咖啡机，用中文问"如何制作拿铁"。模型逐一用框标记咖啡机 [[111,107,721,970]]、蒸汽棒 [[164,405,236,693]]、不锈钢奶壶 [[670,638,853,905]]、咖啡豆 [[810,438,995,885]]、拿铁按钮 [[408,219,444,261]]、咖啡杯 [[535,779,770,988]]，然后给出具体操作步骤，每一步都有空间坐标对应。密集场景计数：数一张29人合影里有多少人，模型一次性输出29个框，按前排坐地上的、中排蹲着的、后排站着的、两侧教练分组统计。幽默理解：左边一块水果有天然的黑斑看起来像眼睛和鼻子，右边是一只表情忧伤的猫。模型用框分别标记水果上的"眼睛"和"鼻子"斑点，以及猫的真实眼睛和鼻子，解释幽默来自两者惊人的相似性。密室逃脱推理：看到一个房间里有高处的钥匙、锁着的门和一把椅子，模型用框标记三个关键物体，推理出"把椅子搬到钥匙下面，踩上去拿钥匙，再去开门"。宝可梦识别与计数：一堆混杂的玩偶里数宝可梦，模型用框标记6个宝可梦（皮卡丘、可达鸭、小火龙、妙蛙种子、胖丁、杰尼龟），同时明确排除了哆啦A梦、路飞、索隆、蜡笔小新等其他动漫角色多语言能力：虽然视觉原语相关的后训练数据里没有任何中文语料，但模型可以用中文思考和回答，得益于底座模型的多语言能力自然继承。识别云南古镇照片时，模型用框标记木门框、方形灯笼、泥土墙壁、鹅卵石步道等细节，最终判断是丽江或沙溪古镇。点作为视觉原语迷宫导航：圆形迷宫，从绿色菱形到红色标签。模型先标记起点和终点坐标，然后用类似DFS的策略逐步探索。遇到死胡同就回溯到上一个分叉点，尝试另一个方向。整个探索过程有18步，最终找到一条15个节点的有效路径。路径追踪：一堆缠绕的彩色线条中，追踪从皇冠图标出发的品红色线。模型输出了80多个坐标点，密密麻麻地沿着曲线走，最终确认连接到章鱼图标。 ## 局限性论文坦诚地指出了三个不足： 1、受输入分辨率限制在极细粒度场景下视觉原语的精度还不够理想。可能的解决方向是把本文框架与现有针对"感知鸿沟"的方法（高分辨率裁剪等）结合，取长补短。 2、需要显式触发词这样才能激活"用视觉原语思考"的能力，还不能自主判断什么时候该用。未来目标是让模型根据具体上下文自动决定是否调用这个机制。 3、拓扑推理的跨场景泛化能力有限。用点作为视觉原语解决复杂拓扑推理仍然是一个艰巨挑战，当前模型在训练过的迷宫和路径追踪上表现好，但更广泛的场景还需要探索。 ## 这篇论文为什么重要？回到最开始的问题。当前多模态AI的推理过程，本质上还是在纯语言空间里进行的。输入是多模态的（图片+文字），输出也可以是多模态的，但中间的思考过程完全是语言。这就像一个人看着一张复杂的地图，闭上眼睛纯靠脑子里的语言描述来规划路线。能做到，但效率低、容易出错。这篇论文的核心贡献是：让推理过程本身也变成多模态的。模型的思维链不再只有文字，还穿插着精确的空间坐标。这就像睁着眼睛看地图，手指沿着路线划，嘴里同时说着"这里左转，那里右转"。眼、手、口协同工作，效率和准确性都大幅提升。从技术路线的角度看，业界过去几年在多模态推理上的主要投入方向是"看得更清"（更高分辨率、更多视觉Token），这篇论文提出了一个互补的方向："指得更准"。而且实验证明，在视觉Token用量只有其他前沿模型十分之一的情况下，光靠"指得更准"就能达到甚至超越"看得更多"的效果。这暗示着视觉信息的利用效率还有巨大的提升空间，关键可能不在于往模型里塞多少像素，而在于怎么用好已有的信息。从更长远的视角看，这篇论文指向了System 2多模态智能的一个重要方向。丹尼尔卡尼曼把人类思维分为System 1（快速直觉）和System 2（慢速深思）。当前的多模态模型在System 1层面已经很强了（看一眼图就能大致描述），但在System 2层面（需要多步推理、精确追踪、逻辑链条不断裂）还有明显短板。论文最后一句话说得很好：通往System 2多模态智能的道路，不仅仅在于"看更多像素"，更在于构建一座精确、无歧义的桥梁，连接语言与视觉世界。

译DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”，核心是让模型在推理过程中像人类一样，使用“点”和“边界框”这类视觉原语来指代图像中的具体位置，以此作为思维的最小单位，旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干，并设计了极致的视觉Token压缩流水线，将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩，模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

向阳乔木@vista8 · 5月1日45

终于读完DeepSeek最新论文，一万三千字 AI 解读。论文中的所有图表都手动截图，累死了。 DeepSeek 这篇论文牛逼，独立思考的光辉在闪耀。数据清洗也做的细致，把近 10 万数据用各种条件过滤到 3 万。造训练数据的过程也特别有意思，比如大量迷宫题的设计，哈哈哈！！！

译作者完成DeepSeek最新论文的AI解读，指出论文在独立思考方面表现突出，闪耀创新光辉。数据清洗过程细致严谨，通过多条件过滤将数据规模从近10万缩减至3万条。训练数据构建设计巧妙，例如大量迷宫题等趣味方法，体现了研究团队的创意。整体而言，论文在AI领域具有重要价值，获得高度评价。

向阳乔木@vista8 · 5月1日41

http://x.com/i/article/2049847033758916609 # DeepSeek VL论文（2024年），建议搭配最新论文一起看昨天体验了网页端的DeepSeek的识图模式，速度超级快，质量也还行。为了了解更多DeepSeek在视觉模型训练的方法，翻出2024年的11月的论文。让AI解读学习了一遍。 Github地址：https://github.com/deepseek-ai/DeepSeek-VL > 论文查看 https://arxiv.org/pdf/2403.05525 ## 一句话总结 DeepSeek-VL是DeepSeek团队开源的视觉语言模型，有1.3B和7B两个版本。核心目标只有一个：在真实场景里既能看图又能说话，同时不丢失语言能力。它从数据、架构、训练策略三个维度入手，在同等参数规模下做到了开源模型里的顶尖水平。 ## 这篇论文到底在解决什么问题？ 2024年初，开源多模态模型和GPT-4V之间有一道明显的鸿沟。很多开源模型在学术benchmark（基准测试，就是标准化的评分考试）上跑分还行，但一到真实场景就拉胯。让它看一张网页截图、读一份PDF、识别街拍里的小字，效果就大打折扣。 DeepSeek团队总结了四个核心原因：第一，预训练不够充分。很多模型把大量算力花在了指令微调阶段，但真正的通用能力来自大规模预训练。这就像一个人只刷题不读书，考试可能还行，解决实际问题就不够用了。第二，训练数据和真实使用场景脱节。把一堆学术数据集拼在一起做微调，benchmark分数好看，但用户实际用起来体验很差。第三，图像分辨率太低。大部分模型只能处理336×336或448×448像素的图片。现实世界里的OCR（光学字符识别，就是让AI读懂图片里的文字）、小物体识别，这个分辨率根本不够用。第四，多模态训练会"吃掉"语言能力。很多模型在加入视觉训练后，语言能力明显下降。这是一个很棘手的问题，也是这篇论文花了最多篇幅去解决的事情。 ## 数据构建：从真实场景出发 DeepSeek-VL的数据分两大块：预训练数据和监督微调数据。 ## 预训练数据覆盖面非常广，按类别拆开来看：图文交错数据（占13.1%）就是图片和文字混合出现的内容，比如维基百科文章里图文穿插的格式。用了MMC4、Wikipedia中英文、Wikihow，以及内部的PDF和电子书。这类数据能让模型学会在上下文里理解多张图片，也就是所谓的"多模态上下文学习"能力。图像描述数据（占11.1%）高质量的图文配对数据集，包括Capsfusion、TaiSu（一个1.66亿规模的中文视觉语言数据集）和Detailed Caption。表格和图表数据（占2.1%）来自十多个公开数据集，涵盖各种图表、地理题、科学题、UI截图等，让模型学会理解各种结构化视觉信息。网页代码数据（占0.4%）这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook，提取了其中的图表和对应的生成代码，最终筛选出110万个高质量的图文代码对。目标是让模型能从图形界面或可视化图表反推出代码。文档OCR数据（占2.1%）当时市面上没有大规模的中英文文档OCR数据集，团队自己造了。两个来源：一是从140万篇arXiv论文里提取图文对；二是从86万本英文电子书和18万本中文电子书里，用HTML渲染工具生成了配对的图片和文本。场景文字OCR数据（占1.2%）识别融入环境的文字，比如街道招牌、商品包装。用了ArT、MLT-17、LSVT、UberText等十个公开数据集。纯文本数据（占70%）这个比例是整个训练策略的核心，后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。 ## 监督微调数据微调数据分四类：内部数据（占10.5%）这是最有价值的部分。团队先从网上收集了GPT-4V和Gemini的真实用户测试案例，然后把这些案例整理成一套完整的分类体系，再根据这套分类体系去选图、写提示词，构建出贴近真实使用场景的微调数据。通用多模态数据（占35.5%）包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等知名开源数据集。表格图表和网页代码数据（各占4.1%和2.0%）从预训练数据集里抽取部分用于微调。纯文本对话数据（占47.9%）沿用DeepSeek-LLM的文本对话数据，保住语言能力。 ## 那套分类体系长什么样？这套分类体系是整个数据构建思路的精华，值得单独说说。团队把多模态模型的真实使用场景分成六大类：识别类：全局描述（场景、风格、食物）、局部描述（位置、人物、Logo、计数）、OCR转录（印刷体、手写体）。转换类：图片转代码（UI转代码、图表转代码、公式转代码）、图片转文本（生成提示词、文字摘要、图片创作）。分析类：数据图表分析、专业图表分析（电路图、流程图、地图、乐谱、平面图）、专业图像分析（传感器图像、医学图像）、百科知识分析（艺术文化、自然环境、衣食住行）。常识推理类：关系推理（人际、空间、大小）、功能推理（硬件、软件）、环境推理（具身智能）、异常推理（缺陷检测、事故判断）。逻辑推理类：数学推理（代数、平面几何、立体几何）、其他逻辑推理（物理、化学、生物、代码、智力题）。评估类：真实性评估、相似度评估、美学评估。还有多图理解和安全两个额外类别。这套分类体系同时用于数据构建和效果评估，保证了训练和测试的一致性。这是"从真实用户需求倒推数据构建"的典型做法，比单纯堆学术数据集高明得多。 ## 模型架构：三个模块协同工作整个模型由三个模块组成：混合视觉编码器、视觉语言适配器、语言模型。 ## 混合视觉编码器这是技术上最有意思的部分之一。传统的视觉语言模型通常只用一个视觉编码器，比如CLIP系列的SigLIP（一种用图文对比训练出来的视觉编码器）。但SigLIP有两个问题：一是存在"CLIP盲点对"现象，视觉上明显不同的两张图片，经过SigLIP编码后可能得到非常相似的表示，导致模型分不清楚。二是分辨率有限，最高只到512×512，处理不了需要精细识别的任务。 DeepSeek-VL用了双编码器混合方案： SigLIP-L 处理低分辨率（384×384）输入，负责提取高层语义特征，擅长理解图片"讲了什么"。 SAM-B 处理高分辨率（1024×1024）输入，负责提取低层细节特征。 SAM是 Meta 开发的"Segment Anything Model"（万物分割模型），其中的ViTDet图像编码器（一种专门为目标检测优化的视觉Transformer）特别擅长捕捉精细的局部信息，比如小字、边缘、纹理。两个编码器输出的特征经过适配器处理后，最终融合成576个视觉token（可以理解为576个"视觉词"）。这个数字很关键，它在视觉信息量和计算成本之间找到了平衡点，既能支持多轮对话，又不会让推理成本爆炸。为了验证这个选择，团队做了对比实验，测试了CLIP、SigLIP、SigLIP+DINO、SigLIP+SAM四种组合的训练损失曲线。结果显示SigLIP+SAM的组合训练损失下降最快、最低，证明引入视觉自监督编码器确实有效。 ## 视觉语言适配器这是连接视觉编码器和语言模型的桥梁，用的是两层混合MLP（多层感知机，一种基础的神经网络结构）。具体做法：先用两个独立的单层MLP分别处理高分辨率和低分辨率特征，然后把两个特征拼接在一起，再通过一层MLP映射到语言模型的输入空间。为什么要用两个独立的MLP而不是共享一个？团队做了消融实验，对比了几种适配器设计： - 序列拼接（把视觉特征在序列维度上堆叠）：效果一般，而且计算量更大 - 嵌入维度拼接（在特征维度上拼接）：效果更好 - 共享MLP：特征融合充分，但对不同编码器的特征分布适应性差 - 独立MLP：能精准适应各自编码器的特征分布，但融合不够 - 混合MLP（先独立处理再拼接）：综合了两者优点，效果最好 ## 语言模型基于DeepSeek-LLM构建，架构上和LLaMA高度相似：用了RMSNorm（一种更高效的归一化方法）、SwiGLU激活函数（一种改进的门控线性单元）、旋转位置编码（RoPE，一种让模型理解token位置关系的方法）。两个版本的基础： - DeepSeek-VL-1.3B 基于 DeepSeek-LLM-1B（用约5000亿文本token训练） - DeepSeek-VL-7B 基于 DeepSeek-LLM-7B（用约2万亿文本token训练）值得注意的是，团队选的是DeepSeek预训练模型的中间检查点，而不是最终版本，然后继续做多模态预训练。 ## 训练策略：三阶段 + 模态平衡训练分三个阶段，每个阶段解决不同的问题。 ## 第一阶段：热身视觉语言适配器冻住视觉编码器和语言模型，只训练适配器。数据：125万张来自ShareGPT4V的图文描述对 + 250万个文档OCR渲染对。这个阶段的目标是在视觉和语言的嵌入空间之间建立初步的概念连接，让语言模型能"认识"视觉特征。团队做了一个重要实验：把第一阶段的数据量从2K步扩展到80K步，然后直接做微调，看效果有没有提升。结果是扩大数据量没有任何帮助，性能甚至略有下降。原因很清楚：适配器（两层MLP）的参数量太少，容量有限，学到一定程度就饱和了。再多的数据也塞不进去。这也说明了为什么必须有第二阶段。 ## 第二阶段：联合视觉语言预训练这是最关键的阶段，也是论文最核心的贡献之一。解冻语言模型和适配器，视觉编码器保持冻结，用大规模图文混合数据继续预训练。团队发现了一个严峻问题：如果只用多模态数据训练，语言能力会断崖式下降。上图展示了这个现象。在1B模型上，用100%多模态数据训练时，MMBench（多模态理解测试）分数缓慢上升，但HellaSwag（语言理解测试）和MMLU（多学科知识测试）分数急剧崩塌。团队分析了两个原因：一是多模态数据本身比纯文本数据简单得多，分布差异很大，直接用来训练会"稀释"语言知识。二是视觉模态和语言模态之间存在竞争关系，学多了视觉就会忘记语言，这是一种"灾难性遗忘"。解决方案是联合语言多模态训练：在训练时同时混入大量纯文本数据。实验结果非常清晰： - 混入语言数据后，语言能力下降的问题得到了大幅缓解 - 加入语言数据并不会明显损害多模态性能 - 两种模态的性能都和它们在训练数据中的比例强相关最终选定的比例是语言70%、多模态30%。这个比例能让模型在保住语言能力的同时，获得足够的多模态预训练效果。除了混合比例，团队还提出了两个实用技巧：模态分组训练直接把语言数据和多模态数据混在同一个batch里，会有效率问题：纯文本处理很快，但要等多模态数据处理完才能更新参数，造成大量等待。解决方法是把不同模态的数据分开组batch，每个训练步要么全是语言数据，要么全是多模态数据。这一招让训练效率提升了20%，而且性能完全不受影响。模态热身策略训练初期把语言数据比例设为100%，然后逐渐降到目标比例（70%）。这样可以避免训练初期语言能力的剧烈波动，让模型更平稳地适应多模态数据的加入。实验证明，这个策略在训练后期也能带来更好的语言和多模态双端性能。还有一个容易被忽略的工程细节。团队在1.3B小模型上做实验迭代，再放大到7B。但小模型有个问题：在标准benchmark上表现波动极大，很难准确反映改进效果。原因是小模型虽然"知道"正确答案，但没有足够的指令跟随能力把答案"说出来"。解决方案是双管齐下： 1. 把评估方式从"让模型生成答案"改成"比较各选项的困惑度（PPL，一种衡量模型对某段文本有多困惑的指标，越低越好）" 1. 同时在预训练阶段混入少量指令微调数据，让小模型也能稳定地跟随指令。这样小模型就能给出稳定的评估信号，大大加快了迭代速度。 ## 第三阶段：监督微调用前面构建的指令微调数据集，训练模型的对话和指令跟随能力，最终得到DeepSeek-VL-Chat。这个阶段同时训练语言模型、适配器和SigLIP编码器。 SAM-B因为显存限制保持冻结。只对答案和特殊token计算损失，系统提示和用户输入不参与训练。三个阶段缺一不可：只有第一阶段+第三阶段，平均分57.4；加上第二阶段后提升到62.4。第一阶段虽然提升有限，但也有意义，去掉它性能会略微下降。 ## 训练基础设施使用了DeepSeek自研的HAI-LLM分布式训练框架。 DeepSeek-VL-7B用了64个节点（每个节点8块英伟达A100 GPU），训练了5天。 DeepSeek-VL-1.3B用了16个节点，训练了7天。 ## 效果评测：数字说话 ## 多模态benchmark ## 7B模型在开源模型里表现最好： - SeedBench（综合多模态理解）：70.4，接近GPT-4V的71.6 - MMBench（多模态综合测试）：73.2，超过所有同级开源模型 - OCRBench（OCR专项测试）：456分，远超同级模型（LLaVA-1.5 13B只有331分） - POPE（幻觉测试，测模型会不会"看到"不存在的东西）：88.1，同级最高 - MathVista（数学视觉推理）：36.1，超过所有同级开源模型，但和GPT-4V（47.8）还有差距 - CMMMU（中文多学科多模态理解）：37.9，明显优于其他开源模型 1.3B小模型更令人印象深刻：用一半不到的参数（1.3B vs 2.7B），在MMBench上超过了MobileVLM V2 2.7B（64.6 vs 63.2）。 MathVista上甚至达到31.1，和部分7B模型相当。 ## 语言benchmark 这是DeepSeek-VL最值得骄傲的地方之一。 - HellaSwag：68.4（DeepSeek-LLM-7B是68.5），几乎持平 - MMLU：52.4（DeepSeek-LLM-7B是49.4），多模态训练后反而提升了 - AGIEval：27.8（DeepSeek-LLM-7B是19.3），同样提升 - GSM8K（数学）：55.0（DeepSeek-LLM-7B是63.0），有所下降数学能力的下降说明视觉和语言模态之间的竞争关系仍然存在，7B的模型容量在这里成了瓶颈。团队认为更大的模型可以缓解这个问题。 ## 人工评测团队构建了100道题，覆盖七个类别，和InternLM-XComposer2-VL、CogVLM-17B、GPT-4V做对比。结论：DeepSeek-VL-7B在识别、转换、常识推理三个维度接近GPT-4V，整体表现优于其他开源模型。逻辑推理是所有开源模型的共同短板，和GPT-4V差距最大。还做了GPT-4V裁判评测：把DeepSeek-VL和其他模型的回答都给GPT-4V看，让它判断哪个更好。结果DeepSeek-VL在超过60%的情况下被GPT-4V判定为更好，甚至在和GPT-4V自身对比时也获得了相当不错的评价。真实场景能力展示论文里展示了大量真实案例，值得逐一看看：处理逻辑图、网页、公式识别、科学文献、自然图像、具身智能场景的综合展示识别图片中的细小物体（骑车人在女士手提包的左侧），并给出有条理的解释理解Python代码截图并逐步解释算法逻辑看懂儿童编程Scratch流程图并转换成Python代码（对比的开源模型1直接说"我无法处理图片"） 1. 分析训练损失曲线图表，找出代码中的bug 识别泰国10泰铢硬币；根据图片创作七言绝句；识别米哈游游戏角色把真实表格图片转换成Markdown格式 ## 为什么这篇论文重要？它揭示并量化了一个关键矛盾：多模态能力和语言能力之间存在竞争关系。 70%语言数据这个比例，加上模态热身策略和分组训练，提供了一套可复制的解决方案。它证明了"从真实场景出发"构建数据的重要性。用分类体系指导数据收集，比随意拼凑学术数据集有效得多。混合视觉编码器的思路很实用。用两个互补的编码器分别处理语义和细节，比单纯堆高分辨率更高效，576个token的压缩方案在信息量和计算成本之间找到了合理平衡。小模型迭代方法论有很强的工程参考价值。困惑度评估 + 少量指令数据混入，让1.3B模型也能给出稳定的实验信号，大幅降低了迭代成本。当然，局限也很清楚。 7B的模型容量限制了数学推理等复杂任务的表现。论文结尾提到了后续会引入MoE（Mixture of Experts，混合专家模型）技术，这也是后来DeepSeek-VL2的方向。

译DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计：数据构建强调从真实用户需求出发，并包含70%的纯文本以保留语言能力；模型架构创新性地采用SigLIP与SAM-B混合视觉编码器，兼顾高层语义与低层细节；训练策略则通过三阶段渐进式训练与模态平衡技术，有效缓解了视觉训练对语言能力的侵蚀，最终在同等规模下达到开源模型的顶尖水平。

向阳乔木@vista8 · 4月30日50

http://x.com/i/article/2049847033758916609 # 又是节假日搞事情！DeepSeek开源视觉大模型，读完论文帮你划重点昨天体验了网页端的DeepSeek的识图模式，速度超级快，质量也还行。今天看到DeepSeek公布了论文，果然秉承了优良传统，节假日前搞事情，Respect！ Github地址：https://github.com/deepseek-ai/DeepSeek-VL > 论文查看 https://arxiv.org/pdf/2403.05525 AI总结，人工阅读Review配图如下。 ## 一句话总结 DeepSeek-VL是DeepSeek团队开源的视觉语言模型，有1.3B和7B两个版本。核心目标只有一个：在真实场景里既能看图又能说话，同时不丢失语言能力。它从数据、架构、训练策略三个维度入手，在同等参数规模下做到了开源模型里的顶尖水平。 ## 这篇论文到底在解决什么问题？ 2024年初，开源多模态模型和GPT-4V之间有一道明显的鸿沟。很多开源模型在学术benchmark（基准测试，就是标准化的评分考试）上跑分还行，但一到真实场景就拉胯。让它看一张网页截图、读一份PDF、识别街拍里的小字，效果就大打折扣。 DeepSeek团队总结了四个核心原因：第一，预训练不够充分。很多模型把大量算力花在了指令微调阶段，但真正的通用能力来自大规模预训练。这就像一个人只刷题不读书，考试可能还行，解决实际问题就不够用了。第二，训练数据和真实使用场景脱节。把一堆学术数据集拼在一起做微调，benchmark分数好看，但用户实际用起来体验很差。第三，图像分辨率太低。大部分模型只能处理336×336或448×448像素的图片。现实世界里的OCR（光学字符识别，就是让AI读懂图片里的文字）、小物体识别，这个分辨率根本不够用。第四，多模态训练会"吃掉"语言能力。很多模型在加入视觉训练后，语言能力明显下降。这是一个很棘手的问题，也是这篇论文花了最多篇幅去解决的事情。 ## 数据构建：从真实场景出发 DeepSeek-VL的数据分两大块：预训练数据和监督微调数据。 ## 预训练数据覆盖面非常广，按类别拆开来看：图文交错数据（占13.1%）就是图片和文字混合出现的内容，比如维基百科文章里图文穿插的格式。用了MMC4、Wikipedia中英文、Wikihow，以及内部的PDF和电子书。这类数据能让模型学会在上下文里理解多张图片，也就是所谓的"多模态上下文学习"能力。图像描述数据（占11.1%）高质量的图文配对数据集，包括Capsfusion、TaiSu（一个1.66亿规模的中文视觉语言数据集）和Detailed Caption。表格和图表数据（占2.1%）来自十多个公开数据集，涵盖各种图表、地理题、科学题、UI截图等，让模型学会理解各种结构化视觉信息。网页代码数据（占0.4%）这部分很有意思。团队从GitHub上抓取了146万个Jupyter Notebook，提取了其中的图表和对应的生成代码，最终筛选出110万个高质量的图文代码对。目标是让模型能从图形界面或可视化图表反推出代码。文档OCR数据（占2.1%）当时市面上没有大规模的中英文文档OCR数据集，团队自己造了。两个来源：一是从140万篇arXiv论文里提取图文对；二是从86万本英文电子书和18万本中文电子书里，用HTML渲染工具生成了配对的图片和文本。场景文字OCR数据（占1.2%）识别融入环境的文字，比如街道招牌、商品包装。用了ArT、MLT-17、LSVT、UberText等十个公开数据集。纯文本数据（占70%）这个比例是整个训练策略的核心，后面会详细解释。用的是DeepSeek-LLM的2万亿token文本语料。 ## 监督微调数据微调数据分四类：内部数据（占10.5%）这是最有价值的部分。团队先从网上收集了GPT-4V和Gemini的真实用户测试案例，然后把这些案例整理成一套完整的分类体系，再根据这套分类体系去选图、写提示词，构建出贴近真实使用场景的微调数据。通用多模态数据（占35.5%）包括ShareGPT4V、LAION-GPTV、LVIS-Instruct4V等知名开源数据集。表格图表和网页代码数据（各占4.1%和2.0%）从预训练数据集里抽取部分用于微调。纯文本对话数据（占47.9%）沿用DeepSeek-LLM的文本对话数据，保住语言能力。 ## 那套分类体系长什么样？这套分类体系是整个数据构建思路的精华，值得单独说说。团队把多模态模型的真实使用场景分成六大类：识别类：全局描述（场景、风格、食物）、局部描述（位置、人物、Logo、计数）、OCR转录（印刷体、手写体）。转换类：图片转代码（UI转代码、图表转代码、公式转代码）、图片转文本（生成提示词、文字摘要、图片创作）。分析类：数据图表分析、专业图表分析（电路图、流程图、地图、乐谱、平面图）、专业图像分析（传感器图像、医学图像）、百科知识分析（艺术文化、自然环境、衣食住行）。常识推理类：关系推理（人际、空间、大小）、功能推理（硬件、软件）、环境推理（具身智能）、异常推理（缺陷检测、事故判断）。逻辑推理类：数学推理（代数、平面几何、立体几何）、其他逻辑推理（物理、化学、生物、代码、智力题）。评估类：真实性评估、相似度评估、美学评估。还有多图理解和安全两个额外类别。这套分类体系同时用于数据构建和效果评估，保证了训练和测试的一致性。这是"从真实用户需求倒推数据构建"的典型做法，比单纯堆学术数据集高明得多。 ## 模型架构：三个模块协同工作整个模型由三个模块组成：混合视觉编码器、视觉语言适配器、语言模型。 ## 混合视觉编码器这是技术上最有意思的部分之一。传统的视觉语言模型通常只用一个视觉编码器，比如CLIP系列的SigLIP（一种用图文对比训练出来的视觉编码器）。但SigLIP有两个问题：一是存在"CLIP盲点对"现象，视觉上明显不同的两张图片，经过SigLIP编码后可能得到非常相似的表示，导致模型分不清楚。二是分辨率有限，最高只到512×512，处理不了需要精细识别的任务。 DeepSeek-VL用了双编码器混合方案： SigLIP-L 处理低分辨率（384×384）输入，负责提取高层语义特征，擅长理解图片"讲了什么"。 SAM-B 处理高分辨率（1024×1024）输入，负责提取低层细节特征。 SAM是 Meta 开发的"Segment Anything Model"（万物分割模型），其中的ViTDet图像编码器（一种专门为目标检测优化的视觉Transformer）特别擅长捕捉精细的局部信息，比如小字、边缘、纹理。两个编码器输出的特征经过适配器处理后，最终融合成576个视觉token（可以理解为576个"视觉词"）。这个数字很关键，它在视觉信息量和计算成本之间找到了平衡点，既能支持多轮对话，又不会让推理成本爆炸。为了验证这个选择，团队做了对比实验，测试了CLIP、SigLIP、SigLIP+DINO、SigLIP+SAM四种组合的训练损失曲线。结果显示SigLIP+SAM的组合训练损失下降最快、最低，证明引入视觉自监督编码器确实有效。 ## 视觉语言适配器这是连接视觉编码器和语言模型的桥梁，用的是两层混合MLP（多层感知机，一种基础的神经网络结构）。具体做法：先用两个独立的单层MLP分别处理高分辨率和低分辨率特征，然后把两个特征拼接在一起，再通过一层MLP映射到语言模型的输入空间。为什么要用两个独立的MLP而不是共享一个？团队做了消融实验，对比了几种适配器设计： - 序列拼接（把视觉特征在序列维度上堆叠）：效果一般，而且计算量更大 - 嵌入维度拼接（在特征维度上拼接）：效果更好 - 共享MLP：特征融合充分，但对不同编码器的特征分布适应性差 - 独立MLP：能精准适应各自编码器的特征分布，但融合不够 - 混合MLP（先独立处理再拼接）：综合了两者优点，效果最好 ## 语言模型基于DeepSeek-LLM构建，架构上和LLaMA高度相似：用了RMSNorm（一种更高效的归一化方法）、SwiGLU激活函数（一种改进的门控线性单元）、旋转位置编码（RoPE，一种让模型理解token位置关系的方法）。两个版本的基础： - DeepSeek-VL-1.3B 基于 DeepSeek-LLM-1B（用约5000亿文本token训练） - DeepSeek-VL-7B 基于 DeepSeek-LLM-7B（用约2万亿文本token训练）值得注意的是，团队选的是DeepSeek预训练模型的中间检查点，而不是最终版本，然后继续做多模态预训练。 ## 训练策略：三阶段 + 模态平衡训练分三个阶段，每个阶段解决不同的问题。 ## 第一阶段：热身视觉语言适配器冻住视觉编码器和语言模型，只训练适配器。数据：125万张来自ShareGPT4V的图文描述对 + 250万个文档OCR渲染对。这个阶段的目标是在视觉和语言的嵌入空间之间建立初步的概念连接，让语言模型能"认识"视觉特征。团队做了一个重要实验：把第一阶段的数据量从2K步扩展到80K步，然后直接做微调，看效果有没有提升。结果是扩大数据量没有任何帮助，性能甚至略有下降。原因很清楚：适配器（两层MLP）的参数量太少，容量有限，学到一定程度就饱和了。再多的数据也塞不进去。这也说明了为什么必须有第二阶段。 ## 第二阶段：联合视觉语言预训练这是最关键的阶段，也是论文最核心的贡献之一。解冻语言模型和适配器，视觉编码器保持冻结，用大规模图文混合数据继续预训练。团队发现了一个严峻问题：如果只用多模态数据训练，语言能力会断崖式下降。上图展示了这个现象。在1B模型上，用100%多模态数据训练时，MMBench（多模态理解测试）分数缓慢上升，但HellaSwag（语言理解测试）和MMLU（多学科知识测试）分数急剧崩塌。团队分析了两个原因：一是多模态数据本身比纯文本数据简单得多，分布差异很大，直接用来训练会"稀释"语言知识。二是视觉模态和语言模态之间存在竞争关系，学多了视觉就会忘记语言，这是一种"灾难性遗忘"。解决方案是联合语言多模态训练：在训练时同时混入大量纯文本数据。实验结果非常清晰： - 混入语言数据后，语言能力下降的问题得到了大幅缓解 - 加入语言数据并不会明显损害多模态性能 - 两种模态的性能都和它们在训练数据中的比例强相关最终选定的比例是语言70%、多模态30%。这个比例能让模型在保住语言能力的同时，获得足够的多模态预训练效果。除了混合比例，团队还提出了两个实用技巧：模态分组训练直接把语言数据和多模态数据混在同一个batch里，会有效率问题：纯文本处理很快，但要等多模态数据处理完才能更新参数，造成大量等待。解决方法是把不同模态的数据分开组batch，每个训练步要么全是语言数据，要么全是多模态数据。这一招让训练效率提升了20%，而且性能完全不受影响。模态热身策略训练初期把语言数据比例设为100%，然后逐渐降到目标比例（70%）。这样可以避免训练初期语言能力的剧烈波动，让模型更平稳地适应多模态数据的加入。实验证明，这个策略在训练后期也能带来更好的语言和多模态双端性能。还有一个容易被忽略的工程细节。团队在1.3B小模型上做实验迭代，再放大到7B。但小模型有个问题：在标准benchmark上表现波动极大，很难准确反映改进效果。原因是小模型虽然"知道"正确答案，但没有足够的指令跟随能力把答案"说出来"。解决方案是双管齐下： 1. 把评估方式从"让模型生成答案"改成"比较各选项的困惑度（PPL，一种衡量模型对某段文本有多困惑的指标，越低越好）" 1. 同时在预训练阶段混入少量指令微调数据，让小模型也能稳定地跟随指令。这样小模型就能给出稳定的评估信号，大大加快了迭代速度。 ## 第三阶段：监督微调用前面构建的指令微调数据集，训练模型的对话和指令跟随能力，最终得到DeepSeek-VL-Chat。这个阶段同时训练语言模型、适配器和SigLIP编码器。 SAM-B因为显存限制保持冻结。只对答案和特殊token计算损失，系统提示和用户输入不参与训练。三个阶段缺一不可：只有第一阶段+第三阶段，平均分57.4；加上第二阶段后提升到62.4。第一阶段虽然提升有限，但也有意义，去掉它性能会略微下降。 ## 训练基础设施使用了DeepSeek自研的HAI-LLM分布式训练框架。 DeepSeek-VL-7B用了64个节点（每个节点8块英伟达A100 GPU），训练了5天。 DeepSeek-VL-1.3B用了16个节点，训练了7天。 ## 效果评测：数字说话 ## 多模态benchmark ## 7B模型在开源模型里表现最好： - SeedBench（综合多模态理解）：70.4，接近GPT-4V的71.6 - MMBench（多模态综合测试）：73.2，超过所有同级开源模型 - OCRBench（OCR专项测试）：456分，远超同级模型（LLaVA-1.5 13B只有331分） - POPE（幻觉测试，测模型会不会"看到"不存在的东西）：88.1，同级最高 - MathVista（数学视觉推理）：36.1，超过所有同级开源模型，但和GPT-4V（47.8）还有差距 - CMMMU（中文多学科多模态理解）：37.9，明显优于其他开源模型 1.3B小模型更令人印象深刻：用一半不到的参数（1.3B vs 2.7B），在MMBench上超过了MobileVLM V2 2.7B（64.6 vs 63.2）。 MathVista上甚至达到31.1，和部分7B模型相当。 ## 语言benchmark 这是DeepSeek-VL最值得骄傲的地方之一。 - HellaSwag：68.4（DeepSeek-LLM-7B是68.5），几乎持平 - MMLU：52.4（DeepSeek-LLM-7B是49.4），多模态训练后反而提升了 - AGIEval：27.8（DeepSeek-LLM-7B是19.3），同样提升 - GSM8K（数学）：55.0（DeepSeek-LLM-7B是63.0），有所下降数学能力的下降说明视觉和语言模态之间的竞争关系仍然存在，7B的模型容量在这里成了瓶颈。团队认为更大的模型可以缓解这个问题。 ## 人工评测团队构建了100道题，覆盖七个类别，和InternLM-XComposer2-VL、CogVLM-17B、GPT-4V做对比。结论：DeepSeek-VL-7B在识别、转换、常识推理三个维度接近GPT-4V，整体表现优于其他开源模型。逻辑推理是所有开源模型的共同短板，和GPT-4V差距最大。还做了GPT-4V裁判评测：把DeepSeek-VL和其他模型的回答都给GPT-4V看，让它判断哪个更好。结果DeepSeek-VL在超过60%的情况下被GPT-4V判定为更好，甚至在和GPT-4V自身对比时也获得了相当不错的评价。真实场景能力展示论文里展示了大量真实案例，值得逐一看看：处理逻辑图、网页、公式识别、科学文献、自然图像、具身智能场景的综合展示识别图片中的细小物体（骑车人在女士手提包的左侧），并给出有条理的解释理解Python代码截图并逐步解释算法逻辑看懂儿童编程Scratch流程图并转换成Python代码（对比的开源模型1直接说"我无法处理图片"） 1. 分析训练损失曲线图表，找出代码中的bug 识别泰国10泰铢硬币；根据图片创作七言绝句；识别米哈游游戏角色把真实表格图片转换成Markdown格式 ## 为什么这篇论文重要？它揭示并量化了一个关键矛盾：多模态能力和语言能力之间存在竞争关系。 70%语言数据这个比例，加上模态热身策略和分组训练，提供了一套可复制的解决方案。它证明了"从真实场景出发"构建数据的重要性。用分类体系指导数据收集，比随意拼凑学术数据集有效得多。混合视觉编码器的思路很实用。用两个互补的编码器分别处理语义和细节，比单纯堆高分辨率更高效，576个token的压缩方案在信息量和计算成本之间找到了合理平衡。小模型迭代方法论有很强的工程参考价值。困惑度评估 + 少量指令数据混入，让1.3B模型也能给出稳定的实验信号，大幅降低了迭代成本。当然，局限也很清楚。 7B的模型容量限制了数学推理等复杂任务的表现。论文结尾提到了后续会引入MoE（Mixture of Experts，混合专家模型）技术，这也是后来DeepSeek-VL2的方向。

译DeepSeek团队开源视觉语言模型DeepSeek-VL，包含1.3B和7B两个版本，旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化：数据构建上，采用从真实用户需求倒推的分类体系，并包含70%纯文本以保持语言能力；架构上创新采用SigLIP与SAM-B的混合视觉编码器，分别处理语义与细节特征；训练采用三阶段策略及模态平衡技术，缓解多模态训练对语言能力的侵蚀。

向阳乔木@vista8 · 4月30日60

今天刚发的DeepSeek-VL论文中最有意思的就是这个结论和配方了。多模态训练会"吃掉"语言能力用100%视觉数据训练语言模型，语言benchmark会断崖式崩塌。 70% 纯文本 + 30%多模态数据，是最佳配方。两种模态存在竞争关系，不是调参能绕过去的。

译DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

歸藏(guizang.ai)@op7418 · 4月30日51

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开底座是 DeepSeek-V4-Flash，MoE架构，总参数量 284B，激活参数量 13B。自研 DeepSeek‑ViT 视觉编码模型，14×14 patch，输出后 3×3 空间压缩，再接入 LLM。模型在回答时不仅进行文字推理，还会同时通过画框、打点等“视觉原语”进行思考。在极低的 Token 成本下，其效果能和 GPT-5.4、Claude 以及 Gemini 在一些前沿指标上对齐，甚至有的指标能反超。

译该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”（如画框、打点）思考。该模型以极低的Token成本，在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

阿绎 AYi@AYi_AInotes · 4月30日64

讲真，看到百度排第一我属实是没想到的哈哈哈

译LMArena文本榜显示，百度文心5.1 Preview以1476分位列国内第一、全球前十五，成为榜单中唯一国产模型，排名超过GPT-5.5等。尽管当前AI热点集中于Agent、多模态等领域，但DeepSeek V4与文心5.1 Preview仍以文本为核心。文章强调，文本能力是大模型的基础，代码、推理等多模态能力均从中“生长”，文本差距直接决定上层能力水平，因此仍是衡量模型差距的关键分水岭。

SemiAnalysis@SemiAnalysis_ · 4月30日53

GB300 NVL72 Rack Scale Dynamo SGLang disaggregation has up to 6.5x better performance than B200 on DeepSeekv4 Pro 1.6T 🚀 The high throughput configuration uses @deepseek_ai 's MegaMoe kernels which fully fuses & overlaps EP dispatch & EP combine & the GEMMs into an single kernel. This performance is achieved from the 10x engineers @BanghuaZ, Tom & the rest of the team at @radixark, @lmsysorg & @NVIDIAAI for rapidly enabling this performance! Big Shoutout to @CoreWeave to contributing temporary GB300 NVL72 racks towards the open source performance optimization for all to benefit!

译在 DeepSeek-V4 Pro 1.6T 模型上，采用机架级解耦设计的 GB300 NVL72 系统性能达到 B200 的 6.5 倍。这一高吞吐配置得益于 DeepSeek-AI 的 MegaMoe 内核，该内核将专家分派、专家组合及 GEMM 运算完全融合并重叠至单一内核中。性能突破由 Radixark、LMSYS 和 NVIDIA AI 的工程师团队快速实现。CoreWeave 为此项开源性能优化贡献了临时的 GB300 NVL72 机架资源，使整个社区受益。

向阳乔木@vista8 · 4月30日67

又快又便宜，海外的赞誉越来越多，不要只看Benchmark，看疗效。比如很多朋友都建议把沉浸式翻译的自定义模型换成V4 Flash，跟不要钱一样。

译DeepSeek V4 Flash模型因响应速度快、成本低，获海外用户好评。用户强调应重实际效果而非基准测试，例如建议沉浸式翻译改用该模型。有用户称其速度优势显著，已将非复杂推理API调用切换至V4 Flash，体验无感秒处理，成本比Claude Haiku省90%且质量更优。

SemiAnalysis@SemiAnalysis_ · 4月30日46

TEHRAN, April 29, 2026 -- Less than a week after the release of @deepseek_ai DeepSeek v4 Pro, the cracked team at @vllm_project and @inferact has achieved considerable improvement on GB200 (Dynamo+vLLM). This is largely due to the release of vLLM 0.20.0, which comes with MegaMoE kernel enabled for DEP deployments! Great work -- we are excited to highlight more improvements over the coming days.

译德黑兰，2026年4月29日——在@deepseek_ai DeepSeek v4 Pro发布不到一周后，@vllm_project和@inferact的破解团队在GB200（Dynamo+vLLM）上取得了显著改进。这主要得益于vLLM 0.20.0版本的发布，该版本为DEP部署启用了MegaMoE内核！出色的工作——我们期待在未来几天重点介绍更多改进。

swyx 🇸🇬@swyx · 4月30日64

IMO DeepSeek v4 demonstrated utter confidence and competence by not benchmaxxing, not focusing on some BS final run cost, not even spending inference-optimal compute. just showed up, demonstrated SOTA long context efficiency techniques (CSA, HCA, mHC, flash at 8% cost of pro, which itself is 14% cost of opus), dropped the best open base models in the world, peaced out. BYO posttraining. leave that to the agent labs to pick up the scraps. bravo.

译IMO DeepSeek v4 展现了十足的自信与能力，它没有进行基准刷分，没有关注某些无意义的最终运行成本，甚至没有投入推理最优的计算资源。只是亮相，展示了SOTA的长上下文效率技术（CSA、HCA、mHC，以pro版本8%的成本实现flash，而pro版本成本仅为opus的14%），发布了全球最佳的开源基础模型，然后潇洒离场。后续训练请自行处理。留给智能体实验室去收拾残局吧。喝彩。

TestingCatalog News 🗞@testingcatalog · 4月29日55

DeepSeek released DeepSeek Vision in Beta, a new mode in DeepSeek Chat dedicated to image-understanding tasks.

译DeepSeek 发布了 DeepSeek Vision 测试版，这是 DeepSeek Chat 中专门用于图像理解任务的新模式。

歸藏(guizang.ai)@op7418 · 4月29日54

Deepseek 的多模态模型全量了。目前可以在网页版的识图模式尝试，看起来是一个单独的多模态模型

向阳乔木@vista8 · 4月29日38

DeepSeek 的识图模式速度好快啊！这是新出的吗？上传图片，让反推提示词，秒出~

向阳乔木@vista8 · 4月29日47

DeepSeek 的识图模式速度实在是太快了。网页复刻还原度相当不错，这下前端开发就更好用了。 DeepSeek牛逼！

向阳乔木@vista8 · 4月29日29

将 DeepSeek Web 对话能力转换为 OpenAl、Claude 与 Gemini 兼容 API。厉害！但现在API这么便宜，直接用API也行吧...

译将 DeepSeek Web 对话能力转换为 OpenAI、Claude 与 Gemini 兼容 API。厉害！但现在API这么便宜，直接用API也行吧...

小互@xiaohu · 4月29日44

Deepseek 内测多模态能力现在可以识别图像对于Agent执行能力提升有很大帮助...

译Deepseek 内测多模态能力现在可以识别图像对于Agent执行能力提升有很大帮助... [引用 @PKUCXK]：Now, we see you. 👀

DeepSeek@deepseek_ai · 4月29日47

The DeepSeek-V4-Pro discount has been extended until May 31, 2026, 15:59 UTC!

译DeepSeek-V4-Pro 的优惠期限已延长至 2026 年 5 月 31 日 15:59（UTC）！ [引用 @deepseek_ai]：🔥DeepSeek-V4-Pro API 提供 75% 折扣，优惠截止至 2026 年 5 月 5 日 15:59（UTC 时间）！不要错过这次大幅优惠。 🛠️集成更新： 🔹Claude Code：将模型设置为 deepseek-v4-pro[1m] 以解锁 100 万上下文！ 🔹OpenCode：更新至 v1.14.24+ 🔹OpenClaw：更新至 v2026.4.24+ 查看最新官方 API 文档获取完整详情：https://api-docs.deepseek.com/quick_start/pricing

阿绎 AYi@AYi_AInotes · 4月28日48

Damn，DeepSeek V4 Pro质量是Claude的85%，价格只有七分之一。今天用ZenMux同屏PK模式跑了马斯克100个思维模型的硬核任务，结果直接刷新认知🤯🤯🤯 DeepSeek直接甩出完整结构化表格，每个模型拆成是什么为什么案例落地四栏，逻辑丝滑纯母语表达，一点翻译腔都没有。 Claude文笔确实更细腻，但后半段开始瞎编参考文献，我随手查了三个全是不存在的。两者质量差5分，价格差7倍，折扣期差距还会更大。结论非常清晰，80%的日常工作写代码做调研搭框架，全部扔给DeepSeek。剩下20%需要顶级文笔和深度创意的活，再切回Claude。就这么简单，整体API费用直接省70%以上。最香的是ZenMux上的免费版，不用去官网排队抢额度，打开就能用，1M上下文拉满，速度还比官方快。链接放这了直接冲：https://zenmux.ai/deepseek/deepseek-v4-pro-free #DeepSeekV4 #ZenMux #Claude #大模型 #AI生产力

译通过ZenMux平台的PK模式实测，DeepSeek V4 Pro在处理结构化任务（如马斯克思维模型分析）时，输出逻辑清晰、表达母语化，质量达到Claude的85%，但价格仅为其七分之一。作者建议将80%的日常工作（如写代码、调研）交由DeepSeek处理，20%需要顶级文笔的任务使用Claude，可节省70%以上API费用。ZenMux提供免费测试额度、PK对比模式、保险赔付和可观测性工具，帮助用户规避依赖单一API厂商的风险并提升选型效率。

Orange AI@oran_ge · 4月28日43

我靠，今天产品负责人又抽疯了他竟然说 DeepSeek V4 官方打 2.5 折太抠门了他要在 ColaOS 里的免费给大家用 V4 我：？？？你认真的吗， Agent 里的模型那么贵，我们兜得住吗？这次他又给了一个我完全无法拒绝的理由... 我说好吧，那我们先免费到五一假期结束吧... 如果你还没有邀请码，用这个： x-USGB739K 下载地址 http://colaos.ai 目前只支持 Mac

译ColaOS产品负责人决定在ColaOS中免费提供DeepSeek V4模型，而非仅提供官方2.5折优惠。面对内部对高昂模型成本的担忧，负责人给出了一个“无法拒绝的理由”，最终团队达成妥协，将免费使用期限设定为五一假期结束前。推文同时提供了下载地址（目前仅支持Mac）和一个用户邀请码。

向阳乔木@vista8 · 4月28日42

不少身边朋友觉得DeepSeek v4没有对龙虾等agent场景优化好，有点可惜。反而是小米的mimo v2.5表现很好，听张小珺访谈能看出小米的AI负责人罗福莉对claw类产品很上头。现在明白了，无论模型训练适配，还是AI企业落地应用，都是一把手工程。一号位看重什么，投入什么，结果会不一样。对agentic认知越早，收益越大。

译作者观察到，尽管DeepSeek v4在龙虾等agent场景表现未达预期，但小米的mimo v2.5却表现优异。这源于小米AI负责人罗福莉对claw类产品的高度重视和投入。由此得出结论，无论是模型训练适配还是企业AI应用落地，本质上都是“一把手工程”。企业一号位对agentic（智能体）的认知深度和投入决心，直接决定了最终成果的差异，越早认识到其重要性，获得的收益就越大。

向阳乔木@vista8 · 4月28日54

简单Skill用DeepSeek V4 Flash感觉差不多可用了。且速度非常快，V4发布没有R1发布时轰动，但实实在在变得可用了。视频演示一句话下载epub电子书，转txt，自动上传Notebooklm提问，然后用指定Prompt写一篇解读文。过程中会自动纠错，工具调用能力也显著提升。

译用户评估DeepSeek V4 Flash模型，认为其简单的技能调用功能已接近可用状态，且处理速度非常快。尽管发布时不如R1轰动，但实际能力有了切实提升。演示视频展示了其处理复杂工作流的能力：从根据一句话指令下载epub电子书、转换为txt格式、自动上传至Notebooklm进行提问，到最后根据指定Prompt撰写解读文章。整个过程体现了模型自动纠错能力的增强以及工具调用能力的显著进步。

向阳乔木@vista8 · 4月27日33

DeepSeek 牛逼！不过得吐槽下Grok的翻译，这个语境下的GOAT翻译成山羊... 不翻译就好啊这是应该是没用大模型翻译能力吧，再弱的模型都不应该犯这样的错误。

译DeepSeek 牛逼！不过得吐槽下Grok的翻译，这个语境下的GOAT翻译成山羊... 不翻译就好啊这应该是没用大模型翻译能力吧，再弱的模型都不应该犯这样的错误。

Chubby♨️@kimmonismus · 4月27日63

Google's TPU v8 and Huawei's Ascend NPU platform: the global Chipwar just began At Cloud Next 2026, Google unveiled its eighth-generation TPU as two separate chips for the first time: the TPU 8t for training and the TPU 8i for inference, claiming up to 2.8x faster training and 80% higher performance per dollar for inference compared to last year's Ironwood. The 8t was designed by Broadcom, the 8i by MediaTek, applying mobile-edge efficiency logic to inference while maximizing raw throughput on training. The 8t connects up to 9,600 accelerators via optical-circuit switches, dwarfing NVIDIA's 576-GPU NVLink domain, and a new Virgo network fabric scales beyond one million chips for a single training job. Google is also replacing x86 hosts with its own Arm-based Axion CPUs, completing full vertical control from host to accelerator to network. The message is clear: the general-purpose AI accelerator is a fading category. DeepSeek V4 on Huawei Ascend: China's parallel infrastructure takes shape DeepSeek's V4 release is the more geopolitically consequential event. The 1.6 trillion-parameter V4-Pro is the first major frontier model to validate both training and inference on Huawei's Ascend NPU platform alongside NVIDIA GPUs. The nuance: DeepSeek adapted only part of V4's training for Chinese chips and confirmed Ascend for inference, while pre-training of V4-Pro likely still relied on NVIDIA silicon. Is this a novum? Yes. No frontier-class model has ever publicly validated on non-NVIDIA hardware at this scale. More importantly, DeepSeek is tying future pricing to Huawei's Ascend 950 production ramp in H2 2026, making this an economic bet, not a symbolic gesture. V4-Pro costs $3.48 per million output tokens versus $30 for GPT-5.4 and $25 for Claude Opus 4.6. The real story isn't whether V4 beats Western models on benchmarks (it doesn't quite), but whether the hardware decoupling U.S. sanctions were designed to prevent is now irreversibly underway.

译谷歌在Cloud Next 2026上首次将TPU v8拆分为训练芯片TPU 8t和推理芯片TPU 8i，宣称训练速度提升2.8倍，推理性价比提高80%，并通过自研Arm架构Axion CPU实现全栈垂直控制。同时，DeepSeek V4-Pro成为首个在华为昇腾NPU平台上完成训练与推理验证的前沿大模型，其定价与昇腾950芯片量产计划挂钩，输出成本远低于主流西方模型。这标志着美国制裁试图阻止的硬件脱钩可能已不可逆转，全球AI芯片竞争进入新阶段。

karminski-牙医@karminski3 · 4月27日50

给大家同步一下DeepSeek-V4 的测试进度，目前前面几项大家熟悉的测试都已经跑完了，还缺少大家期待的GPT-5.5-Pro (我去攒点银子), xiaomi-mimo, hunyuan-3-preview 的测试，这几个正在跑了。然后这次我还增加了【大模型工程能力测试】，说下测试核心设计思路：首先工程项目我选择了酒馆（SillyTavern-1.17.0），然后写的需求文档是让被测试大模型给酒馆增加一个支持实时解释器的数值系统。大家都知道酒馆其实搭配各种插件其实是可以实现数值系统的，比如RPG数值系统。但是，大模型是没办法凭空创造数值逻辑的，所以本次的需求就是让大模型通过tool_call可以创建新的数值系统，比如属性，状态，天赋等等，并且定义数值与现有数值系统的逻辑，即，它可以注入一段js代码，与已有的js代码交互，形成新的逻辑。比如现在只有hp，数值100/100, 然后AI可以通过调用我们的数值系统，创建一个新的状态，叫做中毒，中毒状态持续10个tik, 然后每个tik会减少10点生命值。这一切全是我们的数值系统在AI创建这个js代码逻辑后自动执行的，不需要AI再接管。这样一来是可以大大拓展可玩性，二来是大模型不会因为玩家【求求你了我快寄了给我加1000HP】轻松实现作弊。然后，我还需要魔改terminal coding cli (本次使用的是kimi cli), 即，大模型需要使用魔改后的kimi-cli 来fork一份酒馆源代码来实现我们这个新需求，而这个魔改的kimi-cli 可以监督大模型的实现过程，统计大模型的token使用，使用工具的情况和能力，最终再运行我们专门为这个需求定制的黑盒测试，实现真正的【工程级别分析】。酒馆源代码足足有20万行，纯js也有13万行，作为测试项目工程量足够大了。除此之外，我还魔改了酒馆源代码模板（就是AI要fork那一份），增加了酒馆cli模式，这个模式可以让被测试大模型实现harness闭环，即模型修改完代码了，可以进入cli模式自己玩酒馆测试一下，看看对不对，从而反复迭代自己的代码，还顺便考验了大模型的 Agent能力。总之，还请大家稍安勿躁，我会尽快放出测试视频。【跪谢大家】 #deepseekv4

译作者同步了DeepSeek-V4的测试进度，并重点介绍了一项新设计的“大模型工程能力测试”。该测试以约20万行代码的SillyTavern项目为基础，要求大模型通过tool_call创建新的数值系统（如属性、状态），并能注入JS代码与现有系统交互。测试使用魔改的kimi-cli来监督实现过程、统计token与工具使用情况，并运行定制黑盒测试。此外，通过为酒馆增加CLI模式，测试还评估了大模型的Agent能力，使其能自行测试并迭代代码。目前测试仍在进行中。

Berryxia.AI@berryxia · 4月27日49

本周AI论文大爆炸！ @dair_ai 精选Top 10最硬核研究 1️⃣ DeepSeek V4：原生百万token上下文开源模型！1.6T参数混合注意力（CSA+HCA），性能直逼GPT-5.2和Gemini 3.0-Pro，成本仅为闭源模型一小部分！开源长上下文新王者诞生🔥 2️⃣ Autogenesis：AI Agent自我进化协议！自主发现能力缺口、生成改进、测试验证、自动集成，无需人类打补丁，真正实现自我升级！ 3️⃣ Apple Attention to Mamba：Transformer蒸馏成Mamba新方案！两阶段线性注意力过渡，1B模型接近Pythia-1B性能，推理速度线性加速！还有Skill-RAG、Self-Generated World Knowledge、Self-Evolving Logic Synthesis、Stateless Decision Memory等重磅论文… AI研究又一次集体起飞！哪个最让你兴奋？👇

译本周多项前沿AI研究取得突破。开源模型DeepSeek V4具备百万token上下文和1.6T参数，性能接近顶级闭源模型而成本更低。Autogenesis协议使AI Agent能自主发现能力缺口并自我进化。Apple Attention to Mamba提出将Transformer蒸馏至Mamba架构的新方法，实现线性推理加速。此外，Skill-RAG等研究也展示了领域的快速进展。

Rohan Paul@rohanpaul_ai · 4月27日45

Today’s edition of my newsletter just went out. 🔗 https://www.rohan-paul.com/p/openai-launched-gpt-55-in-chatgpt 🗞️ OpenAI launched GPT-5.5 in ChatGPT and Codex. 🗞️ DeepSeek releases V4, the first open-source model to match a closed model on competitive programming, and a huge 1M-context window 🗞️ DeepSeek paper’s big idea is a new way to make very long-context LLMs much cheaper without giving up much ability. 🗞️ Anthropic just mapped the first large-scale link between AI use, productivity, and replacement fear.

译OpenAI在ChatGPT和Codex中推出了GPT-5.5。DeepSeek发布了开源模型V4，其性能在竞技编程任务上首次媲美闭源模型，并具备100万token的上下文窗口。该模型论文的核心创新在于提出了一种大幅降低长上下文LLM成本、同时几乎不损失能力的新方法。此外，Anthropic首次大规模揭示了AI使用、生产力提升与人类对工作被替代的恐惧之间的关联。

DeepSeek@deepseek_ai · 4月27日62

🔥DeepSeek Input Cache Price Drop! Effective immediately, the price for input cache hits across the ENTIRE DeepSeek API series is reduced to just 1/10th of the original price! Build more efficiently for less. 📌Reminder: The DeepSeek-V4-Pro 75% OFF promotion is still active until May 5th, 2026, 15:59 (UTC Time).

译🔥DeepSeek 输入缓存价格下调！即刻起，整个 DeepSeek API 系列的输入缓存命中价格降至原价的十分之一！以更少成本，更高效地构建。 📌提醒：DeepSeek-V4-Pro 七五折优惠活动持续有效至 2026 年 5 月 5 日 15:59（UTC 时间）。

Berryxia.AI@berryxia · 4月26日57

这个价格才是DeppSeek 应有的嘛！ 2.5折！不过就这几天截止5.5 日！

译Deepseek V4 官方推出2.5折优惠活动，截止日期为5月5日，旨在鼓励用户积极使用该模型。官方同时提供了配置 Claude code 的指南，强调需注意模型选择（如 deepseek-v4-pro 和 deepseek-v4-flash）和思考级别设置（例如将 EFFORT_LEVEL 设为 max），以优化集成和使用体验。

swyx 🇸🇬@swyx · 4月26日70

btw we are cooking something with @hhua_ (not final yet but keep calendar open after ICML in Seoul)

译DeepSeek团队正式推出并开源了DeepSeek-V4预览版模型，标志着高性价比的百万上下文长度时代到来。该系列包含两个模型：DeepSeek-V4-Pro拥有1.6万亿总参数和490亿活跃参数，性能媲美顶级闭源模型；DeepSeek-V4-Flash则拥有2840亿总参数和130亿活跃参数，主打快速、高效与经济。模型现已在官方平台通过专家模式和即时模式开放试用，API也已同步更新。完整的技术报告和模型权重已在Hugging Face平台发布，供社区研究和应用。

DeepSeek@deepseek_ai · 4月25日60

🔥DeepSeek-V4-Pro API is 75% OFF until May 5th, 2026, 15:59 (UTC Time)! Don't miss out on this massive discount. 🛠️Integration Updates: 🔹Claude Code: Set model to deepseek-v4-pro[1m] to unlock 1M context! 🔹OpenCode: Update to v1.14.24+ 🔹OpenClaw: Update to v2026.4.24+ Check the latest official API docs for full details: https://api-docs.deepseek.com/quick_start/pricing

译🔥DeepSeek-V4-Pro API 限时75折优惠，截止至2026年5月5日15:59（UTC时间）！切勿错过此次大幅折扣。 🛠️集成更新： 🔹Claude Code：将模型设置为 deepseek-v4-pro[1m] 即可解锁100万上下文！ 🔹OpenCode：请更新至 v1.14.24+ 🔹OpenClaw：请更新至 v2026.4.24+ 查看最新官方API文档获取完整详情：https://api-docs.deepseek.com/quick_start/pricing