全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态

全部一手资讯 X 论文

标签「DeepSeek」清除

5月9日周六

09:29IT之家（RSS）66DeepSeek 大范围开放"识图模式"，正式跨入图文交互时代

09:25SemiAnalysis54DeepSeek V4推理优化获突破性进展

08:25Rohan Paul72DeepSeek融资70亿美元创纪录，创始人个人出资30亿

07:29IT之家（RSS）14IT早报 0509：工信部批复 6G 技术试验频率；美团、淘宝闪购、京东已基本取消超时扣款；8 家新能源车企 OTA 锁电被约谈…

5月8日周五

20:22IT之家（RSS）67消息称 DeepSeek 寻求 500 亿元融资，下月将发布 V4.1 更新

18:20IT之家（RSS）56（已恢复）DeepSeek 服务大宕机，网页 / API 暂不可用

18:12OpenCode43DeepSeek模型服务中断 OpenCode Go受影响

13:36Hacker News 热门（buzzing.cc 中文翻译）57ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

11:06SemiAnalysis61vllm团队周末火速优化DeepSeekv4性能

08:36SemiAnalysis21行业领袖热议AI模型进展与动态

05:06SemiAnalysis50DeepSeek突破浮点运算非确定性难题

03:06Hacker News 热门（buzzing.cc 中文翻译）74精选DeepSeek 4：适用于 Metal 的 Flash 本地推理引擎

5月7日周四

19:38The Decoder：AI News（RSS）56美国与中国正考虑就人工智能举行正式会谈

08:16IT之家（RSS）23漫步者 Lolli5 ANC 智能触控大圆屏耳机开售：50dB 降噪，539 元

08:16IT之家（RSS）54IT早报 0507：三星在中国大陆停销所有家电产品；DeepSeek获国家大基金领投磋商；安卓小机器人变透明形象；三星电子市值破万亿美元

07:33Orange AI21用户批评DeepSeek V4表现不佳

01:06Nathan Lambert76精选月之暗面完成20亿美元融资，估值超200亿

5月6日周三

21:32The Decoder：AI News（RSS）63Deepseek 估值接近450亿美元，中国国家芯片基金领投本轮融资

21:01SemiAnalysis53DeepSeekv4 Pro在SGLang上实现10倍吞吐提升

20:16IT之家（RSS）53微软警告有黑客假借 DeepSeek V4 名义，在 GitHub 建立虚假仓库传播木马

19:20Berryxia.AI79精选国家队领投DeepSeek估值飙升至450亿美元

15:16IT之家（RSS）64估值近 450 亿美元，DeepSeek 首轮融资获"国家大基金"领投磋商

5月4日周一

17:52向阳乔木47DeepSeek v4 Pro实现手柄控制电脑应用

5月3日周日

16:21The Decoder：AI News（RSS）54美国政府基准测试称中国在AI竞赛中落后，但独立数据并不支持

5月2日周六

17:44Chubby♨️63DeepSeek V4挑战西方对中国AI芯片落后的认知

5月1日周五

14:14Artificial Analysis57三大开源模型上周齐发，与顶尖闭源模型差距缩小至6分内

13:46Orange AI33DeepSeek中文润色遭调侃，开发者求援推广TUI工具

13:17小互65美国开发者求助国内社群推广项目并协助验证微信

08:44elvis58DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

08:10IT之家（RSS）45IT早报 0501：追觅 CEO 要求员工开通社媒账号；OPPO 将推四曲面手机；iPhone 18 Pro 相机大升级

06:15Nathan Lambert47中美AI公司相互蒸馏技术成常态

03:14karminski-牙医72精选DeepSeek-V4 API推理内容字段缺失导致报错问题

03:14karminski-牙医64DeepSeek-V4 API思考模式字段缺失导致请求失败的解决方案

00:44向阳乔木61DeepSeek提出"视觉原语"多模态推理框架，用"指"的方式思考

00:44向阳乔木45DeepSeek论文AI解读：独立思考与数据清洗亮点

00:44向阳乔木41DeepSeek-VL：面向真实场景的视觉语言模型

4月30日周四

23:10IT之家（RSS）72精选DeepSeek 公布多模态模型技术报告

22:13向阳乔木50DeepSeek开源视觉语言模型DeepSeek-VL，聚焦真实场景应用

22:13向阳乔木60DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

20:11歸藏(guizang.ai)51DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月9日

09:29

IT之家（RSS）

66

DeepSeek 大范围开放"识图模式"，正式跨入图文交互时代

DeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力，不仅能识别文物、解答空间推理题、理解网络梗图，还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架，通过融入点、边界框等视觉元素提升逻辑准确性，且处理效率高，单图token消耗远低于主流模型。目前该模式仍处内测，存在知识库更新滞后、处理反直觉图形不稳定等不足，且暂不支持图像生成或视频理解。

DeepSeek 产品更新多模态

09:25

SemiAnalysis@SemiAnalysis_

54

@sgl_project 和 @radixark 团队在优化DeepSeek V4推理方面取得了惊人成果，包括在B200、B300上的优化，以及@ChengWan17近期在GB300上实现的4倍等交互吞吐量提升！正如@elonmusk所说，GB300是最佳AI计算机，而此类软件优化正展现其真正潜力！

DeepSeek 推理行业动态

08:25

Rohan Paul@rohanpaul_ai

72

DeepSeek融资70亿美元创纪录，创始人个人出资30亿

DeepSeek正以500亿美元估值进行高达70亿美元的融资，创下中国AI领域最大单轮融资纪录。创始人梁文锋个人出资30亿美元，占本轮融资的40%，同时仍保留公司90%的所有权。该公司最初诞生于其本人成功的对冲基金内部。本轮融资将主要用于获取大规模计算资源，以加速发布V4.1等新模型，并投资企业级产品，目标是推动公司实现营收转正，其发展路径与OpenAI和Anthropic类似。

DeepSeek 数据/训练行业动态

07:29

IT之家（RSS）

14

IT早报 0509：工信部批复 6G 技术试验频率；美团、淘宝闪购、京东已基本取消超时扣款；8 家新能源车企 OTA 锁电被约谈…

工信部批复6GHz频段用于6G技术试验。在算法治理方面，美团、淘宝闪购、京东等平台已基本取消超时扣款，取得初步成效。因OTA锁电投诉激增，8家新能源车企被约谈，其中3家被立案调查。此外，华为Pura X Max折叠屏手机首销10天激活超20万台，创历史纪录；任天堂宣布Switch 2游戏机将于9月起在欧美涨价50美元；滴滴出行将网约车订单抽成上限降至27%。苹果AI AirPods和DeepSeek大额融资的消息也备受关注。

DeepSeek 其他

5月8日

20:22

IT之家（RSS）

67

消息称 DeepSeek 寻求 500 亿元融资，下月将发布 V4.1 更新

据知情人士消息，DeepSeek正寻求首轮融资，目标高达500亿元人民币，若成功将成中国AI公司迄今最大规模融资。创始人兼CEO梁文锋计划提供最大一笔资金。融资推动公司加快商业化节奏，计划提高模型发布频率以接近行业标准。同时，DeepSeek将于6月发布V4模型的更新版本V4.1。

DeepSeek 开源生态模型发布行业动态

18:20

IT之家（RSS）

56

（已恢复）DeepSeek 服务大宕机，网页 / API 暂不可用

DeepSeek网页和API服务于5月8日下午发生重大中断，官方状态页面显示为“Major Outage”，服务暂不可用。用户尝试对话时收到“服务器繁忙，请稍后重试”的提示。官方随后确认已识别问题并实施修复。至18:06，官方宣布问题已修复，网页和API服务恢复可用，但经测试，网页端的“识图模式”功能仍未出现。

DeepSeek 行业动态

18:12

OpenCode@opencode

43

OpenCode Go 目前因上游供应商中断而遇到 DeepSeek 模型问题。我们正在此处监控情况：https://status.deepseek.com/

DeepSeek 编码行业动态

13:36

Hacker News 热门（buzzing.cc 中文翻译）

57

ZAYA1-8B 在数学计算方面与 DeepSeek-R1 表现相当，且活跃参数少于 10 亿

ZAYA1-8B 是一个新发布的开源人工智能模型，在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿，突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效，可能降低部署成本并加速推理过程，为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步，其开源性质有望推动进一步研究和应用。

DeepSeek 推理模型发布编码

11:06

SemiAnalysis@SemiAnalysis_

61

@vllm_project 维护者在第0天优化DeepSeekv4性能并在周末合并了他们的初始模型支持PR。速度就是护城河

DeepSeek 开源/仓库推理部署/工程

08:36

SemiAnalysis@SemiAnalysis_

21

Dylan、Doug和Max本周来访，讨论了GPT 5.5、Claude Opus 4.7、DeepSeek的延期回归、Mythos、Subq以及更多热门话题！ @dylan522p @fabknowledge @JordanNanos @maxkan_

Anthropic DeepSeek OpenAI 行业动态

05:06

SemiAnalysis@SemiAnalysis_

50

浮点运算不满足结合律！许多高性能计算核心会将工作负载分配到多个流多处理器上，并以非确定性顺序累加部分结果。许多AI实验室只能接受这一点，或为确定性付出巨大的性能代价。DeepSeek决定两者都不选。（1/4） 🧵

DeepSeek 数据/训练现象/趋势

03:06

Hacker News 热门（buzzing.cc 中文翻译）

精选74

DeepSeek 4：适用于 Metal 的 Flash 本地推理引擎

DeepSeek 4 Flash 本地推理引擎正式发布，这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型，实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能，降低了延迟与内存占用。该项目已在 GitHub 开源，并在 Hacker News 上获得了关注。

DeepSeek 开源/仓库推理端侧

推荐理由：antirez 写的引擎让 DeepSeek 4 在 Mac 本地跑出近乎 Flash 的速度，而且代码极其精简，做本地推理的开发者应该立刻克隆下来跑一下。

5月7日

19:38

The Decoder：AI News（RSS）

56

美国与中国正考虑就人工智能举行正式会谈

据《华尔街日报》报道，美国与中国正在探索就人工智能领域举行官方会谈。此举表明两国在AI技术竞争日益激烈的背景下，可能寻求建立沟通渠道以讨论相关风险、标准或治理框架。目前会谈的具体议题与时间表尚未披露。

DeepSeek OpenAI 政策/监管

08:16

IT之家（RSS）

23

漫步者 Lolli5 ANC 智能触控大圆屏耳机开售：50dB 降噪，539 元

漫步者 Lolli5 ANC 智能触控大圆屏耳机已上市，售价539元，提供沙滩白、礁石黑、落日橙三种配色。其最大亮点是充电盒配备智能触控屏，可显示时间并控制音乐、拍照。耳机支持50dB深度、5kHz宽度的ANC自适应降噪和3+3麦智能通话降噪，拥有双Hi-Res金标认证。采用13mm双复合LCP液晶振膜单元，支持蓝牙6.0、双设备连接和IP55级防尘防水。此外，还集成了豆包与DeepSeek双脑问答、会议录音及App实时互译等智能功能。

DeepSeek 产品更新语音

08:16

IT之家（RSS）

54

IT早报 0507：三星在中国大陆停销所有家电产品；DeepSeek获国家大基金领投磋商；安卓小机器人变透明形象；三星电子市值破万亿美元

三星电子宣布在中国大陆市场停止销售所有家电产品，但售后服务照常提供。DeepSeek正与国家集成电路产业投资基金洽谈首轮融资，估值约450亿美元。安卓系统官宣将于5月13日揭晓新形象，小机器人变为彩色半透明设计。三星电子市值突破1万亿美元，成为亚洲第二家万亿美元市值企业。此外，华为发布HarmonyOS 6新功能及超薄平板，字节跳动推出全模态理解模型，携程否认大裁员传闻，星空卫视将暂停卫星传输服务。

DeepSeek 行业动态

07:33

Orange AI@oran_ge

21

DeepSeek V4 太笨了，跟他交流我感觉是在浪费自己宝贵的生命。

DeepSeek 大佬观点

01:06

Nathan Lambert@natolambert

精选76

作者盛赞访问Moonshot AI（月之暗面）的体验极佳。其旗下产品Kimi正以超200亿美元的投后估值完成新一轮约20亿美元融资，由美团龙珠领投。公司在2025年前六个月融资总额超39亿美元，估值较去年11月增长约4倍，成为中国累计融资额最高的AI初创公司。其年度经常性收入在短期内从1亿美元快速增长至超2亿美元，付费订阅和API使用量均在加速。

Manqi Cheng 程曼祺: Just published an exclusive on LatePost. A few highlights: - Kimi (Moonshot AI) is closing a new $2B funding round at a ...

DeepSeek 推理行业动态

推荐理由：月之暗面这轮融资直接把国内AI格局拉到了新高度，AR从三个月1亿跳到2亿美金，加上Nathan Lambert站台，这家公司不再是“中国另一家大模型”了。

5月6日

21:32

The Decoder：AI News（RSS）

63

Deepseek 估值接近450亿美元，中国国家芯片基金领投本轮融资

据《金融时报》报道，中国人工智能实验室Deepseek正接近完成一轮新的融资，其估值可能达到约450亿美元。此轮融资由中国国家芯片基金领投，标志着国家级资本对本土前沿AI企业的大力支持。若融资完成，Deepseek的估值将跻身全球AI独角兽前列。

DeepSeek 行业动态

21:01

SemiAnalysis@SemiAnalysis_

53

锡安国家公园峡谷观景台 - MI355x在SGLang上针对DeepSeekv4 Pro的吞吐量自首发日以来已实现每GPU超过10倍的提升。来自@amd和@sgl_project的Hai团队工程师们取得了巨大胜利！@EmadBarsoumPi @AnushElangovan

DeepSeek 推理行业动态

20:16

IT之家（RSS）

53

微软警告有黑客假借 DeepSeek V4 名义，在 GitHub 建立虚假仓库传播木马

微软威胁情报团队发出警告，有黑客正冒充DeepSeek V4模型的名义在GitHub创建虚假仓库，诱骗用户下载实为Vidar、GhostSocks等木马的“模型文件”。此次属于“蹭热点”钓鱼攻击，DeepSeek官方并未被入侵。官方强调，DeepSeek V4仅通过API和Hugging Face发布，未在GitHub提供模型仓库。用户若搜索“DeepSeek v4 weights GitHub”等关键词，可能优先看到这些恶意仓库。目前GitHub已关闭部分恶意仓库并封禁账号，以阻止恶意软件进一步传播。

DeepSeek 安全/对齐行业动态

19:20

Berryxia.AI@berryxia

精选79

国家队领投DeepSeek估值飙升至450亿美元

DeepSeek估值在数周内从200亿美元跃升至450亿美元，本轮融资由国家大基金领投，腾讯有意跟投，创始人梁文锋也参与出资。此举标志着国家队首次公开投资本土大模型公司，具有强烈的战略象征意义。这被视为官方将AI大模型正式纳入“半导体国家战略”的关键信号，向市场传递了国家全力支持国产AI发展的明确信息，预示着行业将进入新的发展阶段。

DeepSeek 行业动态

推荐理由：大基金第一次押注大模型就给了 DeepSeek，这等于官方把大模型升格为半导体级国家战略，对整个赛道是强心针，但其他玩家的融资故事恐怕得换个讲法了。

15:16

IT之家（RSS）

64

估值近 450 亿美元，DeepSeek 首轮融资获"国家大基金"领投磋商

国家集成电路产业投资基金正洽谈领投DeepSeek首轮融资，公司估值有望达450亿美元。与数周前200亿美元估值相比，当前估值已翻倍。除国家大基金外，腾讯等机构也在潜在投资者名单中，创始人梁文锋也将以个人名义出资。若交易完成，这将是国家大基金首次公开投资本土大语言模型企业，该基金2024年募集约470亿美元，主要投向半导体设备与材料领域。

DeepSeek 开源生态行业动态

5月4日

17:52

向阳乔木@vista8

47

DeepSeek v4 Pro还是可以的。几轮对话，实现一个工具，用xbox手柄控制电脑应用和浏览器。当遥控器，躺床上刷小说和看视频。

DeepSeek 教程/实践编码

5月3日

16:21

The Decoder：AI News（RSS）

54

美国政府基准测试称中国在AI竞赛中落后，但独立数据并不支持

美国政府机构评估称中国在人工智能竞赛中落后八个月，但独立数据并未证实这一差距。当前美国实验室持续追求更智能的模型，而中国玩家如深度求索（Deepseek）等提供的价格优势可能成为更关键的竞争筹码。这场竞赛的衡量标准正从单纯的技术指标扩展到包括成本效益在内的综合维度。

DeepSeek 现象/趋势评测/基准

5月2日

17:44

Chubby♨️@kimmonismus

63

DeepSeek V4挑战西方对中国AI芯片落后的认知

西方长期认为中国在AI芯片领域落后10-15年，但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态，可在昇腾950基础设施上部署推理，实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上，昇腾950仍显著落后于NVIDIA Blackwell B200，但中国通过“横向扩展”战略，用大量国产芯片集群结合软件优化和模型架构创新（如MoE），使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。

DeepSeek 开源生态推理数据/训练

5月1日

14:14

Artificial Analysis@ArtificialAnlys

57

三大开源模型上周齐发，与顶尖闭源模型差距缩小至6分内

上周，Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布，在Artificial Analysis Intelligence Index上得分达52-54分，与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内，相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而，在复杂推理、智能体编码及知识准确性方面，开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后；在Omniscience评估中，DeepSeek V4 Pro的幻觉问题尤为突出。

DeepSeek OpenAI 开源生态推理

13:46

Orange AI@oran_ge

33

主推文指出DeepSeek的中文润色效果不佳。引用推文中，美国开发者@goodhunt推广其开源项目DeepSeek-TUI，希望连接中国开发者社区，但受限于翻墙和微信验证问题。他请求帮助扩散工具和验证微信号，以建群讨论DeepSeek、开源及agent开发，并承诺使用cargo install安装路径避免npm。该推文中文由DeepSeek润色，凸显了其语言处理的局限性。

Hunter Bown: 鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...

DeepSeek 大佬观点

13:17

小互@xiaohu

65

一位开发了DeepSeek-TUI终端工具的美国开发者，希望与国内开发者社群建立联系，共同探讨DeepSeek、开源及智能体开发。他因无法自行解决网络问题以使用微信，特请求社区帮助：一是转发推广其开源项目，二是协助验证微信号以便建群交流。作为回报，他承诺工具将通过cargo install方式安装。

Hunter Bown: 鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...

DeepSeek 开源/仓库开源生态推理

08:44

elvis@omarsar0

58

DeepSeek-V4-Pro 在智能体编码任务中表现惊艳

测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库，对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型，且成本效益高，支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行，擅长智能体编码和知识密集型推理任务，能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计，将 KV 缓存降至 10%，推理计算量减少近 4 倍，实现了快速且低成本的实践部署。

智能体 DeepSeek 开源生态推理

08:10

IT之家（RSS）

45

IT早报 0501：追觅 CEO 要求员工开通社媒账号；OPPO 将推四曲面手机；iPhone 18 Pro 相机大升级

本期IT早报主要内容包括：追觅科技CEO要求全体员工开通社交媒体账号并发布视频；OPPO计划下半年推出效仿苹果风格的四曲面设计手机；iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外，极越汽车关联主体进入合并重整程序，DeepSeek发布多模态模型技术报告，央视曝光部分充电头功率虚标，宇树发布起售价2.69万元的双臂人形机器人，比亚迪与高德地图达成充电合作，支付宝等17家支付机构牌照获续展，华为鸿蒙新版本占比提升，以及小米大屏旗舰手机预计5月下旬发布。

DeepSeek 多模态推理行业动态

06:15

Nathan Lambert@natolambert

47

蒸馏在很大程度上是行业标准，并非仅是中国实验室针对 OpenAI/Anthropic 的做法。许多美国公司也会蒸馏中国的（开源）模型。

MTS: LIVE TRIAL UPDATE: OpenAI's counsel asked Musk whether xAI has ever "distilled" technology from OpenAI. Musk: "Generally...

DeepSeek 大佬观点开源生态

03:14

karminski-牙医@karminski3

精选72

DeepSeek-V4 API推理内容字段缺失导致报错问题

用户在使用DeepSeek-V4 API或集成该模型的终端编码代理（如Claude Code、Kimi CLI）和AI IDE（如Cursor）时，频繁遇到HTTP 400报错。错误信息指出，在思考模式下必须将reasoning_content字段回传给API。核心问题在于，当任务步骤的tool_call过于简单直接时，DeepSeek-V4返回的reasoning_content可能为空字符串。许多开发工具默认会过滤掉空值字段，导致该字段未被回传，从而触发API报错，致使编码任务或代理中断。经测试，在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传，不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具，使用DeepSeek-V4的代理项目也需注意此问题。

DeepSeek 推理教程/实践

推荐理由：如果你在用 DeepSeek-V4 写代码，这个坑迟早会踩到，作者把问题和解法都讲清楚了，不用等 IDE 修，看完就能自己改。

03:14

karminski-牙医@karminski3

64

使用DeepSeek-V4 API开启思考模式时，必须在后续请求中回传模型返回的`reasoning_content`字段。当任务过于简单时，该字段可能为空字符串，而许多终端编码代理和AI IDE的默认行为会过滤掉空值字段，导致API返回HTTP 400错误并中断任务。关键解决方案是必须原样回传该字段，即使其值为空字符串，不能丢弃或改为空对象。目前需等待工具官方修复或自行修改开源版本，仅靠重试难以根本解决此问题。

karminski-牙医: 给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (c...

智能体 DeepSeek 教程/实践编码

00:44

向阳乔木@vista8

61

DeepSeek提出"视觉原语"多模态推理框架，用"指"的方式思考

DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”，核心是让模型在推理过程中像人类一样，使用“点”和“边界框”这类视觉原语来指代图像中的具体位置，以此作为思维的最小单位，旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干，并设计了极致的视觉Token压缩流水线，将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩，模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。

DeepSeek 多模态推理论文/研究

00:44

向阳乔木@vista8

45

DeepSeek论文AI解读：独立思考与数据清洗亮点

作者完成DeepSeek最新论文的AI解读，指出论文在独立思考方面表现突出，闪耀创新光辉。数据清洗过程细致严谨，通过多条件过滤将数据规模从近10万缩减至3万条。训练数据构建设计巧妙，例如大量迷宫题等趣味方法，体现了研究团队的创意。整体而言，论文在AI领域具有重要价值，获得高度评价。

向阳乔木: http://x.com/i/article/2049885174113185792

DeepSeek 教程/实践论文/研究

00:44

向阳乔木@vista8

41

DeepSeek-VL：面向真实场景的视觉语言模型

DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计：数据构建强调从真实用户需求出发，并包含70%的纯文本以保留语言能力；模型架构创新性地采用SigLIP与SAM-B混合视觉编码器，兼顾高层语义与低层细节；训练策略则通过三阶段渐进式训练与模态平衡技术，有效缓解了视觉训练对语言能力的侵蚀，最终在同等规模下达到开源模型的顶尖水平。

DeepSeek 多模态教程/实践

4月30日

23:10

IT之家（RSS）

精选72

DeepSeek 公布多模态模型技术报告

DeepSeek发布了多模态大模型及技术报告，提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元，旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题，使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低，其在多项挑战性计数和空间推理基准测试上的性能，可与GPT-5.4等前沿模型相媲美。

DeepSeek 多模态推理论文/研究

推荐理由：DeepSeek 把视觉概念直接变成推理单元，绕开了语言描述空间的先天模糊，在空间推理上把自家紧凑模型拉到和 GPT-5.4 一个水平，做多模态应用的人值得细读。

22:13

向阳乔木@vista8

50

DeepSeek开源视觉语言模型DeepSeek-VL，聚焦真实场景应用

DeepSeek团队开源视觉语言模型DeepSeek-VL，包含1.3B和7B两个版本，旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化：数据构建上，采用从真实用户需求倒推的分类体系，并包含70%纯文本以保持语言能力；架构上创新采用SigLIP与SAM-B的混合视觉编码器，分别处理语义与细节特征；训练采用三阶段策略及模态平衡技术，缓解多模态训练对语言能力的侵蚀。

DeepSeek 多模态开源生态现象/趋势

22:13

向阳乔木@vista8

60

DeepSeek-VL论文揭示多模态训练最佳配方：70%文本+30%多模态

DeepSeek-VL论文指出，多模态训练会损害语言模型的语言能力，使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合，并强调视觉与语言模态之间存在固有竞争关系，这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。

向阳乔木: http://x.com/i/article/2049847033758916609

DeepSeek 多模态数据/训练论文/研究

20:11

歸藏(guizang.ai)@op7418

51

DeepSeek 多模态大语言模型的论文《Thinking with Visual Primitives》已经公开

该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”（如画框、打点）思考。该模型以极低的Token成本，在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。

DeepSeek 多模态论文/研究

1…4 567 8 9