DeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力,不仅能识别文物、解答空间推理题、理解网络梗图,还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架,通过融入点、边界框等视觉元素提升逻辑准确性,且处理效率高,单图token消耗远低于主流模型。目前该模式仍处内测,存在知识库更新滞后、处理反直觉图形不稳定等不足,且暂不支持图像生成或视频理解。
DeepSeek已广泛开放其“识图模式”供用户体验。该功能具备深度图片理解能力,不仅能识别文物、解答空间推理题、理解网络梗图,还能将截图中的代码或UI界面还原为可交互的HTML代码。其核心技术“以视觉原语思考”框架,通过融入点、边界框等视觉元素提升逻辑准确性,且处理效率高,单图token消耗远低于主流模型。目前该模式仍处内测,存在知识库更新滞后、处理反直觉图形不稳定等不足,且暂不支持图像生成或视频理解。
DeepSeek正以500亿美元估值进行高达70亿美元的融资,创下中国AI领域最大单轮融资纪录。创始人梁文锋个人出资30亿美元,占本轮融资的40%,同时仍保留公司90%的所有权。该公司最初诞生于其本人成功的对冲基金内部。本轮融资将主要用于获取大规模计算资源,以加速发布V4.1等新模型,并投资企业级产品,目标是推动公司实现营收转正,其发展路径与OpenAI和Anthropic类似。
工信部批复6GHz频段用于6G技术试验。在算法治理方面,美团、淘宝闪购、京东等平台已基本取消超时扣款,取得初步成效。因OTA锁电投诉激增,8家新能源车企被约谈,其中3家被立案调查。此外,华为Pura X Max折叠屏手机首销10天激活超20万台,创历史纪录;任天堂宣布Switch 2游戏机将于9月起在欧美涨价50美元;滴滴出行将网约车订单抽成上限降至27%。苹果AI AirPods和DeepSeek大额融资的消息也备受关注。
据知情人士消息,DeepSeek正寻求首轮融资,目标高达500亿元人民币,若成功将成中国AI公司迄今最大规模融资。创始人兼CEO梁文锋计划提供最大一笔资金。融资推动公司加快商业化节奏,计划提高模型发布频率以接近行业标准。同时,DeepSeek将于6月发布V4模型的更新版本V4.1。
DeepSeek网页和API服务于5月8日下午发生重大中断,官方状态页面显示为“Major Outage”,服务暂不可用。用户尝试对话时收到“服务器繁忙,请稍后重试”的提示。官方随后确认已识别问题并实施修复。至18:06,官方宣布问题已修复,网页和API服务恢复可用,但经测试,网页端的“识图模式”功能仍未出现。
ZAYA1-8B 是一个新发布的开源人工智能模型,在数学计算任务中性能与 DeepSeek-R1 相当。该模型的活跃参数数量少于10亿,突显了在保持高性能的同时实现更高参数效率的突破。这一进展意味着模型在计算资源和存储需求上更为高效,可能降低部署成本并加速推理过程,为资源受限环境提供实用解决方案。ZAYA1-8B 的开发展示了在AI模型优化领域的重要进步,其开源性质有望推动进一步研究和应用。
DeepSeek 4 Flash 本地推理引擎正式发布,这是一个专为苹果 Metal 框架优化的开源项目。它允许开发者在配备 Apple Silicon 芯片的 Mac 上高效运行 DeepSeek 4 模型,实现本地离线推理。引擎通过 Metal Performance Shaders 显著提升了计算性能,降低了延迟与内存占用。该项目已在 GitHub 开源,并在 Hacker News 上获得了关注。
据《华尔街日报》报道,美国与中国正在探索就人工智能领域举行官方会谈。此举表明两国在AI技术竞争日益激烈的背景下,可能寻求建立沟通渠道以讨论相关风险、标准或治理框架。目前会谈的具体议题与时间表尚未披露。
漫步者 Lolli5 ANC 智能触控大圆屏耳机已上市,售价539元,提供沙滩白、礁石黑、落日橙三种配色。其最大亮点是充电盒配备智能触控屏,可显示时间并控制音乐、拍照。耳机支持50dB深度、5kHz宽度的ANC自适应降噪和3+3麦智能通话降噪,拥有双Hi-Res金标认证。采用13mm双复合LCP液晶振膜单元,支持蓝牙6.0、双设备连接和IP55级防尘防水。此外,还集成了豆包与DeepSeek双脑问答、会议录音及App实时互译等智能功能。
三星电子宣布在中国大陆市场停止销售所有家电产品,但售后服务照常提供。DeepSeek正与国家集成电路产业投资基金洽谈首轮融资,估值约450亿美元。安卓系统官宣将于5月13日揭晓新形象,小机器人变为彩色半透明设计。三星电子市值突破1万亿美元,成为亚洲第二家万亿美元市值企业。此外,华为发布HarmonyOS 6新功能及超薄平板,字节跳动推出全模态理解模型,携程否认大裁员传闻,星空卫视将暂停卫星传输服务。
Just published an exclusive on LatePost. A few highlights: - Kimi (Moonshot AI) is closing a new $2B funding round at a ...
据《金融时报》报道,中国人工智能实验室Deepseek正接近完成一轮新的融资,其估值可能达到约450亿美元。此轮融资由中国国家芯片基金领投,标志着国家级资本对本土前沿AI企业的大力支持。若融资完成,Deepseek的估值将跻身全球AI独角兽前列。
微软威胁情报团队发出警告,有黑客正冒充DeepSeek V4模型的名义在GitHub创建虚假仓库,诱骗用户下载实为Vidar、GhostSocks等木马的“模型文件”。此次属于“蹭热点”钓鱼攻击,DeepSeek官方并未被入侵。官方强调,DeepSeek V4仅通过API和Hugging Face发布,未在GitHub提供模型仓库。用户若搜索“DeepSeek v4 weights GitHub”等关键词,可能优先看到这些恶意仓库。目前GitHub已关闭部分恶意仓库并封禁账号,以阻止恶意软件进一步传播。
DeepSeek估值在数周内从200亿美元跃升至450亿美元,本轮融资由国家大基金领投,腾讯有意跟投,创始人梁文锋也参与出资。此举标志着国家队首次公开投资本土大模型公司,具有强烈的战略象征意义。这被视为官方将AI大模型正式纳入“半导体国家战略”的关键信号,向市场传递了国家全力支持国产AI发展的明确信息,预示着行业将进入新的发展阶段。
国家集成电路产业投资基金正洽谈领投DeepSeek首轮融资,公司估值有望达450亿美元。与数周前200亿美元估值相比,当前估值已翻倍。除国家大基金外,腾讯等机构也在潜在投资者名单中,创始人梁文锋也将以个人名义出资。若交易完成,这将是国家大基金首次公开投资本土大语言模型企业,该基金2024年募集约470亿美元,主要投向半导体设备与材料领域。
美国政府机构评估称中国在人工智能竞赛中落后八个月,但独立数据并未证实这一差距。当前美国实验室持续追求更智能的模型,而中国玩家如深度求索(Deepseek)等提供的价格优势可能成为更关键的竞争筹码。这场竞赛的衡量标准正从单纯的技术指标扩展到包括成本效益在内的综合维度。
西方长期认为中国在AI芯片领域落后10-15年,但DeepSeek V4的发布颠覆了这一观点。该模型深度优化于华为昇腾芯片生态,可在昇腾950基础设施上部署推理,实现前沿模型大规模运行不依赖西方硬件。虽然单芯片性能上,昇腾950仍显著落后于NVIDIA Blackwell B200,但中国通过“横向扩展”战略,用大量国产芯片集群结合软件优化和模型架构创新(如MoE),使系统级AI能力快速接近前沿水平。这暴露了西方分析的根本错误——将芯片级差距直接等同于能力差距。
上周,Kimi K2.6、MiMo V2.5 Pro和DeepSeek V4 Pro三大领先开源模型发布,在Artificial Analysis Intelligence Index上得分达52-54分,与顶尖闭源模型GPT-5.5的60分差距缩小至6分以内,相比一年前22分的开源模型进步显著。这些模型均为万亿参数规模的MoE架构。然而,在复杂推理、智能体编码及知识准确性方面,开源模型与闭源模型仍存在明显差距。例如在HLE、CritPt和TerminalBench Hard等专项评估中得分大幅落后;在Omniscience评估中,DeepSeek V4 Pro的幻觉问题尤为突出。
鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...
鲸鱼兄弟们好,我是做 DeepSeek-TUI 的那个美国佬。 说真的,特别想跟国内的鲸鱼兄弟们一起混--但我的翻墙技能仅限于写代码,微信到现在都没搞定,属实有点丢人。 求各位大佬帮个忙: 1)帮忙转发扩散一下,让这个开源终端工具翻过高墙被...
测试者使用 DeepSeek-V4-Pro 在 Pi 编码智能体上构建了一个 LLM 知识库,对其开箱即用的表现感到震撼。这是首个在推理能力上媲美 Claude 和 Codex 的开源权重模型,且成本效益高,支持 100 万上下文长度。该模型无需复杂配置即可在基础框架中直接运行,擅长智能体编码和知识密集型推理任务,能跨公司文档、论坛、论文和代码库进行多步骤研究、代码生成与上下文推理。其高效运行得益于 Fireworks 的市场最快推理速度及混合注意力设计,将 KV 缓存降至 10%,推理计算量减少近 4 倍,实现了快速且低成本的实践部署。
本期IT早报主要内容包括:追觅科技CEO要求全体员工开通社交媒体账号并发布视频;OPPO计划下半年推出效仿苹果风格的四曲面设计手机;iPhone 18 Pro系列或将迎来史上最大相机硬件升级。此外,极越汽车关联主体进入合并重整程序,DeepSeek发布多模态模型技术报告,央视曝光部分充电头功率虚标,宇树发布起售价2.69万元的双臂人形机器人,比亚迪与高德地图达成充电合作,支付宝等17家支付机构牌照获续展,华为鸿蒙新版本占比提升,以及小米大屏旗舰手机预计5月下旬发布。
LIVE TRIAL UPDATE: OpenAI's counsel asked Musk whether xAI has ever "distilled" technology from OpenAI. Musk: "Generally...
用户在使用DeepSeek-V4 API或集成该模型的终端编码代理(如Claude Code、Kimi CLI)和AI IDE(如Cursor)时,频繁遇到HTTP 400报错。错误信息指出,在思考模式下必须将reasoning_content字段回传给API。核心问题在于,当任务步骤的tool_call过于简单直接时,DeepSeek-V4返回的reasoning_content可能为空字符串。许多开发工具默认会过滤掉空值字段,导致该字段未被回传,从而触发API报错,致使编码任务或代理中断。经测试,在特定场景下该字段返回空字符串的概率高达59%。解决方案是必须将空字符串值的字段原样回传,不能省略或改为空对象。目前需等待IDE官方修复或自行修改开源工具,使用DeepSeek-V4的代理项目也需注意此问题。
给大家说下目前使用 DeepSeek-V4 (pro/flash) 的最需要注意的问题. 本身其实并不算 bug, 但是却很致命. 问题大概是这样的, 在请求 DeepSeek API 或者 terminal coding agent (c...
DeepSeek团队提出全新多模态推理框架“Thinking with Visual Primitives”,核心是让模型在推理过程中像人类一样,使用“点”和“边界框”这类视觉原语来指代图像中的具体位置,以此作为思维的最小单位,旨在解决语言在精确描述空间位置时的“指代鸿沟”问题。模型采用DeepSeek-V4-Flash作为语言骨干,并设计了极致的视觉Token压缩流水线,将视觉Token用量压缩至其他前沿模型的十分之一。尽管视觉信息被大幅压缩,模型在空间推理、计数等任务上仍达到或超越了GPT-5.4、Claude-Sonnet-4.6等模型的性能。
作者完成DeepSeek最新论文的AI解读,指出论文在独立思考方面表现突出,闪耀创新光辉。数据清洗过程细致严谨,通过多条件过滤将数据规模从近10万缩减至3万条。训练数据构建设计巧妙,例如大量迷宫题等趣味方法,体现了研究团队的创意。整体而言,论文在AI领域具有重要价值,获得高度评价。
http://x.com/i/article/2049885174113185792
DeepSeek-VL旨在解决开源视觉模型在真实场景中应用效果不佳的问题。其核心方案是系统性地从数据、架构与训练三方面进行设计:数据构建强调从真实用户需求出发,并包含70%的纯文本以保留语言能力;模型架构创新性地采用SigLIP与SAM-B混合视觉编码器,兼顾高层语义与低层细节;训练策略则通过三阶段渐进式训练与模态平衡技术,有效缓解了视觉训练对语言能力的侵蚀,最终在同等规模下达到开源模型的顶尖水平。
DeepSeek发布了多模态大模型及技术报告,提出创新的“基于视觉原语的思考”框架。该框架将点、边界框等视觉元素作为推理的基本单元,旨在解决多模态模型在空间参照任务中存在的“参照鸿沟”核心问题,使模型能将抽象认知锚定到图像的具体坐标上。尽管模型规模紧凑且图像标记预算较低,其在多项挑战性计数和空间推理基准测试上的性能,可与GPT-5.4等前沿模型相媲美。
DeepSeek团队开源视觉语言模型DeepSeek-VL,包含1.3B和7B两个版本,旨在缩小开源模型与GPT-4V在真实场景中的差距。模型从数据、架构、训练三方面优化:数据构建上,采用从真实用户需求倒推的分类体系,并包含70%纯文本以保持语言能力;架构上创新采用SigLIP与SAM-B的混合视觉编码器,分别处理语义与细节特征;训练采用三阶段策略及模态平衡技术,缓解多模态训练对语言能力的侵蚀。
DeepSeek-VL论文指出,多模态训练会损害语言模型的语言能力,使用100%视觉数据训练将导致语言benchmark性能断崖式崩塌。研究确定最佳训练配方为70%纯文本数据与30%多模态数据结合,并强调视觉与语言模态之间存在固有竞争关系,这种竞争无法通过参数调整来规避。论文结论突显了平衡多模态数据比例对维持模型语言性能的关键作用。
http://x.com/i/article/2049847033758916609
该论文介绍了基于DeepSeek-V4-Flash底座的多模态大模型。其核心创新在于模型能同时进行文字推理和“视觉原语”(如画框、打点)思考。该模型以极低的Token成本,在多项前沿指标上达到了与GPT-5.4、Claude、Gemini等模型相当甚至更优的性能。