DeepSeek推出的DSpark是一种推测性解码技术,通过在Final RMSNorm后接入3层MTP微型Transformer堆叠,让大模型在输出前并行猜5个token,经置信度头剪裁后,送回大模型用prefill验证,正确则一次性吐出多个token。相比外挂小模型更高效,不降智,速度提升60%-85%。目前SGLang已有相关PR(#29538),DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。
DeepSeek推出的DSpark是一种推测性解码技术,通过在Final RMSNorm后接入3层MTP微型Transformer堆叠,让大模型在输出前并行猜5个token,经置信度头剪裁后,送回大模型用prefill验证,正确则一次性吐出多个token。相比外挂小模型更高效,不降智,速度提升60%-85%。目前SGLang已有相关PR(#29538),DeepSeek已在HuggingFace发布多款DSpark魔改版小模型。
Claude in Microsoft Foundry is now generally available, hosted on Azure. Azure customers get Claude Opus 4.8 and Claude ...
福特过去三年召回350名退休/离职资深工程师(gray beard),负责带新人并重新调教未达预期的AI质检系统。整车工程副总裁Charles Poon承认曾错误认为引入AI就能产出高质量产品。效果立竿见影:福特时隔16年重返JD Power新车质量榜主流品牌第一(从第10升至第1),F-150、Super Duty、Mustang分别拿下品类冠军,预计今年节省约10亿美元质保和召回成本。福特未抛弃AI,正新增约10万项评估模拟更多路况。
Ford rehires 'gray beard' engineers after AI falls short https://techcrunch.com/2026/06/28/ford-rehires-gray-beard-engin...
腾讯云 EdgeOne 今日发布「EdgeOne Makers」,通过 npm install -g edgeone 等几行命令即可部署 AI Agent 开发框架,自动处理上下文、并发、沙箱环境等问题,支持绑定域名、关联 GitHub 持续迭代。产品处于 Beta 内测,注册可免费领取 50 万 Token。该工具大幅降低 Agent 部署门槛,利好中小企业。Vista 指出,当开发部署不再是问题,关键转向如何理解企业需求用 AI 解决问题,近期 FDE(前沿部署工程师)岗位走热,正是推动 AI 与业务场景结合、实现落地的具体实践。
3行命令搭一个 AI Agent 框架,腾讯云给力啊! 很多人想开发 AI Agent,除了选框架开发,其实更麻烦的事情是部署。 本地运行没问题,一上线就翻车。 需要解决上下文问题,并发问题,为了安全还要搭沙箱环境,全都自己搞非常麻烦。 腾...
Google限制了Meta对Gemini模型的使用,原因是Meta要求的计算容量超出Google供应能力。Meta在安全自动化、客服、广告工具、编程及内部工作流中均依赖Gemini。Google面临自身云客户、Gemini产品与有限数据中心容量之间的资源竞争。Google Cloud 3月季度收入增至200亿美元,CEO Sundar Pichai表示计算容量短缺制约了增长,并导致未交付订单较前一季度近乎翻倍。
美光是美国唯一高带宽内存(HBM)制造商,因AI服务器需求激增成为华尔街新宠。Q3营收414.6亿美元,毛利率84.6%,Q4指引490-510亿;利润同比增长15倍,调整后毛利率84.9%(去年39%)。全球DRAM市场高度集中,三星、SK海力士、美光合计占约90%收入;HBM细分领域SK海力士占58%,美光占21%。为打破内存行业周期性,美光签下16个价值220亿美元的战略客户协议,通过定金、价格下限和照付不议条款稳定需求。
FT: Micron just reported a 15-fold profit jump because AI servers are now short of high-bandwidth memory, the stacked me...
DeepSeek 开源 DSpark,一个面向生产环境的投机解码框架。核心解决传统投机解码中 draft 模型猜测后期 token 错误率高、浪费算力的问题。DSpark 采用并行 backbone + 顺序 Markov head 混合架构,消除后缀衰减;并引入置信度 head 和负载感知调度器,动态控制验证数量。在 DeepSeek-V4 生产系统中,单用户生成速度比 MTP-1 基线快 60-85%,吞吐提升 1.5x 至 5x。开源内容包括基于 V4 权重的 DeepSeek-V4-Pro-DSpark/Flash-DSpark checkpoint,以及 MIT 协议的 DeepSpec 训练代码,与北京大学联合开发。
DSpark from @deepseek_ai ingeniously integrates many speculative decoding ideas to achieve 1.5x to 5x higher throughput ...
彭博社报道,两家中国对冲基金警告全球AI股票繁荣已从强劲需求转为超级泡沫。许多AI相关股票的定价已包含多年完美增长预期,但企业尚未证明能捍卫利润。最薄弱环节是AI基础设施——公司必须持续在芯片、服务器、电力和数据中心上巨额投入以维持竞争力。Wealspring称部分热门中国AI股可能下跌超80%;Banxia指出Anthropic的收入运行率是压力点,因为token成本上升速度可能超过客户预算。
福特汽车的AI自动化缺陷检测遇到硬限制:汽车制造中存在大量边缘案例,微小设计、材料、供应商和装配变化相互作用,导致基于规则的系统与训练模型容易遗漏故障。福特因此召回350名经验丰富的工程师(“gray beards”),利用他们多年积累的隐性工程知识(即故障模式记忆),在零件到达工厂前审查设计,同时帮助改进AI系统的训练数据。
Gallup民调显示,71%美国人反对在本地建设AI数据中心,女性(55%)强烈反对比例高于男性(43%)。反对主因并非恐惧AI,而是资源压力(50%反对者提及,其中水、电各占18%);支持者则看重经济(66%)和就业(55%)。政治风险广泛,多数民主党、独立派、共和党均反对,民主党最强烈(56%强烈反对)。自2023年以来,美国已出现300+州及地方数据中心禁令/暂停。但现代数据中心已能缓解担忧:微软新一代芯片级闭环冷却零水耗;谷歌全球PUE 1.09低于行业平均1.56;数据中心未推高居民电价;"自带电力"成趋势,Google、微软、Meta纷纷签订核电合同。
The U.S. AI buildout is running into a harder constraint than GPUs: permission. The Information's new map finds 300+ sta...
美国AI基础设施建设最大瓶颈已从GPU变为许可。《The Information》地图显示2023年以来有300多项州级和地方数据中心禁令或暂停,今年通过275项,还有75项在审,中西部和南部抵制最强。但现实数据反超担忧:微软新一代AI数据中心采用芯片级闭环冷却,每站每年避免超1.25亿升水,全舰队用水效率自2021年提升39%至0.30升/kWh;谷歌86%淡水来自低中风险源,全球PUE 1.09(行业均值1.56)。2015–2024年研究表明数据中心通过分摊固定电网成本适度降低了居民平均电价。趋势已转为“自带电源”:谷歌500 MW核电、微软835 MW三哩岛、Meta 1121 MW核电协议。
医疗AI常被简化为“模型答题准确率”的竞争,但真正的难点在于进入实际工作流——包括医生自然语言处理、病历结构化、患者上下文理解、支付方对接、院内系统集成以及审计责任。产品壁垒最终大概率不是一个 chatbox,而是与医疗场景的深度融合。
ClaudeflareでGLM5.2無料で使えるヤツ、秒で設定できた。クレカもなんもいらんから楽。 Claudeflareログイン Workers AIクリック REST APIクリック Create a Workers AI APITok...
我喜欢老登,有认知和思辨。 我一直的观点:ai构建在好的基建上,才能健康稳定的快速迭代。 基建能做好的基本都是老登。这是专业程序员最后的尊严。 新登往往概念强,快速落地,然后吹牛忽悠投资,砍掉产研,钱到手就完事。有朋友说一年时间,被三家ai...
作者在垃圾箱发现一封LLM API中转站的合作邮件,网站首页声称提供「Claude Fable 5」模型。作者用邀请码注册后,通过Codex调用该模型,居然成功返回结果。作者质疑该站是背景过硬还是虚假宣传。
This is a brilliant report. The State of the AI Economy by @exponentialview - $110B real AI revenue over 12 months, afte...
We've designed and built our first AI chip: Jalapeño. Designed from the ground up by OpenAI and brought to production wi...
PaddleOCR发布PP-OCRv6完整端到端部署基准。A100上PP-OCRv6_tiny达0.13秒/图;Intel CPU上用OpenVINO,PP-OCRv6_medium比PP-OCRv5_server快5.2倍,PP-OCRv6_tiny比PP-OCRv5_mobile快3.9倍;Apple M4上用ONNX Runtime跑出0.35秒/图。提供Tiny、Small、Medium三种尺寸,Medium/Small均支持50种语言,PP-OCRv6_medium英文准确率88.4%,拉丁字母准确率88.0%。官方总结认为,在专用OCR任务上,轻量架构+高质量训练数据比单纯堆参数更实用,是对大模型“暴力scaling”路线的反向验证。
🧵PP-OCRv6 Tech Deep Dive Ep.4:3.9x Faster on CPU, 0.13s per Image on A100 - PP-OCRv6 Deployment & Model Selection Guide...
在Flink Forward Asia Shenzhen 2026大会上,NVIDIA的Chuan Chen分享了NVIDIA与阿里云的技术合作:通过CUDA库加速Apache Flink的多模态数据流处理。这一开源协作实现了端到端的高性能多模态流式架构,可应用于AI解说、实时图文信息流和交互式问答等场景。
阿里云宣布Qwen Live系列首期节目,主题为“Agent-First:当你的下一个用户不是人类”。节目将于2026年6月30日10:00(UTC+8)直播,由Qwen Cloud负责人林林孔、产品经理潘古和西觉共同主持。他们将探讨从零构建面向AI智能体的云平台、为非人类用户重新定义开发者体验,以及大规模人机协作的新范式。节目还提供Qwen Cloud平台入门链接。
腾讯云 EdgeOne 发布「EdgeOne Makers」,简化 AI Agent 开发与部署。用户在终端执行三行命令即可部署 Agent 框架:npm install -g edgeone;edgeone makers create --template openai-agents-starter-node;cd openai-agents-starter-node && npm install && edgeone makers dev。本地启动测试网站,可实时查看 Agent 对话与工具调用细节;线上支持绑定域名、关联 GitHub 实现持续迭代。产品处于 Beta 内测阶段,注册即免费领取 50 万 Token。
在深圳举办的Flink Forward Asia 2026上,阿里云研究员、开放数据平台负责人Feng Wang指出,AI时代模型与数据共同决定Agent质量与效率。Apache Flink演进为Agentic Streaming for AI,与Agentic Lake协同,构建AI原生数据平台。下一代智能体建立在统一、实时的AI原生数据基础设施之上。
@QuantCapitalX @MiniMax_AI https://huggingface.co/nvidia/MiniMax-M3-NVFP4