英伟达公布第一季度财报,营收达创纪录的816亿美元,同比增长85%。公司确认下一代超级AI芯片Vera Rubin将于今年下半年推出,第三季度开始交付,第四季度上量加速。CEO黄仁勋表示,Vera Rubin开局良好,推理市场份额增长迅速,肯定会比Grace Blackwell更成功。该芯片已基于3nm工艺量产,试产计划于2026年6月启动,首批产品7月将运往微软、谷歌等北美大客户,其AI服务器机柜价值约1.8亿美元。
英伟达公布第一季度财报,营收达创纪录的816亿美元,同比增长85%。公司确认下一代超级AI芯片Vera Rubin将于今年下半年推出,第三季度开始交付,第四季度上量加速。CEO黄仁勋表示,Vera Rubin开局良好,推理市场份额增长迅速,肯定会比Grace Blackwell更成功。该芯片已基于3nm工艺量产,试产计划于2026年6月启动,首批产品7月将运往微软、谷歌等北美大客户,其AI服务器机柜价值约1.8亿美元。
英伟达在最新财季首次采用新的业务披露口径,将数据中心收入拆分为超大规模客户与ACIE(AI云、工业、企业)两大板块。ACIE板块当季贡献约370亿美元收入,环比增长31%,其AI云收入同比增长超过3倍,连接全球约25万家客户。黄仁勋判断,受益于广阔的工业与企业市场,ACIE未来增速有望超过超大规模客户。同期,边缘计算收入为64亿美元,同比增长29%。
加州大学圣迭戈分校工程团队研发出一种新型电源转换芯片,以应对AI数据中心面临的功耗挑战。该团队采用压电谐振器替代部分传统磁性器件,设计出混合架构的降压转换器。实验室测试表明,该原型芯片能将48伏电压降至4.8伏,峰值转换效率达到96.2%,输出电流较此前压电方案提升约5倍。该技术旨在减少供电过程中的能量损耗,缓解高功耗GPU带来的散热与供电压力,但目前仍处于研究阶段,尚未达到商用水平。
智谱(GLM)提出ZCube,这是一种专为下一代大模型设计的推理网络架构,目标在于有效破解大规模模型推理时面临的网络瓶颈问题。
本次更新主要调整了功能命名与交互逻辑,将 /simplify 命令更名为 /code-review 并支持分级,同时优化了自动模式与用户提问的交互。重点修复了多项影响稳定性与体验的 Bug,包括 Windows 系统上通过 winget 安装 PowerShell 后工具失效、终端全屏闪烁、后台会话权限重复请求、主题编辑器响应异常,以及 MCP 分页数据丢失等关键问题。此外,更新还改进了自动更新功能的网络容错能力,并提升了大文件差异渲染的性能。
xAI为Grok Build推送的更新看似平淡,无炫酷新功能,但专注于修复致命的“后台子代理静默失败”、支持更多平台及中文字符路径等基础问题。这体现了其工程优先策略,在竞争对手比拼模型参数与演示时,xAI默默填补那些会导致生产环境崩溃、劝退用户的“隐形坑”。这一系列底层优化与漏洞修复,正悄然构筑其编码Agent的长期护城河。
Bug fixes shipping to Grok Build (release notes will be available in the TUI) - macOS x86_64 (Intel) support - Windows A...
Forward Deployed Engineering (FDE) 是AI公司派驻客户现场的工程师角色,核心是将AI能力嵌入企业具体业务流。随着模型能力趋同,真正优势在于“如何用”,而FDE正是解决AI落地“最后一公里”的关键。该角色借鉴Palantir传统,强调必须现场工作,围绕企业专有数据重建流程。其工作涵盖业务审计、效果评估(Evals)与务实部署三阶段。咨询、PM及软件工程师可通过30天路线图与作品集转型,但需弥补各自短板——工程能力或商业沟通能力。FDE被视作“百万美金级人才”,是AI时代高价值的职业新方向。
http://x.com/i/article/2057172544277606401
Alex Finn 提出的远程开发架构核心在于将“执行代码的主机”与“发送指令的终端”分离。一台主力机(如Mac Studio)常开,作为唯一执行环境,集中所有代码与依赖;其他设备(如iPad、iPhone)仅作为“遥控器”发送指令。通过Codex的远程控制功能与Tailscale私有网络连接,开发者可在任何地点、任何设备无缝推进同一项目,实现开发能力与物理位置的解耦,从而提升灵活性和效率。
You need to set up this Codex system I have Been taking advantage of their new remote features and my productivity has 1...
Chrome DevTools for Agents 1.0 发布,旨在让 AI Agent 能在真实浏览器中“观察”并调试 Web 应用。该工具通过 MCP server、CLI 和 Agent skills 三种方式接入,提供了一系列核心能力。Agent 可执行自动化质量审计、模拟用户环境、调试 Chrome 扩展、接管已登录会话、检测内存泄漏,并能与 Web 应用暴露的内部状态深度集成。这显著提升了 Agent 在浏览器环境中的调试与测试能力,为自动化开发与运维提供了新的可能性。
针对长上下文场景下FP4量化推理的质量下降问题,ThriftAttention提出了一种低比特注意力变体。该方法首先通过启发式策略快速识别出少量关键的query-key块对,对其使用FP16精度计算,其余块使用FP4计算。最后,两路计算结果通过在线softmax合并。实验表明,仅对5%的块使用FP16计算,该方法就能平均恢复FP4与FP16间89.1%的性能差距,且优势随序列长度增加而更加显著。
As the recently expanded partnership with @AnthropicAI demonstrates, @SpaceX is offering AI compute as a service at sign...
针对超大规模大模型推理,ZCube网络架构通过取消Spine层、将Leaf交换机分组并全互联等创新设计,有效解决了推理网络的拥塞问题。该架构在集群实测中,实现了交换机与光模块资本支出减少33%、GPU平均推理吞吐提升15%,同时将首token延迟的P99值大幅降低40.6%,在降低成本的同时显著提升了推理性能。
英伟达在最新季度财报中公布了创纪录的营收数据,但同时预测下一季度的收入增长将出现放缓。财报同时披露,该公司在初创企业的投资组合规模已达到430亿美元。这一数据反映了英伟达在人工智能芯片主导地位之外,通过战略投资深度参与科技生态系统的扩张策略。营收持续增长与未来放缓的预期,共同勾勒出当前高性能计算市场需求旺盛但可能面临波动的发展态势。
随着长上下文与Prefill-Decode分离部署成为主流,GPU集群网络已从次要部件转变为制约推理吞吐、尾部延迟和成本的关键瓶颈。传统静态网络拓扑与动态非对称的KV Cache流量模式冲突,导致局部拥塞。为此,Z.ai、Harnets.AI与清华大学联合研发了ZCube网络架构。该架构采用完全扁平化拓扑与混合接入设计,从源头解耦并分散流量以减少拥塞。在GLM-5.1生产测试中,ZCube在保持GPU与软件栈不变的前提下,实现了交换机与光模块成本降低33%、平均推理吞吐提升15%、首token时间P99降低40.6%的显著效果,证明网络架构创新能有效释放硬件潜力。
Google Research的TurboQuant算法已通过Turbovec项目应用于向量搜索领域。该工具以Rust语言构建,提供Python绑定接口,可直接集成到RAG流水线中。Turbovec实现了16倍的向量压缩率,同时无需进行任何码本训练,显著降低了部署和使用门槛。
We're expanding our partnership with @SpaceX, and will be scaling up on GB200 capacity in Colossus 2 throughout June. Ap...
We added 600+ new voices on Together AI! Introducing MiniMax Speech 2.8 Turbo on Together AI, an enterprise TTS model fo...
Velobase宣布开源其AI SaaS框架Velobase Harness。该项目强调,在AI应用时代,产品本身并非真正的护城河,将用户转化为收入的基础设施才是关键。Velobase自身从应用无人问津发展到实现八位数ARR的经历,印证了这一观点。该框架旨在补全从可用应用到盈利业务之间的缺失环节,提供包括支付计费、用户归因、分析与A/B测试在内的全套后端服务。
Everyone can build an app now. Almost no one makes a dollar from it. We went from the same problem to 8-figure ARR. The ...
Anthropic美国中端市场业务负责人Travis Bryant利用Claude Cowork自动化销售管理工作。该工具帮助他高效完成客户倾向性评分、每日客户简报准备及每周销售预测报告生成,每晚自动处理4000个账户数据,替代了以往跨部门团队需数百小时完成的工作。通过自动化日常任务调度,他每天节省约90分钟,并将数据整合为可交互的销售仪表板,使其能更专注于客户沟通与战略决策。
AMD 发布其 AI 开发迷你主机锐龙 AI Halo,定价 3999 美元(约合人民币 27276 元),计划于 6 月下旬开启预订。该机型搭载锐龙 AI Max+ 395 处理器,配备 128GB LPDDR5x 内存与 2TB SSD,并支持万兆网卡及 Wi-Fi 7,官方称其每月可为开发者节省约 750 美元的云服务费用。同期,AMD 还推出了代号为“Gorgon Halo”的锐龙 AI Max 400 系列处理器,该系列在 300 系列基础上提升了 CPU/GPU 频率与 NPU 算力,最大统一内存容量可达 192GB,其中 160GB 可分配为显存。
PaddleOCR 3.5版本正式支持Transformers作为推理后端。更新后,PP-OCRv5和PaddleOCR-VL 1.5模型可在Hugging Face生态内直接运行,实现了与主流Transformer技术栈的无缝集成。此举解决了此前将OCR工具整合进RAG或Document AI项目时需要额外搭建服务栈的繁琐问题,大幅降低了开发门槛,让OCR能力更自然地融入现有AI应用开发流程。
🚀 PaddleOCR 3.5: Transformers Backend Support Now Live! We're excited to share that PaddleOCR 3.5 now supports Hugging ...
阿里云在峰会上宣布,其百炼平台将继续保持开放接入策略。除了自研的千问模型矩阵,平台还将上架智谱GLM-5.1、MiniMax M2.7、月之暗面Kimi K2.6等多款第三方模型,并通过千问云官网全面售卖。此举旨在打造“AI时代最开放的云”,为用户提供“一个入口、多模型可选”的一站式服务。此前,平台已上线DeepSeek-V4-Pro与DeepSeek-V4-Flash模型,其API定价与DeepSeek官网基本一致,其中Flash版本价格最低。
第13届ASC世界大学生超级计算机竞赛总决赛于5月20日在江苏无锡落幕。本届赛事吸引全球25支高校队伍,在量子计算、人工智能等领域激烈角逐。最终,北京大学代表队夺得冠军,清华大学代表队获得亚军,中国高校包揽了赛事前两名。该竞赛由中国发起,已累计吸引全球超过万名大学生参赛,是AI时代重要的青年科技实战平台。
该框架针对3D高斯溅射训练中参数规模远超GPU内存的难题,提出了核外训练方案。它利用训练过程固有的稀疏性,将GPU内存作为工作集缓存,并通过SSD-CPU-GPU层级结构协同管理参数。关键技术包括虚拟化块几何以提升I/O局部性、异步分层流水线实现计算与I/O重叠、以及轨迹自适应差分流以高效传输增量数据。实验表明,TideGS仅需单张24GB显卡即可训练超过十亿高斯,并在大规模场景中达到了所评测单GPU基线中的最优质量,相比此前方法实现了数量级的规模突破。
模拟芯片厂商Analog Devices (ADI) 正式宣布以15亿美元现金收购Empower Semiconductor,交易预计于2026年下半年完成。ADI此举旨在获取Empower在支持AI数据中心的高效率供电器件领域的关键技术,包括已投入生产的硅电容器和正在推进的集成电压调节器(IVR)项目。ADI首席执行官Vincent Roche表示,AI基础设施正在重塑电力交付方式,能源成为下一代系统扩展的关键限制,通过此次收购,ADI将进一步扩展电源管理产品组合,帮助客户重新设计电力系统以满足AI对计算密度的需求,其技术影响将远超数据中心领域。
三星电机宣布与一家全球大型企业签订为期2年的硅电容供应合同,总价约1.5万亿韩元(约合68.34亿元人民币)。这是该公司在硅电容业务领域获得的首个大规模订单。硅电容主要用于AI服务器GPU及HBM等高性能半导体封装内部,可在芯片附近消除噪声、稳定供电,其电阻不到传统MLCC电容的百分之一,支持高密度集成,适用于广泛电压与温度环境。
英伟达将其AI芯片的领先优势转化为一个巨大的融资机器。公司在过去数月内承诺了总计900亿美元的投资与合作,覆盖145多家涉及模型研发、云计算、芯片设计和供应链的公司。这一策略创造了一个自我强化的闭环:初创公司获得资本,供应商得以扩张产能,云厂商采购更多Nvidia GPU,从而进一步巩固了Nvidia在AI基础设施层中难以被替代的核心地位。
谷歌宣布将于2026年6月18日停止其命令行工具Gemini CLI的服务。该工具届时将不再可用,其功能将过渡到全新的Antigravity CLI工具。此消息由谷歌开发者博客发布,目前在Hacker News上获得了超过100点的热度关注。
OpenAI for Singapore 宣布启动一项多年期人工智能合作计划,重点扩展 AI 技术在新加坡的部署范围,加强本地人才队伍建设,并为企业及公共服务部门提供 AI 支持。该合作旨在通过资源整合,推动新加坡在 AI 领域的竞争力提升,加速技术创新和应用落地,覆盖商业与公共领域的数字化转型需求。
现有投机解码方法为提高接受率而构建庞大草稿树,导致显存带宽和计算开销激增,反而制约了加速效果。动态剪枝虽能降低延迟,但会损失有效候选,无法达到理想接受率。为此,研究提出了Graft补偿框架,通过“剪枝-再嫁接”的机制,利用剪枝释放的计算预算驱动检索操作,用检索到的高预测性令牌补偿剪枝造成的覆盖损失,从而在近零额外开销下恢复接受长度。该方法无需训练且无损性能,在短上下文、长上下文及大规模模型等多种场景下建立了新的性能前沿。实验表明,它在短上下文任务中最高可实现5.41倍加速,并在大规模Qwen3-235B模型上将平均加速比相比EAGLE-3提升了高达21.8%。研究还初步探索了该方法在DFlash分块草稿范式中的应用潜力。
TechEx 北美展第二天的 AI 与大数据议程中,频繁提及“AI 墓园”一词,指代大量未能转化为持久系统的试点项目。会议核心议题是“证明价值”,其中企业 AI 实施、投资回报率(ROI)与采纳专场,重点讨论了 AI 应用从试点走向生产部署过程中所面临的“艰难中间地带”。