Astera Labs 发布了拥有320条可配置通道的Scorpio X-Series PCIe交换芯片,号称业界规模最大的开放式内存语义互连交换芯片。该产品可用单颗芯片替代多颗传统低通道数量交换芯片,从而简化AI系统互联拓扑,实现更低延迟、更大规模的集群扩展。其硬件加速的Hypercast和网内计算引擎可将集体运算性能提升高达2倍,提高每瓦特的词元处理能力。同时,公司公布了2026年第一季度创纪录的财务数据,营业收入达3.084亿美元,环比增长14%,同比增长93%。
Astera Labs 发布了拥有320条可配置通道的Scorpio X-Series PCIe交换芯片,号称业界规模最大的开放式内存语义互连交换芯片。该产品可用单颗芯片替代多颗传统低通道数量交换芯片,从而简化AI系统互联拓扑,实现更低延迟、更大规模的集群扩展。其硬件加速的Hypercast和网内计算引擎可将集体运算性能提升高达2倍,提高每瓦特的词元处理能力。同时,公司公布了2026年第一季度创纪录的财务数据,营业收入达3.084亿美元,环比增长14%,同比增长93%。
Cloudflare宣布其代理商合作伙伴现可直接创建Cloudflare账户、购买域名并部署服务。这一功能整合了账户创建、域名注册和项目部署流程,简化了代理商的管理与操作步骤。此举旨在提升合作伙伴的自主性和效率,进一步扩展Cloudflare的生态系统与服务覆盖范围。
AMD CEO苏姿丰在财报会议上指出,智能体AI正重塑服务器CPU市场。她表示,AI是增长核心驱动力,云服务商正扩展部署AMD霄龙处理器。智能体AI工作负载需要额外CPU算力进行任务编排和数据移动,这推动了CPU需求的强劲增长。苏姿丰预计,在智能体AI推动下,服务器CPU市场的年复合增长率可能达到35%。她强调CPU需求是对GPU市场的补充,并透露CPU与GPU的配比正从传统的1:4或1:8向1:1演进,在智能体密集场景中CPU数量甚至可能超过GPU。
海外AI电源与光通信公司正大规模采购国产MCU芯片,以应对算力扩张带来的电源需求。服务器与光通信电源功率大幅提升导致MCU用量短缺,MCU作为AI电源的核心控制中枢,需满足GPU/NPU瞬时大电流、高功率密度的供电挑战。需求激增已传导至上游产业链,国产MCU厂商中微半导今年1月宣布对MCU等产品提价15%至50%,国民技术也于4月起将部分产品价格上调15%至20%。
市场监管总局组织科技力量,在测控装备智能化测评技术上取得系列创新。研究团队利用自然语言处理与人工智能聚类技术,构建了通用及典型测控装备的智能化测评指标体系和评估模型,并形成相关标准。同时,攻克了数字孪生测评方法等关键技术,研发了数字孪生体测量系统与物理实体测评装置,实现了智能化水平的可测试与可量化。目前,相关成果已形成综合测评系统与认证模式,面向6类典型装备开展了测评验证,搭建了3套实物验证场景,构建了测试、计量、认证一体化的评测体系。
据报道,人工智能公司Anthropic已承诺在未来五年内向谷歌云支出2000亿美元,用于购买云服务和AI芯片。这笔巨额承诺占谷歌近期披露的未实现收入的40%以上,消息推动谷歌母公司Alphabet股价盘后上涨约2%。Anthropic表示其AI模型Claude在多种硬件上运行。此前,谷歌已决定向Anthropic投资100亿美元,并可能追加300亿美元。此外,Anthropic也与亚马逊达成长期协议,未来十年将采购超1000亿美元AWS算力资源,并可能获得亚马逊至多250亿美元投资。
Datasette 新插件 datasette-referrer-policy 0.1 发布,旨在解决 global-power-plants 演示中 OpenStreetMap 地图瓦片无法显示的问题。问题由两个原因导致:一是站点此前添加的 CAPTCHA 错误拦截了地图插件发起的 .json 请求,该问题已修复;二是 OpenStreetMap 会屏蔽使用了 Referrer-Policy: no-referrer 头部的站点请求。此插件允许用户将 Datasette 默认的此头部策略更改为其他值,从而确保地图正常加载,同时不影响默认安全设置。插件的开发过程得到了 Codex 与 GPT-5.5 的辅助。
为降低大语言模型推理时KV缓存的高昂内存开销,研究提出了一种沿模型深度维度优化的新方法。该方法通过随机KV路由,在Transformer模型的各层之间动态共享KV缓存,而非每层保留完整独立缓存。实验表明,在保持模型质量基本不变的前提下,该方法能将KV缓存的内存占用减少高达50%,为降低大模型服务成本提供了与现有时间轴压缩、淘汰技术正交的新优化路径。
Anthropic发布金融服务行业Claude部署指南,详细介绍了Claude系列产品在金融研究、交易、承销、理赔及月末结算等场景的应用方案。指南包含产品矩阵、10个预置金融智能体模板(如招股书生成器、KYC筛查器等),并分享了AIG、澳大利亚联邦银行等机构的实践案例。同时,提供基础、试点、扩展三阶段实施路线图,旨在协助企业决策者与工程师规划AI落地路径,提升运营效率。
本文探讨了初创公司工程团队中AI与人力比例变化带来的结构性风险。当AI占比从10%提升至90%时,团队从20名工程师的传统层级结构,演变为仅由3名工程师核心操控大量自主代理的无管理层模式。核心权衡在于系统韧性而非吞吐量:将编排知识高度集中于极少数人,等同于以100%的利用率运行,一旦关键人员离职将造成33%的“制度记忆”损失。文章借鉴制造业保持70-90%利用率以维持系统稳健的经验,建议大多数初创公司应避免过早采用极高AI占比的模式,因为其中缺乏冗余和缓冲空间。
礼来公司的数字部门负责人承认,目前AI在制药领域的回报主要集中于生产制造和后台运营环节,已累计节省数十亿美元成本。然而,在该行业此前宣传最集中的药物发现环节,AI尚未能兑现预期价值。这一反差揭示了AI在制药业不同环节的应用成熟度存在显著差异。
Anthropic发布了十个针对金融服务耗时任务的预置智能体模板,涵盖制作推介书、撰写信贷备忘录、KYC文件筛查及月末关账等。这些模板可作为Claude Cowork和Claude Code的插件,或作为Claude托管智能体的配置指南,帮助团队在数天内部署应用。Claude现通过Microsoft 365插件支持在Excel、PowerPoint等Office应用间无缝工作,并扩展了合作伙伴生态,新增数据连接器和MCP应用,使智能体能直接调用实时金融数据。这些更新与Claude Opus 4.7模型搭配效果最佳,该模型在金融任务上达到先进水平。
Runway平台团队开发的NCCLBack系统,通过P2P权重传输将模型冷启动时间从数分钟缩短至数秒。其核心创新在于让新启动的GPU推理节点直接从集群内已加载权重的同级GPU获取模型参数,而非从云存储重复下载。该系统利用GPU互连(如InfiniBand、NVLink)高达200-400 Gbps的带宽,相比传统存储下载的2-10 Gbps实现了数量级提升。通过Redis协调与NCCL广播原语,NCCLBack确保了数据传输的效率和正确性,使得大规模集群部署新模型时,冷启动时间不随节点数量线性增长,基本保持恒定。
文章指出,尽管生成式AI工具在员工中日益普及,但许多公司并未能有效捕获和利用这些工具产生的知识与洞见,导致组织学习停滞。员工使用AI生成的代码、文本和分析结果往往散落在个人设备与对话中,未能转化为可共享、可检索的公司资产。这造成了“AI普及却无集体智慧增长”的困境,企业投资于AI工具却未获得相应的知识积累与协同创新回报。
SAP正在收购开源数据湖仓提供商Dremio和AI公司Prior Labs,以扩展其数据平台能力。这两项收购是SAP构建“AI就绪”企业数据平台战略的关键举措,旨在整合先进的数据管理和人工智能技术,强化其对企业客户的数据处理与AI服务支持。此举标志着SAP正通过积极并购加速向智能化数据平台转型。
Amazon SageMaker AI 新增了一个 AI 智能体,旨在帮助开发者定制语言模型。该功能支持对 Llama、Qwen、Deepseek 和 Nova 等主流模型进行智能体驱动的微调,使开发者能更高效地优化模型以适应特定任务,无需从零开始构建。这标志着 AWS 在降低大模型定制门槛、提升开发效率方面迈出重要一步。
研究提出部署时学习作为大语言模型生命周期的第三阶段,并推出CASCADE框架。该框架使LLM智能体能在部署期间从经验中持续学习,而无需更新模型参数。其核心是为智能体配备一个显式、演进的情景记忆,将经验复用建模为上下文赌博机问题,从而实现探索与利用的权衡,并保证长期无悔性。在涵盖医疗、法律、代码生成等16项多样任务中,CASCADE将宏观平均成功率较零样本提示提升了20.9%,且持续优于多种基线方法。这项工作通过将部署重构为自适应学习过程,为持续改进的AI系统奠定了基础。
Gemini API 引入了事件驱动的 Webhook 功能,这是一种基于推送的通知系统。它旨在消除低效的轮询需求,为长时运行的任务(如文件处理或复杂推理)提供更优的解决方案。当任务完成时,系统会自动将结果推送到用户指定的端点,从而显著降低延迟并减少资源消耗,提升开发效率与响应速度。
红帽公司近日公布了名为 Tank OS 的开源项目,旨在通过容器化技术提升 OpenClaw 运行环境的安全性。该项目将 OpenClaw 封装在专用容器中,采用无 root 权限架构,以防止宿主系统权限被滥用。Tank OS 基于 Fedora Linux 和 fedora-bootc 技术构建,支持在同一设备上运行多个相互隔离的 AI 智能体实例,各实例间不共享凭据和系统资源。此外,系统采用不可变操作系统设计,内核、运行环境及服务均预定义在镜像中,文件系统大部分为只读,从而进一步增强安全防护。
Linux 7.1 第二个候选版本(RC2)已发布,整体进展顺利,预计将按时推出正式版。本次更新中,KVM自测试相关补丁因代码重命名而占比异常,导致版本体量偏大。Linus Torvalds指出,补丁数量激增很可能与AI开发工具的普及有关,这一趋势从Linux 7.0就已开始。此外,版本修复了大量显卡与网络驱动问题,包括AMD和英特尔显卡的内存泄漏、缓冲区溢出等漏洞,并对NVMe认证、TLS模式、RAID10配置等核心组件进行了多项安全与稳定性修复。
本文提出HeavySkill新视角,将深度思考视为智能体协同框架的内化核心技能,而不仅是最小执行单元。该技能被定义为“并行推理后总结”的两阶段流程,可内化于模型参数中,驱动协同框架解决复杂任务。实证研究表明,HeavySkill在多个领域均优于传统的Best-of-N策略,更强的大语言模型甚至能接近Pass@N性能。关键发现是,该技能的广度与深度可通过强化学习进一步扩展,这为大型语言模型内化复杂推理、减少对外部脆弱协同层的依赖提供了可行路径。
美光科技CEO桑杰・梅赫罗特拉表示,当前AI浪潮仍处早期阶段,推理应用扩大导致对高速、大容量存储需求激增。目前DRAM和NAND闪存供应持续紧张且产能提升困难,预计今年AI对这两类存储的需求将超过行业总市场规模的一半。美光正为英伟达新平台供应HBM4样品,并计划明年量产HBM4E。尽管企业需求旺盛,但受供应限制和价格上涨影响,消费电子市场的PC和移动设备销量可能出现低双位数下滑。公司预计第三财季将再次刷新业绩纪录。
文章主张AI智能体的测试工具“代理线束”不应置于沙盒环境中运行。核心观点是,为了准确评估智能体在真实世界中的能力与可靠性,测试环境必须尽可能贴近实际生产环境,而非受限制的沙盒。将线束置于沙盒之外,能更有效地暴露智能体在复杂、不可预测场景下的潜在问题,从而提升其部署后的稳健性和安全性。这一方法强调测试的真实性与有效性,关乎智能体技术的实际应用成败。
研究提出新视角,将注意力机制数学重构为具有动态预测参数的多层感知机,从而解释其全局建模能力源于动态参数对全局上下文的隐式压缩表征。基于此,研究探索能否完全通过动态参数化实现Transformer级别的序列全局建模,同时保持线性复杂度以替代显式注意力。通过在视觉模型上进行大量实证研究,证实动态参数化确实可以作为一种高效、线性复杂度的显式注意力替代方案,为高效序列建模开辟了新途径。相关代码已开源。
谷歌、亚马逊、微软和Meta计划在2026年合计投入7250亿美元资本支出,较去年增长77%,重点加码AI基础设施。谷歌云业务收入同比增长63%至200亿美元,合同积压订单达4600亿美元。微软将2026年资本支出定为1900亿美元,Meta上调至最高1450亿美元,存储芯片涨价及数据中心成本上升是推高支出的主因。分析师驳斥AI看空论调,认为强劲收入增长足以支撑巨额投入。Alphabet净利润同比大增81%,财报后股价上涨,市值有望创新高。
Agent-desktop 是一款基于 Rust 构建的原生桌面自动化命令行工具,专为 AI 代理设计。它通过操作系统无障碍访问树为任何应用程序提供结构化访问,无需依赖截图、像素匹配或浏览器。该工具包含快速单二进制 CLI 和 C-ABI 动态库,支持 Python、Swift、Go 等多种语言直接调用,避免每次命令 fork 进程。核心特性涵盖 53 个命令,包括观察、交互、键盘鼠标操作;采用渐进式骨架遍历,在密集应用中可减少 78–96% 的令牌使用;工作流经 AI 优化,使用确定性元素引用,且所有交互优先尝试纯无障碍 API。目前支持 macOS 13.0+ 系统,需授予无障碍权限。
威联通发布专为边缘AI设计的存储服务器QAI-h1290FX。该服务器搭载AMD EPYC 7302P处理器(16核32线程),预装128GB内存,提供12个2.5英寸U.2/SATA SSD盘位、4条PCIe Gen4插槽以及2个25GbE和2个2.5GbE网络端口。其关键特性是支持安装NVIDIA RTX PRO 6000 Blackwell Max-Q工作站显卡,并配备750W电源。产品旨在提供开箱即用的本地AI计算体验,让用户无需复杂配置即可在本地运行AI模型并完全掌控数据。
本文主张将具备自主能力的AI系统设计和评估为边际token分配经济体,而非按单位定价的文本生成器。通过一个编码代理修复失败测试的案例,文章揭示了当前被孤立设计的四个经济层级(路由层、代理层、服务层和训练层)实际上都在遵循相同的核心经济原则:边际收益等于边际成本加上延迟与风险成本。这一框架解释了为何局部最小化token的系统会在全局层面错误分配资源,并预测了一系列重复出现的故障模式,如过度路由、验证不足和服务拥堵等。研究最后指出了token感知评估、自主定价等具体研究方向。
一项针对人工智能用水量的分析指出,其实际耗水量远低于公众普遍认知。以加州为例,AI数据中心的总用水量仅占该州人类用水总量的不到0.3%。相比之下,传统农业用水占比高达80%。研究强调,公众对AI耗水的担忧可能被夸大,真正的用水挑战集中在农业等传统领域。该分析旨在纠正公众认知偏差,将水资源讨论引导至更关键的实际问题上。
英特尔开源了面向大型语言模型的高级量化算法AutoRound。该算法通过改进的量化策略,能在保持模型性能的同时显著降低存储与计算需求,支持将模型权重压缩至低至3/4比特。相比传统方法,它在多个基准测试中实现了更高的精度,尤其适用于资源受限的部署场景。项目代码已在GitHub发布,并获得开发者社区关注。
Dynamic Workflows 是一个函数库,支持将持久执行实时路由至租户提供的代码。该库基于 Dynamic Workers 构建,使平台能够以近乎零闲置成本为数百万个独特工作流提供服务。它允许平台根据租户需求动态分配执行资源,实现了工作流与特定租户代码的即时绑定,大幅降低了多租户场景下的运营开销和资源浪费。
固态技术协会(JEDEC)宣布了DDR5 MRDIMM标准的多项关键进展。其正式发布了JESD82-552标准(DDR5 MDB02数据缓冲器),并预告将推出JESD82-542标准(DDR5 MRCD02寄存时钟驱动器),以通过多路复用秩技术提升内存带宽,解决传统DIMM的瓶颈。此外,委员会正开发目标速率达12800 MT/s的Gen 2 DDR5 MRDIMM原卡设计,Gen 2模块标准接近完成,并已启动Gen 3标准的开发工作,旨在满足AI与云计算对极高内存带宽的需求。
广发证券分析师蒲得宇发布研报指出,英特尔代工业务取得关键突破,其2.5D先进封装技术EMIB良率达到90%,已为AI数据中心芯片做好准备。该技术良率与FCBGA相当,但互连密度更高。其高性能版本EMIB-T集成了TSV,当前已支持大于8倍光罩尺寸,能在封装内容纳12个HBM芯片和超过20个桥接。英特尔计划到2028年将EMIB-T扩展至大于12倍光罩尺寸,以容纳超过24个HBM裸片和38个以上桥接,进一步提升封装能力。
Matt Webb提出,随着氛围编码加速应用开发,应用变得更个人化、场景化和高频次,发布工具或微应用更像写博客而非建网站。他期望有一个RSS订阅源,能聚合各类工具和应用页面,每个条目都带“安装”按钮。受此启发,作者使用Claude为自己的工具页面添加了Atom订阅源和图标,该页面内容来自其个人工具站点。这一实践指向了在应用开发轻量化、个人化的趋势下,通过订阅机制高效分享和发现微应用的新可能,其核心在于如何定义“安装”的目的地与实现方式。
金融科技初创公司Kepler针对金融业高监管要求,构建了基于Claude AI的可验证研究平台。该平台核心是建立了“信任与验证层”,确保AI生成的每个数字都能精确溯源至原始文件的具体位置。团队通过基准测试发现,在处理复杂的多步骤财务查询时,Claude是唯一能始终保持计划连贯性、不丢失约束条件的模型。平台通过构建确定性执行环境、开发专用金融本体论,并采用多模型协作的工作流,最终实现了AI输出结果的可审计性,解决了金融从业者对AI产出的信任难题。
Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。
OpenRouter 新增 Response Caching 头部,用于缓存完全相同的 API 请求,使后续请求的响应时间大幅缩短,且缓存调用完全免费。
OpenRouter 推出 Response Caching header,允许缓存相同的 API 请求,使响应时间缩短至极小,且完全零成本。
新推出的 Response Caching 头部实现了 API 请求的缓存机制,完全相同的请求可获得缓存响应,响应时间大幅缩短至微乎其微的水平,且不会产生额外成本。该功能通过自动识别并复用已生成的响应,显著提升了重复请求的处理效率。
三星电子和SK海力士两大存储巨头相继预警,由人工智能基础设施建设拉动的存储芯片严重短缺局面将至少持续至2027年,甚至可能延续到2030年。短缺的核心是高带宽内存(HBM),其制造难度大、产能受限,需求增速远超产能扩建速度。资源向高利润的AI存储产品倾斜,已开始影响服务器、PC等普通DRAM的供给。尽管厂商正大幅投资扩产,但产能爬坡需时数年,难以追上AI需求增长。此次短缺推动厂商业绩飙升,三星半导体部门2026年第一季度营业利润达53.7万亿韩元,其中约94%来自AI存储芯片。