Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。
Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作,能显著降低延迟与成本,高命中率还能支持更宽松的订阅速率限制。关键实践包括:将静态系统提示和工具定义置于提示词前端以最大化共享前缀;通过消息而非修改提示词来传递更新信息,避免缓存失效;在会话中不切换模型、不增删工具,以维持缓存前缀稳定。此外,针对工具过多或“计划模式”等场景,可通过发送轻量存根或设计专用工具来规避缓存失效,从而在复杂功能中持续利用缓存优势。
Last week, we introduced Ling-2.6-1T. Today, Ling-2.6-1T is officially an open model~ 🤗 1T total parameters · 63B activ...
OpenRouter 新增 Response Caching 头部,用于缓存完全相同的 API 请求,使后续请求的响应时间大幅缩短,且缓存调用完全免费。
OpenRouter 推出 Response Caching header,允许缓存相同的 API 请求,使响应时间缩短至极小,且完全零成本。
新推出的 Response Caching 头部实现了 API 请求的缓存机制,完全相同的请求可获得缓存响应,响应时间大幅缩短至微乎其微的水平,且不会产生额外成本。该功能通过自动识别并复用已生成的响应,显著提升了重复请求的处理效率。
Read the full launch post for everything you can build with your Cloud Computer! Team plan coming soon! https://manus.im...
三星电子和SK海力士两大存储巨头相继预警,由人工智能基础设施建设拉动的存储芯片严重短缺局面将至少持续至2027年,甚至可能延续到2030年。短缺的核心是高带宽内存(HBM),其制造难度大、产能受限,需求增速远超产能扩建速度。资源向高利润的AI存储产品倾斜,已开始影响服务器、PC等普通DRAM的供给。尽管厂商正大幅投资扩产,但产能爬坡需时数年,难以追上AI需求增长。此次短缺推动厂商业绩飙升,三星半导体部门2026年第一季度营业利润达53.7万亿韩元,其中约94%来自AI存储芯片。
京东广告团队推出GRAM架构,旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱,将商品属性与业务规则作为“事实护栏”注入,以杜绝AI幻觉,确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式,即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时,GRAM将企业内隐知识结构化作为上下文,使大模型能进行复杂的深度决策,而非仅计算曝光。
Cursor团队以构建软件产品的方式迭代优化其智能体工具链,核心围绕上下文窗口的演进。早期模型能力有限,工具链依赖大量静态上下文和防护机制;随着模型能力提升,团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合:通过CursorBench等基准测试进行标准化质量评估,同时进行线上A/B测试,使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误,以应对日益复杂的工具链状态。
快手于4月30日发布AI桌面智能体KroWork。用户可通过自然语言指令驱动AI完成文件处理、浏览器自动化等任务,并能将重复性工作流固化为本地桌面应用,实现零token消耗、输出稳定且保障数据安全。该产品面向市场营销、财务等非技术用户,集成Qwen、Kimi等主流模型,支持沙箱执行和权限管控,旨在降低软件开发门槛,让个人能将日常需求转化为桌面工具。
OpenAI 最新工程博客指出,随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升(目标超1000 TPS),传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此,OpenAI 为 Responses API 引入了 WebSocket 模式,通过保持长连接、在内存中缓存对话状态和已渲染 token,实现了跨工具调用的状态复用,避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%,让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS,显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。
⚙️ We made agent loops faster with WebSockets in the Responses API As Codex got faster, the bottleneck moved from infere...
调研机构Counterpoint Research预测,联发科凭借与谷歌的合作,其AI服务器计算ASIC出货量有望在未来两年内实现数量级增长。到2028年,联发科预计将交付500万颗谷歌TPU芯片,占据该市场26%的份额,成为仅次于博通的第二大设计服务参与者。合作中,谷歌负责核心计算芯片设计,联发科提供I/O芯片,这种新模式有助于节省设计成本并避免HBM内存的加价。双方正共同推进TPU v8e项目,计划于2027年底量产,并可能采用英特尔的先进封装技术。
英特尔与AMD联合发布人工智能计算扩展(ACE)白皮书,将其确立为x86架构的标准矩阵加速方案。该扩展旨在突破现有SIMD扩展在计算密度与扩展性上的局限,通过引入基于外积运算的矩阵加速机制,无缝集成AVX10。据白皮书数据,在消耗相同数量输入向量的前提下,ACE的计算密度比等效的AVX10乘加运算高出16倍。它支持INT8、FP8、BF16等主流AI数据格式,并计划适配PyTorch、TensorFlow等机器学习框架,目标是为从笔记本电脑到超级计算机的全场景提供高效的矩阵加速支持。
英伟达应用深度学习副总裁与Uber首席技术官指出,当前AI服务(如代码助手、自动化智能体)的运营成本已超过人力成本,挑战了“AI必然降本增效”的普遍预期。AI服务定价包括每月20美元订阅费或功能完备版200美元,但基于Token计费的编程助手等工具导致实际开支远超预算。尽管如此,许多企业CEO将高昂成本视为积极信号,认为这表明员工正深入使用AI工具推动自动化与创新,并将其重新定义为战略投资。
Linux内核曝出高危漏洞“Copy Fail”(CVE-2026-31431)。该漏洞源于2017年引入的代码优化,结合AF_ALG加密接口与splice()系统调用,允许攻击者通过一个仅732字节的Python脚本,稳定篡改系统可信二进制文件,从而在所有主流Linux发行版上轻松提权至root。其影响范围覆盖2017年至补丁发布前构建的内核版本,并能导致容器逃逸,严重威胁云原生环境。目前官方已发布修复补丁。
在超大规模编码代理推理中,乱码和生僻字异常伴随低spec_accept_length,复读异常伴随高spec_accept_rate,均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失,引入显式同步约束及分层存储优化,提升了推理稳定性和效率。
前沿语言模型的强化学习后训练常受限于自回归生成速度。本研究将推测解码作为一种无损加速方法集成到RL生成过程中,在保持目标模型输出分布不变的前提下提升效率。该方案在NeMo-RL框架中结合vLLM后端实现,支持同步与异步流水线,允许在RL生成阶段进行推测。实验表明,在8B规模的同步RL推理任务中,推测解码使生成吞吐量提升1.8倍。通过高保真模拟器预测,在235B规模下结合异步RL可实现最高2.5倍的端到端训练加速。
DeepMind联合创始人Demis Hassabis指出,实现AGI不能仅依赖预训练和RLHF,必须补足持续学习与长程推理能力,并将时间节点锁定在2030年前后。同时,AI代理的自动化交付链条正在快速构建:OpenAI Codex已升级为高活跃度的并行工程平台,能自动分解任务;Cloudflare与Stripe合作推出新协议,使AI代理能自主完成开户、支付、部署等全流程,实现无人值守的软件交付。
Simon Willison 发布了其命令行工具 LLM 的 0.32a0 版本。此次更新为 alpha 预发布版本,主要变更与详细说明可通过 GitHub 的发布页面及作者博客上的注解式发布说明获取。该版本标志着 LLM 工具在功能或兼容性上的进一步迭代,通常涉及对大型语言模型(如 GPT、Claude、LLaMA 等)进行访问或操作的改进。
亚马逊2026财年第一季度业绩强劲,净销售额1815亿美元,同比增长17%;净利润达303亿美元,同比大涨77%。核心云业务AWS营收375.9亿美元,同比增长28%,创逾3年来最快增速。公司正大力投资人工智能,年度资本支出预算高达2000亿美元,导致过去12个月自由现金流骤降95%至12亿美元。同时,亚马逊宣布以约115.7亿美元收购Globalstar,以获取全球频谱资源并深化与苹果的合作。
Starting today, agents can now be Cloudflare customers. They can create a Cloudflare account, start a paid subscription,...
中广核浙江三澳核电项目1号机组已完成168小时试运行,正式投产发电,成为我国首个民营资本参股项目、长三角地区首台“华龙一号”核电机组。该机组预计年发电量超90亿千瓦时,可满足超100万居民的年度用电需求。项目规划建设6台“华龙一号”机组,目前已核准4台;全部建成后,年发电能力预计超540亿千瓦时,每年可减少标煤消耗超1635万吨、减排二氧化碳近5000万吨,相当于新增植树造林面积超12万公顷。
OpenAI正调整其“星际之门”AI基础设施建设计划,从原先侧重自建转向更大程度依赖算力租赁。公司将通过一系列大型双边交易来满足算力需求,具体将以Nscale→微软→OpenAI的间接方式,从原“星际之门·挪威”数据中心站点获取资源。微软同时将接手原计划作为首个站点扩建项目的美国得克萨斯州阿比林园区二期,以支持受此调整影响的企业。这一转变意味着OpenAI缩减了自建算力设施的规模。
智谱GLM的超大规模Coding Agent推理实践,聚焦Scaling Pain(扩展痛点)及其应对经验。
OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目,旨在为通用人工智能(AGI)的研发提供核心算力支持。该项目通过增加新的数据中心容量,以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段,旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。
http://x.com/i/article/2049579443216338944
模型能力的提升遵循扩展定律,但其在生产环境中的可靠性取决于如何应对“规模化阵痛”。博客通过GLM-5大规模服务的调试实例,分享了处理罕见乱码输出、重复及生僻字符生成等问题的经验。关键工作包括追踪并消除KV Cache的竞态条件、修复HiCache同步问题,以及引入LayerSplit技术以实现最高132%的吞吐量提升。这些实践旨在帮助社区避免类似陷阱,构建更健壮的推理基础设施。
LLM Python库和CLI工具发布0.32a0 alpha版本,进行了两项核心架构升级。首先,模型输入现支持表示为消息序列,能直接处理包含多轮对话历史的完整上下文,解决了此前难以载入已有对话的局限。其次,模型响应升级为支持由不同类型部分组成的流式输出,以更好地适配现代前沿模型处理多样化输入(如图像、音频)和输出(如结构化JSON、工具调用)的能力。此次重构旨在让该库的抽象层跟上LLM技术自2023年以来的快速演进。
LMSYS团队针对SGLang中的强化学习工作负载,提出了一种基于RDMA的点对点权重更新机制,作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输,将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒,提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余,允许推理服务器更快恢复rollout过程,且兼容所有主流开源模型。
Cloudflare 宣布 AI 代理现可作为独立客户直接使用其服务。代理能够自主创建 Cloudflare 账户、开通付费订阅、注册域名,并立即获取 API 令牌以部署代码。人类用户可保留授权监督权限,但无需手动操作控制台、复制粘贴 API 令牌或输入信用卡信息。这一更新使代理能够以自动化流程完成从账户开设到服务部署的全链路操作。
在Google Cloud Next '26大会上,谷歌正式推出专为智能体时代设计的第八代TPU芯片,分别针对AI训练与服务两大核心挑战。TPU 8t专注于训练,其性能约为前代的3倍,并通过加速数据移动和优化硬件容错,将原本需数月的训练时间缩短至数周。TPU 8i则专为执行复杂任务的AI智能体服务,内存扩大三倍以支持多步推理,每美元性能提升80%,延迟降低5倍,助力企业以更低成本扩展服务规模。这些芯片将为医疗研究、客户支持等广泛场景提供核心算力,推动AI应用创新。
Vibedeploy with Stripe Projects, now available to everyone: https://projects.dev/.
Google Cloud推出了一项高性能集成方案,通过fsspec接口将Rapid Storage直接连接至PyTorch,以消除AI训练瓶颈。该方案利用Google的Colossus架构和双向gRPC流技术,可提供高达15 TiB/s的聚合吞吐量,并显著降低延迟。开发者仅需更新存储桶类型而无需修改代码,即可将总训练时间缩短23%。
DeepInfra 作为高性能、低成本的推理服务提供商,现已在 Hugging Face 平台正式上线。该服务支持众多开源模型,包括 LLaMA、Mistral 等系列,并提供按需付费的灵活计费模式。其 GPU 实例涵盖 H100、A100 等多种型号,显著降低了 AI 模型部署与调用的门槛,进一步推动了开源人工智能技术的普及与应用。
We're introducing the Cursor SDK so you can build agents with the same runtime, harness, and models that power Cursor. R...
AntLingAGI正式开源其万亿参数旗舰模型Ling-2.6-1T。该模型采用总参数1万亿、激活参数630亿的架构,核心设计理念是“令牌高效”,旨在以极低的令牌开销实现顶尖智能。它通过“快速思考”机制优化,具备可靠的多步骤执行能力,在指令遵循、工具使用和上下文控制方面表现优异。模型为实际生产需求优化,部署便捷,兼容广泛的智能体框架,适用于从代码生成到错误修复等多种任务。
🚀 Today, we are launching Ling-2.6-1T, a trillion-parameter flagship model designed for precise instruct task execution...