Anthropic与Amazon签署十年协议,承诺向AWS投入超1000亿美元以获取高达5吉瓦算力,用于Claude训练与部署。Amazon追加投资50亿美元(未来可达200亿美元),新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS,目前超10万客户通过Bedrock使用Claude,Anthropic年化收入已突破300亿美元。
Anthropic与Amazon签署十年协议,承诺向AWS投入超1000亿美元以获取高达5吉瓦算力,用于Claude训练与部署。Amazon追加投资50亿美元(未来可达200亿美元),新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS,目前超10万客户通过Bedrock使用Claude,Anthropic年化收入已突破300亿美元。
Cloudflare 推出 Agent Readiness 评分体系,帮助网站所有者量化评估其网站对 AI agent 的支持能力。该体系建立全新技术标准,并基于 Radar 数据监测分析。Cloudflare 通过重构文档站点,将其打造为全网对 agent 最友好的网站,为行业提供了可复现的优化范例,推动网站基础设施向 AI 代理友好型架构升级。
技术团队预告了共享压缩字典功能的上线计划,这项压缩技术专为适应代理式网络的发展需求而设计,能够显著缩短页面加载时间并提升传输效率。该功能目前处于预览阶段,具体的 beta 测试开放时间即将公布,用户很快就能亲自体验这项新技术。
Cloudflare 发布原生功能标志服务 Flagship,直接构建于其全球网络之上,旨在消除第三方供应商的延迟。该服务利用 KV 和 Durable Objects 技术,实现亚毫秒级的 flag 评估速度,满足 AI 时代对实时性能的需求,为开发者提供低延迟的功能开关能力。
Cloudflare 发布无损推理时压缩系统 Unweight,可在不牺牲模型质量的前提下,将大语言模型(LLM)的占用空间减少 22%。该系统针对 GPU 内存带宽进行优化,使推理速度更快、成本更低,解决了在网络边缘大规模部署 LLM 时的内存效率挑战,实现了模型体积与计算资源的高效平衡。
Cloudflare 将 AI Gateway 重构为统一的 AI 推理层,开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能,并扩充了多模态模型目录,专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程,降低多模型集成的技术门槛。
Cloudflare 针对超大型语言模型推理需求打造了专属技术栈,通过在其全球基础设施上部署定制化高性能 AI 推理系统,实现了大模型的低延迟运行。该方案深入剖析了工程权衡与技术优化路径,解决了超大规模模型部署中的性能瓶颈,使企业无需自建复杂基础设施即可获取高性能 AI 推理能力。
Artifacts 正式发布,这是一款专为智能体(agents)打造的版本化存储服务,完全兼容 Git 协议。该平台支持创建数千万个仓库,允许从任意远程仓库 fork,并可通过 URL 提供给任何 Git 客户端访问。Artifacts 旨在为智能体、开发者和自动化工具提供代码与数据的统一存储空间,实现大规模仓库管理与无缝的 Git 操作集成。
Cloudflare 发布 Project Think 及 Agents SDK 下一版本预览,该平台从轻量级原语转型为功能完备的一站式开发平台,支持 AI 智能体实现思考、行动与状态持久化。新版本提供开箱即用的基础设施,帮助开发者构建具备持续认知能力的下一代 AI 应用。
Cloudflare 推出仪表盘内置代理 Agent Lee,将传统多标签页手动操作界面革新为单一提示词交互模式。基于沙盒化 TypeScript 构建,该工具以技术协作者身份协助用户排查故障、管理 Cloudflare 技术栈,实现从繁琐手动配置向智能化对话式运维的转变,提升基础设施管理效率与体验。
OpenRouter平台现已上线视频生成服务。用户可通过单一API接口,直接调用顶级的视频生成模型。这一集成简化了开发流程,使开发者无需分别对接不同厂商,即可便捷地访问和使用当前领先的视频AI模型能力。
我们与NVIDIA合作,利用自主运行的多智能体系统,在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别,实现了38%的几何平均速度提升,其中63%的问题超越基线,19%实现超2倍优化。这些内核直接影响AI训练与推理效率,传统上需资深工程师耗时数月乃至数年的优化工作,该系统在数周内即自主完成,并能探索更广阔解决方案空间,突破了人工逐项优化的限制。
专为金融服务业打造的AI资源合集,涵盖提示词包、GPT模型、实用指南及专业工具,助力金融机构安全、高效地部署和扩展人工智能应用,推动行业智能化升级与数字化转型。
LMSYS Org推出HiSparse分层内存系统,针对稀疏注意力仍受限于GPU内存容量的问题,将非活跃KV缓存卸载至主机内存,仅在GPU HBM保留热缓冲区,并通过专用CUDA内核高效管理数据交换(采用LRU策略与页表更新)。该系统在256并发请求下实现超3倍吞吐量提升,GLM-5.1-FP8模型长上下文场景性能提升达5倍,支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。
研究团队发布了TC-AE,一种用于深度压缩自动编码器的新方法,旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计,显著提升了模型在压缩表示中保留信息的能力,实现了更高的压缩效率与重建质量。具体指标显示,TC-AE在多个基准测试中,相较于传统深度压缩自动编码器,将有效令牌容量提升了约30%,同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。
针对Blackwell GPU上的小批量解码,研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径,改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤,将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写,并通过warp独立性实现了更好的调度。在Blackwell GPU上,该方法实现了1.84倍的吞吐量提升,同时输出精度更高,与全FP32参考值的差距缩小了1.4倍,有效加速了模型研发流程。
Anthropic宣布与Google、Broadcom达成新协议,将获得多千兆瓦下一代TPU算力,预计2027年上线。这是其迄今最大的算力投资,用以支持Claude模型及激增的客户需求。数据显示,Claude年收入运行率已突破300亿美元,年消费超百万美元的企业客户两个月内从500家翻倍至超1000家。新设施主要位于美国,符合其500亿美元投资美国基础设施的承诺。公司强调将继续保持多硬件平台策略,AWS仍是主要云服务商。
Meta的Ranking Engineer Agent系列博客第二篇,聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施,旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能,进一步展示了该代理在硬件与系统层面的自动化优化实践。
Google 为 Gemini API 新增 Flex 和 Priority 两个推理层级,帮助开发者在成本与延迟之间灵活取舍。
inclusionAI发布了cuLA项目,这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发,旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化,通过利用先进的CUDA编程抽象和高效模板库,有望提升大语言模型在推理和训练过程中的计算性能与效率。
Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构,使AI智能体能够按需加载领域专业知识,与传统单体提示相比,可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问,从而为现代AI开发构建了一个可扩展且能自我扩展的框架。
Gradio推出的gradio.Server组件,允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用,同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展,集成了Gradio的队列系统、并发控制、SSE流式传输及gradio_client兼容性。以“Text Behind Image”应用为例,其后端仅需约50行Python代码,通过@app.api()装饰器封装函数,即可自动管理请求队列与GPU并发,并能在Hugging Face Spaces上获得ZeroGPU支持,极大简化了复杂全栈Web应用在Spaces上的部署流程。
Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度,旨在更深入理解用户兴趣与意图,以提升广告效果。这一举措通过自适应排序模型,优化了推理阶段的扩展曲线,使部署大规模模型服务成为可能,标志着推荐系统性能向新前沿迈进。
一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads(2万星)和Gas Town(1.3万星)两个项目,每天收到约50个PR。通过自动化处理超过半数简单PR,整体合入率约88%,中位解决时间15小时。即便如此,每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键,拒绝贡献可能导致项目被分叉或取代。
Orbax 和 MaxText 引入了连续检查点新功能,旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式,通过在前一个保存操作成功完成后才异步启动新操作,最大化I/O带宽并降低故障风险。基准测试表明,该方法显著缩短了检查点间隔,并实现了可观的资源节约,这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。
Meta发布了名为贝叶斯优化的新AI模型,用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物,并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行,是Meta长期路线图的一部分,旨在推动建筑业利用人工智能优化材料性能与环保指标。
Mistral AI 在改进内部CLI工具时发现,原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位,确保所有必要信息都能通过非交互方式提供。他们建立了插件系统,使组件可自省和序列化,并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程,例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。
本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5,通过两阶段训练:首先进行侧重代码的持续预训练以深化编码知识,随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上,Composer 2得分为61.3,较前代提升37%,与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分,并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。
Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能,解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本,可在32 GPU集群中容忍最多16个rank故障,将服务恢复时间从2-3分钟缩短至10秒以内,降幅达90%。基准测试显示,该方案在实现极端韧性的同时,吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平,实现零静态性能损耗。
SGLang亮相Jensen Huang主题演讲AI生态图谱,三天内密集举办五场活动。团队与RadixArk合办200人技术聚会,在LinkedIn总部举办搜索与推荐LLM系统研讨,并参与700人规模的Novita行业论坛。官方培训实验室发布Miles RL框架,解决生产环境训练-推理不匹配难题;LinkedIn工程师分享预填充优化方案,在H100上实现2–3倍吞吐量提升并回馈上游。
Google Research推出TurboQuant压缩算法(将发表于ICLR 2026),通过融合PolarQuant与QJL技术实现大模型与向量搜索的极端压缩。PolarQuant通过随机旋转数据向量并转换为极坐标,消除传统量化的内存开销;QJL则利用Johnson-Lindenstrauss变换以1比特零开销压缩残差误差。该方法在零精度损失下显著缩减模型体积,有效缓解KV缓存瓶颈,适用于高维向量搜索等场景。
以指标平台为核心的新一代BI架构,通过建设自动语义和增强计算两种核心能力,部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。
开源RL框架Miles正式支持ROCm,可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化,针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示,rollout吞吐达1.1k-1.3k tok/GPU/s,AIME准确率从66.5%提升至72.9%。现提供预构建容器,支持GRPO、Megatron-LM和FSDP后端。
Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈:电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年,受供需严重失衡及新一代芯片交付延迟影响,其市场价格与战略价值持续攀升,当前实际价值甚至超过发布初期。文章指出,这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。
Auto Exacto 每隔 5 分钟基于吞吐量、工具调用遥测和基准分数重新评估各提供商。对于包含工具的请求,该功能默认处于开启状态。
Auto Exacto 每隔5分钟根据吞吐量、工具调用遥测数据和基准分数重新评估提供商。对于包含工具的请求,该功能默认开启。
Auto Exacto 功能现已默认开启,尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估,评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据,自动将请求导向当前最优的模型提供商。
Anthropic宣布投入1亿美元成立Claude合作伙伴网络,为帮助企业采用Claude的合作伙伴提供培训、技术支持和联合市场开发。该网络免费开放,合作伙伴可获得Claude Certified Architect等技术认证,并优先使用代码现代化入门套件。Anthropic还将合作伙伴支持团队扩大五倍,配备Applied AI工程师和技术架构师,协助企业完成从概念验证到生产部署的过渡。