4月20日

00:00

Anthropic：Newsroom（网页）

Anthropic与Amazon签署十年协议，承诺向AWS投入超1000亿美元以获取高达5吉瓦算力，用于Claude训练与部署。Amazon追加投资50亿美元（未来可达200亿美元），新容量包括上半年上线的Trainium2及2026年底前部署的近1GW Trainium2与Trainium3。Claude Platform将直接集成AWS，目前超10万客户通过Bedrock使用Claude，Anthropic年化收入已突破300亿美元。

Anthropic 行业动态部署/工程

4月17日

21:05

Cloudflare Blog

Agent Readiness 评分正式发布：你的网站是否已做好 agent 准备？

Cloudflare 推出 Agent Readiness 评分体系，帮助网站所有者量化评估其网站对 AI agent 的支持能力。该体系建立全新技术标准，并基于 Radar 数据监测分析。Cloudflare 通过重构文档站点，将其打造为全网对 agent 最友好的网站，为行业提供了可复现的优化范例，推动网站基础设施向 AI 代理友好型架构升级。

智能体产品更新部署/工程

21:02

Cloudflare Blog

共享字典：适应代理式网络的压缩技术

技术团队预告了共享压缩字典功能的上线计划，这项压缩技术专为适应代理式网络的发展需求而设计，能够显著缩短页面加载时间并提升传输效率。该功能目前处于预览阶段，具体的 beta 测试开放时间即将公布，用户很快就能亲自体验这项新技术。

智能体产品更新部署/工程

21:00

Cloudflare Blog

推出 Flagship：面向 AI 时代的功能标志服务

Cloudflare 发布原生功能标志服务 Flagship，直接构建于其全球网络之上，旨在消除第三方供应商的延迟。该服务利用 KV 和 Durable Objects 技术，实现亚毫秒级的 flag 评估速度，满足 AI 时代对实时性能的需求，为开发者提供低延迟的功能开关能力。

产品更新部署/工程

21:00

Cloudflare Blog

Unweight：我们如何在不牺牲质量的情况下将 LLM 压缩 22%

Cloudflare 发布无损推理时压缩系统 Unweight，可在不牺牲模型质量的前提下，将大语言模型（LLM）的占用空间减少 22%。该系统针对 GPU 内存带宽进行优化，使推理速度更快、成本更低，解决了在网络边缘大规模部署 LLM 时的内存效率挑战，实现了模型体积与计算资源的高效平衡。

论文/研究部署/工程

4月16日

22:05

Cloudflare Blog

Cloudflare AI 平台：专为智能体设计的推理层

Cloudflare 将 AI Gateway 重构为统一的 AI 推理层，开发者可通过单一接口调用 14 家以上提供商的模型。新版本集成 Workers AI 绑定功能，并扩充了多模态模型目录，专为 AI 智能体优化设计。该平台旨在简化跨服务商的模型调用流程，降低多模型集成的技术门槛。

智能体产品更新部署/工程

22:00

Cloudflare Blog

构建超大型语言模型运行基础架构

Cloudflare 针对超大型语言模型推理需求打造了专属技术栈，通过在其全球基础设施上部署定制化高性能 AI 推理系统，实现了大模型的低延迟运行。该方案深入剖析了工程权衡与技术优化路径，解决了超大规模模型部署中的性能瓶颈，使企业无需自建复杂基础设施即可获取高性能 AI 推理能力。

产品更新部署/工程

21:01

Cloudflare Blog

Artifacts：兼容 Git 的版本化存储

Artifacts 正式发布，这是一款专为智能体（agents）打造的版本化存储服务，完全兼容 Git 协议。该平台支持创建数千万个仓库，允许从任意远程仓库 fork，并可通过 URL 提供给任何 Git 客户端访问。Artifacts 旨在为智能体、开发者和自动化工具提供代码与数据的统一存储空间，实现大规模仓库管理与无缝的 Git 操作集成。

智能体产品更新部署/工程

4月15日

21:01

Cloudflare Blog

Project Think：基于 Cloudflare 打造下一代 AI 智能体平台

Cloudflare 发布 Project Think 及 Agents SDK 下一版本预览，该平台从轻量级原语转型为功能完备的一站式开发平台，支持 AI 智能体实现思考、行动与状态持久化。新版本提供开箱即用的基础设施，帮助开发者构建具备持续认知能力的下一代 AI 应用。

智能体产品更新部署/工程

21:00

Cloudflare Blog

Agent Lee 正式发布：Cloudflare 技术栈的全新交互界面

Cloudflare 推出仪表盘内置代理 Agent Lee，将传统多标签页手动操作界面革新为单一提示词交互模式。基于沙盒化 TypeScript 构建，该工具以技术协作者身份协助用户排查故障、管理 Cloudflare 技术栈，实现从繁琐手动配置向智能化对话式运维的转变，提升基础设施管理效率与体验。

智能体产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

精选57

宣布推出视频生成功能

OpenRouter平台现已上线视频生成服务。用户可通过单一API接口，直接调用顶级的视频生成模型。这一集成简化了开发流程，使开发者无需分别对接不同厂商，即可便捷地访问和使用当前领先的视频AI模型能力。

产品更新视频部署/工程

推荐理由：OpenRouter 把视频生成塞进统一 API，对已经在用它做多模型路由的开发者来说是零成本扩展，但对大多数人只是又一个聚合入口，不算必须关注的节点。

4月14日

20:00

Cursor Blog

精选62

多智能体系统将GPU内核性能提升38%

我们与NVIDIA合作，利用自主运行的多智能体系统，在为期三周内对235个真实CUDA内核进行了优化。该系统从零开始构建并优化Blackwell GPU内核直至汇编级别，实现了38%的几何平均速度提升，其中63%的问题超越基线，19%实现超2倍优化。这些内核直接影响AI训练与推理效率，传统上需资深工程师耗时数月乃至数年的优化工作，该系统在数周内即自主完成，并能探索更广阔解决方案空间，突破了人工逐项优化的限制。

智能体现象/趋势编码部署/工程

推荐理由：Cursor 把自家多 Agent 系统拉去优化 CUDA 内核，38% 的 geomean 提速不算炸裂，但真正值得看的是它证明了 Agent 可以在无人干预下跑三周啃硬骨头，这对做 Agent 产品的人是个强信号。

4月10日

08:00

OpenAI：官网动态（RSS · 排除企业/客户案例）

金融服务业AI资源

专为金融服务业打造的AI资源合集，涵盖提示词包、GPT模型、实用指南及专业工具，助力金融机构安全、高效地部署和扩展人工智能应用，推动行业智能化升级与数字化转型。

OpenAI 产品更新部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

HiSparse：分层内存系统加速稀疏注意力

LMSYS Org推出HiSparse分层内存系统，针对稀疏注意力仍受限于GPU内存容量的问题，将非活跃KV缓存卸载至主机内存，仅在GPU HBM保留热缓冲区，并通过专用CUDA内核高效管理数据交换（采用LRU策略与页表更新）。该系统在256并发请求下实现超3倍吞吐量提升，GLM-5.1-FP8模型长上下文场景性能提升达5倍，支持DeepSeek-V3.2等采用DeepSeek Sparse Attention架构的模型。

开源/仓库推理部署/工程

4月9日

19:11

公众号：生数科技（Vidu·视频）

生数科技Vidu正式上线阿里云百炼

生数科技旗下视频生成模型Vidu已正式上线阿里云百炼平台，标志着从“模型领先”向“生态领先”的转变。双方将联合加速行业发展。

产品更新视频部署/工程

4月7日

17:26

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/TC-AE

研究团队发布了TC-AE，一种用于深度压缩自动编码器的新方法，旨在突破现有模型的令牌容量限制。该方法通过创新的架构设计，显著提升了模型在压缩表示中保留信息的能力，实现了更高的压缩效率与重建质量。具体指标显示，TC-AE在多个基准测试中，相较于传统深度压缩自动编码器，将有效令牌容量提升了约30%，同时保持了较低的计算开销。这项工作为高密度数据压缩与表示学习提供了新的技术路径。

开源/仓库数据/训练论文/研究部署/工程

4月6日

20:00

Cursor Blog

精选66

通过warp decode提升MoE模型推理效率

针对Blackwell GPU上的小批量解码，研究提出了一种名为“warp decode”的新方法。该方法颠覆了传统以专家为中心的计算路径，改为让每个GPU warp负责计算一个输出神经元。这一根本性改变消除了原有流程中五个纯数据管理的“簿记”步骤，将整个MoE计算层压缩为仅两个内核。其优势在于避免了填充、分散和中间缓冲区的读写，并通过warp独立性实现了更好的调度。在Blackwell GPU上，该方法实现了1.84倍的吞吐量提升，同时输出精度更高，与全FP32参考值的差距缩小了1.4倍，有效加速了模型研发流程。

推理论文/研究部署/工程

推荐理由：Cursor 把 MoE 推理的并行轴从专家翻转到输出神经元，Blackwell 上吞吐涨 1.84 倍还顺带提精度，这种同时赢性能和精度的内核优化极其罕见，做推理引擎的值得逐行读。

00:00

Anthropic：Newsroom（网页）

Anthropic与Google、Broadcom扩大合作，获多千兆瓦下一代算力

Anthropic宣布与Google、Broadcom达成新协议，将获得多千兆瓦下一代TPU算力，预计2027年上线。这是其迄今最大的算力投资，用以支持Claude模型及激增的客户需求。数据显示，Claude年收入运行率已突破300亿美元，年消费超百万美元的企业客户两个月内从500家翻倍至超1000家。新设施主要位于美国，符合其500亿美元投资美国基础设施的承诺。公司强调将继续保持多硬件平台策略，AWS仍是主要云服务商。

Anthropic Google 行业动态部署/工程

4月3日

03:59

Meta Engineering Blog（RSS）

精选82

KernelEvolve：Meta的Ranking Engineer Agent如何优化AI基础设施

Meta的Ranking Engineer Agent系列博客第二篇，聚焦其底层基础设施优化能力。该自主AI代理能够优化支撑广告排名模型运行的低层基础设施，旨在提升系统性能与效率。本篇承接首篇介绍的机器学习实验自主探索功能，进一步展示了该代理在硬件与系统层面的自动化优化实践。

智能体 Meta 产品更新部署/工程

推荐理由：Meta 内部工具展示 AI 自动化优化基础设施，工程师可借鉴实践。

00:00

Google Blog：AI（RSS）

Gemini API 推出 Flex 与 Priority 层级，平衡成本与可靠性

Google 为 Gemini API 新增 Flex 和 Priority 两个推理层级，帮助开发者在成本与延迟之间灵活取舍。

Google 产品更新部署/工程

4月2日

15:05

蚂蚁 inclusionAI：GitHub 新仓库

inclusionAI/cuLA：基于CuTe DSL与CUTLASS C++的线性注意力变体CUDA内核

inclusionAI发布了cuLA项目，这是一套为线性注意力变体编写的CUDA内核。该内核完全采用NVIDIA的CuTe DSL和CUTLASS C++库进行开发，旨在高效实现Transformer模型中的线性注意力机制。此举专注于底层计算优化，通过利用先进的CUDA编程抽象和高效模板库，有望提升大语言模型在推理和训练过程中的计算性能与效率。

开源/仓库数据/训练部署/工程

4月1日

08:00

Google Developers Blog（RSS）

精选71

开发者指南：使用技能构建ADK智能体

Agent Development Kit (ADK) SkillToolset 推出了“渐进式披露”架构，使AI智能体能够按需加载领域专业知识，与传统单体提示相比，可减少高达90%的令牌使用量。该系统通过四种模式——从简单的内联清单到智能体可自行编写代码的“技能工厂”——使智能体能在运行时利用通用的 agentskills.io 规范动态扩展其能力。这种模块化方法确保了复杂的指令和外部资源仅在相关时被访问，从而为现代AI开发构建了一个可扩展且能自我扩展的框架。

智能体 Google 教程/实践部署/工程

推荐理由：开发者可借鉴此架构，构建更智能、更经济的AI代理。

08:00

Hugging Face：Blog（RSS）

精选83

使用Gradio后端支持任意自定义前端

Gradio推出的gradio.Server组件，允许开发者完全使用React、Svelte或原生HTML/JS等自定义前端框架构建应用，同时无缝继承Grio的后端基础设施优势。该组件基于FastAPI扩展，集成了Gradio的队列系统、并发控制、SSE流式传输及gradio_client兼容性。以“Text Behind Image”应用为例，其后端仅需约50行Python代码，通过@app.api()装饰器封装函数，即可自动管理请求队列与GPU并发，并能在Hugging Face Spaces上获得ZeroGPU支持，极大简化了复杂全栈Web应用在Spaces上的部署流程。

Hugging Face 产品更新部署/工程

推荐理由：开发者可自由选择前端框架，同时利用Gradio的队列和GPU管理，简化AI应用部署。

00:00

Meta Engineering Blog（RSS）

精选81

Meta Adaptive Ranking Model：弯曲推理扩展曲线，为广告提供LLM规模模型服务

Meta将其广告推荐系统的运行时模型扩展至LLM的规模和复杂度，旨在更深入理解用户兴趣与意图，以提升广告效果。这一举措通过自适应排序模型，优化了推理阶段的扩展曲线，使部署大规模模型服务成为可能，标志着推荐系统性能向新前沿迈进。

Meta 产品更新推理部署/工程

推荐理由：Meta的工程实践展示了如何优化LLM规模模型的推理效率，对AI系统设计有参考价值。

3月31日

15:06

Steve Yegge：Medium（RSS）

氛围维护者

一位开源项目维护者分享应对AI生成PR浪潮的“氛围维护者”工作流。他维护Beads（2万星）和Gas Town（1.3万星）两个项目，每天收到约50个PR。通过自动化处理超过半数简单PR，整体合入率约88%，中位解决时间15小时。即便如此，每周仍需投入15-20小时审核。他认为高效率是开源项目生存关键，拒绝贡献可能导致项目被分叉或取代。

智能体大佬观点开源生态部署/工程

08:00

Google Developers Blog（RSS）

精选81

Boost Training Goodput：连续检查点功能如何优化 Orbax 和 MaxText 的训练可靠性

Orbax 和 MaxText 引入了连续检查点新功能，旨在优化模型训练中可靠性与性能的平衡。它改变了传统固定频率检查点的模式，通过在前一个保存操作成功完成后才异步启动新操作，最大化I/O带宽并降低故障风险。基准测试表明，该方法显著缩短了检查点间隔，并实现了可观的资源节约，这在平均故障间隔时间较短的大规模训练任务中效果尤为突出。

Google 产品更新数据/训练部署/工程

推荐理由：大规模模型训练的可靠性和效率提升，开发者可优化资源使用。

00:00

Meta Engineering Blog（RSS）

精选71

AI助力美国产水泥与混凝土

Meta发布了名为贝叶斯优化的新AI模型，用于设计混凝土配比。该模型旨在帮助建筑行业生产更高质量、更可持续的混凝土混合物，并特别聚焦于美国本土生产的产品。此次发布与2026年美国混凝土学会春季大会同步进行，是Meta长期路线图的一部分，旨在推动建筑业利用人工智能优化材料性能与环保指标。

Meta 模型发布部署/工程

推荐理由：Meta 将 AI 应用于传统建筑行业，展示垂直领域落地案例，启发其他行业探索 AI 应用。

00:00

Mistral AI：News（网页）

面向双重用户：Mistral AI 如何改进CLI工具以同时服务人类与AI智能体

Mistral AI 在改进内部CLI工具时发现，原本为人类开发者设计的交互式提示会阻碍AI智能体使用。核心解决方案是将每个交互式提示都转化为对应的命令行标志位，确保所有必要信息都能通过非交互方式提供。他们建立了插件系统，使组件可自省和序列化，并为智能体生成结构化的上下文指南。这些改进使得智能体能够自主完成从项目初始化到部署的全流程，例如将博客项目部署为Space仅需不到10分钟。面向智能体的设计最终也提升了人机协作的效率。

智能体教程/实践部署/工程

3月27日

20:00

Cursor Blog

精选72

Composer 2技术报告：面向智能体软件工程的代码模型训练

本报告介绍了代码模型Composer 2的训练过程。该模型基于开源基础模型Kimi K2.5，通过两阶段训练：首先进行侧重代码的持续预训练以深化编码知识，随后在高度模拟真实Cursor环境的大规模强化学习中提升端到端智能体性能。在自建的真实任务评估集CursorBench上，Composer 2得分为61.3，较前代提升37%，与前沿模型性能相当。在公开基准SWE-bench Multilingual和Terminal-Bench上分别获得73.7和61.7分，并在保持高精度的同时实现了显著更低的推理成本。训练依托为Blackwell GPU定制的高效MoE训练内核、跨区域异步强化学习管道等大规模基础设施完成。

智能体编码论文/研究部署/工程

推荐理由：Cursor 把 Composer 2 的训练全流程摊开讲了，从 Kimi K2.5 继续预训练到大规模 RL，关键是 RL 在真实 Cursor 会话里跑，不是玩具环境。做 coding agent 的团队，这份报告值得逐段拆。

3月25日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Elastic EP：实现DeepSeek MoE部署的部分故障容忍

Mooncake团队与Volcano Engine在SGLang框架中推出Elastic EP功能，解决大规模DeepSeek MoE模型"宽"专家并行部署的可靠性瓶颈。该技术通过解耦专家与GPU的刚性绑定并维护冗余副本，可在32 GPU集群中容忍最多16个rank故障，将服务恢复时间从2-3分钟缩短至10秒以内，降幅达90%。基准测试显示，该方案在实现极端韧性的同时，吞吐量、TTFT和TPOT等关键指标与标准DeepEP持平，实现零静态性能损耗。

DeepSeek 开源/仓库部署/工程

00:00

LMSYS：Blog（Chatbot Arena 团队）

SGLang亮相NVIDIA GTC 2026：三天五场活动展示开源AI基础设施实力

SGLang亮相Jensen Huang主题演讲AI生态图谱，三天内密集举办五场活动。团队与RadixArk合办200人技术聚会，在LinkedIn总部举办搜索与推荐LLM系统研讨，并参与700人规模的Novita行业论坛。官方培训实验室发布Miles RL框架，解决生产环境训练-推理不匹配难题；LinkedIn工程师分享预填充优化方案，在H100上实现2–3倍吞吐量提升并回馈上游。

开源/仓库数据/训练部署/工程

3月24日

00:00

Google Research：Blog（网页）

TurboQuant：以极端压缩重新定义AI效率

Google Research推出TurboQuant压缩算法（将发表于ICLR 2026），通过融合PolarQuant与QJL技术实现大模型与向量搜索的极端压缩。PolarQuant通过随机旋转数据向量并转换为极坐标，消除传统量化的内存开销；QJL则利用Johnson-Lindenstrauss变换以1比特零开销压缩残差误差。该方法在零精度损失下显著缩减模型体积，有效缓解KV缓存瓶颈，适用于高维向量搜索等场景。

Google 论文/研究部署/工程

3月19日

19:58

公众号：龙猫LongCat（美团）

美团 BI 在指标平台和分析引擎上的探索和实践

以指标平台为核心的新一代BI架构，通过建设自动语义和增强计算两种核心能力，部分解决了传统BI平台在个性化数据集驱动下产生的数据口径混乱、查询性能差等问题。

教程/实践部署/工程

3月17日

00:00

LMSYS：Blog（Chatbot Arena 团队）

Miles RL框架正式支持ROCm：基于AMD Instinct GPU的大规模后训练

开源RL框架Miles正式支持ROCm，可在AMD Instinct MI300/350 GPU上原生运行大规模语言模型后训练。该框架采用解耦架构分离rollout生成与模型优化，针对RL工作负载中占比70-90%的推理场景优化。在单节点8卡MI300X上训练Qwen3-30B-A3B的实测显示，rollout吞吐达1.1k-1.3k tok/GPU/s，AIME准确率从66.5%提升至72.9%。现提供预构建容器，支持GRPO、Megatron-LM和FSDP后端。

开源/仓库数据/训练部署/工程

3月14日

00:00

Dwarkesh Patel：Podcast & Blog（RSS）

精选

Dylan Patel - 深度剖析 AI 算力扩展的三大瓶颈

Dylan Patel 深度解析了制约 AI 算力规模扩张的三大核心瓶颈：电力基础设施限制、先进制程芯片产能不足以及网络互联带宽瓶颈。尽管 NVIDIA H100 已发布三年，受供需严重失衡及新一代芯片交付延迟影响，其市场价格与战略价值持续攀升，当前实际价值甚至超过发布初期。文章指出，这些结构性约束正重塑 AI 基础设施的投资逻辑与部署节奏。

大佬观点数据/训练部署/工程

推荐理由：顶尖硬件分析师拆解AI算力扩张的三大瓶颈，揭示H100为何比三年前更值钱

3月12日

14:54

公众号：阶跃星辰（Step）

阶跃AI 能一键部署 OpenClaw了！5 万个免费体验名额，先到先得

智能体产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 推出 Auto Exacto：自适应质量路由，默认开启

Auto Exacto 每隔 5 分钟基于吞吐量、工具调用遥测和基准分数重新评估各提供商。对于包含工具的请求，该功能默认处于开启状态。

智能体 MCP/工具产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

Auto Exacto：自适应质量路由，默认开启

Auto Exacto 每隔5分钟根据吞吐量、工具调用遥测数据和基准分数重新评估提供商。对于包含工具的请求，该功能默认开启。

智能体 MCP/工具产品更新部署/工程

08:00

OpenRouter：Announcements（RSS）

Auto Exacto：自适应质量路由，现已默认开启

Auto Exacto 功能现已默认开启，尤其适用于包含工具调用的请求。该系统每 5 分钟对服务提供商进行一次全面重评估，评估维度包括吞吐量、工具调用遥测数据和基准测试分数。这一自适应路由机制旨在根据实时性能数据，自动将请求导向当前最优的模型提供商。

MCP/工具产品更新部署/工程

00:00

Anthropic：Newsroom（网页）

Anthropic投资1亿美元成立Claude合作伙伴网络

Anthropic宣布投入1亿美元成立Claude合作伙伴网络，为帮助企业采用Claude的合作伙伴提供培训、技术支持和联合市场开发。该网络免费开放，合作伙伴可获得Claude Certified Architect等技术认证，并优先使用代码现代化入门套件。Anthropic还将合作伙伴支持团队扩大五倍，配备Applied AI工程师和技术架构师，协助企业完成从概念验证到生产部署的过渡。

智能体 Anthropic 行业动态部署/工程