Cursor团队以构建软件产品的方式迭代优化其智能体工具链，核心围绕上下文窗口的演进。早期模型能力有限，工具链依赖大量静态上下文和防护机制；随着模型能力提升，团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合：通过CursorBench等基准测试进行标准化质量评估，同时进行线上A/B测试，使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误，以应对日益复杂的工具链状态。

智能体 Anthropic OpenAI 教程/实践

推荐理由：Cursor 这篇 agent harness 复盘是今年聊 agent 基础设施最好的文章之一，从上下文管理到多 agent 调度，全是实战迭代的血泪经验，做 agent 的团队该逐字读。

10:43

智谱：研究（网页内嵌数据）

精选55

超大规模编码代理推理实践

在超大规模编码代理推理中，乱码和生僻字异常伴随低spec_accept_length，复读异常伴随高spec_accept_rate，均因KV Cache状态偏差导致。通过修复KV Cache竞态和加载时序缺失，引入显式同步约束及分层存储优化，提升了推理稳定性和效率。

编码论文/研究部署/工程

推荐理由：智谱公开了超大规模Coding Agent推理的工程细节，KV Cache竞态的修复和分层存储方案可以直接用，做Agent infra的值得收藏。

08:30

公众号：智谱（GLM）

Scaling Pain：智谱GLM超大规模Coding Agent推理实践

智谱GLM的超大规模Coding Agent推理实践，聚焦Scaling Pain（扩展痛点）及其应对经验。

推理教程/实践部署/工程

07:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

为智能时代构建计算基础设施：OpenAI 扩展 Stargate 以支撑 AGI 发展

OpenAI 正在扩展其代号为“Stargate”的计算基础设施项目，旨在为通用人工智能（AGI）的研发提供核心算力支持。该项目通过增加新的数据中心容量，以应对全球范围内持续增长的 AI 算力需求。这一举措标志着 OpenAI 在构建下一代大规模计算集群方面进入实质性推进阶段，旨在为未来 AGI 系统所需的巨大计算资源打下硬件基础。

OpenAI 行业动态部署/工程

推荐理由：这不是模型发布，但算力扩张才是 AGI 竞赛的真正底层，数据中心扩容直接关系到下一代模型能不能训出来，做基础设施的可以盯一下供应链。

02:43

LMSYS：Blog（Chatbot Arena 团队）

精选74

秒级更新万亿参数--大规模分布式强化学习中的点对点权重传输技术

LMSYS团队针对SGLang中的强化学习工作负载，提出了一种基于RDMA的点对点权重更新机制，作为传统NCCL广播方法的补充。该设计利用源端CPU引擎副本和Mooncake TransferEngine进行P2P RDMA传输，将拥有1T参数的Kimi-K2模型的权重传输时间从53秒大幅缩短至7.2秒，提速7倍。其代价是每个训练等级需在CPU内存中额外占用一个32G的推理引擎副本。此优化最大限度地减少了网络冗余，允许推理服务器更快恢复rollout过程，且兼容所有主流开源模型。

智能体开源生态论文/研究部署/工程

推荐理由：LMSYS 把分布式 RL 训练的权重同步从 NCCL 广播改成 RDMA P2P，1T 参数模型传输快了 7 倍，做大规模 RL infra 的团队该认真看看这个工程方案。

02:36

Cloudflare Blog

精选65

Agents 现可创建 Cloudflare 账户、购买域名并部署

Cloudflare 宣布 AI 代理现可作为独立客户直接使用其服务。代理能够自主创建 Cloudflare 账户、开通付费订阅、注册域名，并立即获取 API 令牌以部署代码。人类用户可保留授权监督权限，但无需手动操作控制台、复制粘贴 API 令牌或输入信用卡信息。这一更新使代理能够以自动化流程完成从账户开设到服务部署的全链路操作。

智能体产品更新部署/工程

推荐理由：Cloudflare 把 AI 代理当成真正客户，从注册到部署一气呵成，这比给个 API 更彻底，做 agent 框架的同学该看一眼。

00:39

Google Developers Blog（RSS）

精选57

加速AI：通过GCSFS和Rapid Bucket将Google Colossus引入PyTorch

Google Cloud推出了一项高性能集成方案，通过fsspec接口将Rapid Storage直接连接至PyTorch，以消除AI训练瓶颈。该方案利用Google的Colossus架构和双向gRPC流技术，可提供高达15 TiB/s的聚合吞吐量，并显著降低延迟。开发者仅需更新存储桶类型而无需修改代码，即可将总训练时间缩短23%。

Google 产品更新部署/工程

推荐理由：Google 把自家 Colossus 存储架构直接接进 PyTorch，号称零代码改动提速 23%，做大规模训练的团队值得评估一下，但对大多数人来说这更像 GCP 的护城河加固。

00:39

Hugging Face：Blog（RSS）

DeepInfra 登陆 Hugging Face 推理服务提供商 🔥

DeepInfra 作为高性能、低成本的推理服务提供商，现已在 Hugging Face 平台正式上线。该服务支持众多开源模型，包括 LLaMA、Mistral 等系列，并提供按需付费的灵活计费模式。其 GPU 实例涵盖 H100、A100 等多种型号，显著降低了 AI 模型部署与调用的门槛，进一步推动了开源人工智能技术的普及与应用。

Hugging Face 行业动态部署/工程

4月29日

20:00

OpenRouter：Announcements（RSS）

OpenRouter 集成 Stripe Projects，支持通过 CLI 一行命令创建账户并获取 API 密钥与计费

运行 stripe projects add openrouter/api 即可从命令行获取 OpenRouter 账户、API 密钥和 Stripe 计费，AI 智能体同样可以执行此操作。

智能体产品更新部署/工程

20:00

OpenRouter：Announcements（RSS）

精选60

OpenRouter 推出 CLI 创建账户功能，集成 Stripe 计费

运行 stripe projects add openrouter/api 即可从命令行创建 OpenRouter 账户、获取 API 密钥并配置 Stripe 计费。AI 智能体同样可自动化完成该操作，无需手动注册。

智能体产品更新部署/工程

推荐理由：OpenRouter 把注册和计费全塞进一条 CLI 命令，Stripe Projects 加持，agent 都能自己开户了，重度 API 玩家可以省点事，不过就一工具链缝合，不打开也知道。

20:00

OpenRouter：Announcements（RSS）

精选65

通过 Stripe Projects 命令行创建 OpenRouter 账户

运行 stripe projects add openrouter/api 命令，即可直接从命令行创建 OpenRouter 账户、获取 API 密钥并开通 Stripe 计费功能。该操作支持自动化代理执行，实现了账户开通与支付配置的一站式集成。

产品更新部署/工程

推荐理由：OpenRouter 把账户创建搬到了 CLI，你的 agent 也可以直接开号了，这对于需要自动化计费流程的开发者是个便利小更新，但普通用户几乎感受不到变化。

19:07

公众号：通义实验室（千问）

FlashQLA：让 Qwen 的注意力层跑得更快

开源/仓库推理部署/工程

06:35

Claude Code：GitHub Releases（RSS）

版本v2.1.122更新摘要

本次更新主要新增了通过环境变量选择Bedrock服务层级的功能，并支持在/resume搜索框粘贴PR链接以定位创建该PR的原始会话。同时修复了多项关键问题：修正了源会话含时间线回退条目时，/branch命令可能创建失败分支的问题；解决了发送给新版模型的图像被错误调整为2576px（应为2000px上限）的问题；增强了OpenTelemetry日志记录，确保数字属性以数值类型输出；并修复了Vertex AI/Bedrock在生成会话标题等场景下可能返回无效请求错误的问题。此外，还包含对MCP工具显示、CLI命令退出行为等多项细节的优化与修正。

Anthropic MCP/工具产品更新部署/工程

01:11

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选71

OpenAI模型、Codex与托管智能体登陆AWS平台

OpenAI的GPT系列模型、代码生成模型Codex以及托管智能体现已正式上线亚马逊云科技。企业用户可直接在AWS环境中集成并调用这些AI服务，基于自身云基础设施构建安全、可控的定制化人工智能应用。此次合作将OpenAI的前沿模型能力与企业级云环境的安全性和可扩展性相结合，为企业部署生成式AI与自动化智能体提供了新的平台选择。

OpenAI 行业动态部署/工程

推荐理由：OpenAI 终于上了 AWS，这意味着大量被云锁定的企业不用再绕道 API，直接在自家环境里跑 GPT 和 Codex，对做企业级 AI 产品的人来说是个真信号。

4月28日

23:39

Mistral AI：News（网页）

Mistral AI 发布 Workflows 公开预览版，为企业AI工作流提供编排支持

Mistral AI 正式推出 Workflows 公开预览版，该产品定位为企业AI的编排层，旨在通过提供持久性、可观察性和容错性，帮助AI驱动的工作流从概念验证可靠过渡到生产环境。它集成于Studio平台，允许开发者用Python编写工作流，并可发布至Le Chat供组织成员触发。其核心功能包括持久化执行（支持从断点恢复）、完整的步骤跟踪与审计，以及通过 wait_for_input() 等方法实现人工介入审批。目前已有ASML、ABANCA等企业客户使用其自动化货物放行、文档合规检查等关键业务流程，将原本耗时数小时的人工操作缩短至几分钟。

智能体产品更新部署/工程

19:07

Qwen：Blog Retrieval（API）

精选57

FlashQLA：面向GDN的CP-/Bwd友好型融合线性注意力内核

FlashQLA 发布了一组专为梯度下降网络优化的融合线性注意力内核。新内核在设计上对计算模式和后向传播更加友好，旨在提升训练效率。该技术通过优化内核融合策略，改进了注意力机制的计算性能，是提升大规模模型训练速度的关键底层优化。

数据/训练论文/研究部署/工程

推荐理由：Qwen 团队发了一篇 fused linear attention 内核的工程论文，目标是把 GDN 架构的推理和反向传播都跑快。做底层优化的工程师值得看一眼，普通开发者可以略过。

12:34

Tomer Tunguz 博客（VC 分析）

精选64

GPU现货价格六周内暴涨114%

根据Ornn Compute Price Index数据，NVIDIA B200 GPU的现货租赁价格在六周内飙升114%，从三月初的2.31美元涨至本周的4.95美元/小时。此次价格暴涨与GPT-5.5等前沿模型发布带来的需求冲击紧密相关，这些模型需要Blackwell架构提供的内存支持。与此同时，B200与上一代H200的价差从0.28美元大幅扩大至1.80美元，不同云服务商之间的报价差距也扩大了一倍以上，反映出市场供应紧张。预计夏季B200价格将维持在5美元以上，云端推理成本持续上升。

现象/趋势行业动态部署/工程

推荐理由：Tomer Tunguz 用 Ornn 真实价格指数拆出 B200 六周涨 114% 的供需逻辑，做 AI infra 选型或算力采购的人该把这张图存下来，夏天 B200 破 5 刀基本板上钉钉。

12:33

Runway：News（网页）

精选58

无闲置GPU：Runway的研究计算管理

Runway通过采用Kueue作为Kubernetes准入控制器，将GPU利用率提升超过20%，同时保障团队容量。其核心机制是为关键工作预留配额，并设立共享队列借用闲置容量，当配额所有者需要时通过抢占回收资源。该系统运行于昂贵的多租户GPU集群，支持多节点训练的拓扑感知调度和弹性工作负载。具体实现中，团队拥有专用预留队列，而默认队列作为共享机会池，可借用闲置配额运行可中断工作负载。当预留队列需资源时，Kueue基于优先级和运行时间抢占默认队列中的任务，实现资源高效管理。

教程/实践部署/工程

推荐理由：Runway 把 Kueue + Kubernetes 的 GPU 调度实战写成了保姆级工程笔记，利用率翻倍的方案和踩坑细节都有，做大规模训练集群调度的团队可以直接抄作业。

08:28

Hugging Face：Blog（RSS）

精选58

Adaptive Ultrasound Imaging with Physics-Informed NV-Raw2Insights-US AI

NVIDIA 在 Hugging Face 上发布了一款名为 NV-Raw2Insights-US 的物理信息人工智能模型，专门用于自适应超声成像。该模型能够直接处理原始超声射频数据，实时生成高质量的诊断图像。它通过结合物理定律与深度学习，显著提升了图像分辨率和对比度，同时将传统处理流程中的多个步骤整合为单一前向传播，大幅提高了计算效率。这一进展有望推动超声设备向更便携、智能和精准的方向发展。

具身智能论文/研究部署/工程

推荐理由：NVIDIA 把物理先验塞进超声成像管线，从原始射频数据直接出诊断结果，跳过传统重建步骤。做医疗 AI 的值得拆一下这个端到端思路，但离通用场景太远。

00:46

CMU：Machine Learning Blog

精选58

介绍ARFBench：基于真实事件的时间序列问答基准

每年系统故障导致损失超万亿美元，工程师需通过分析时间序列数据快速定位问题。时间序列问答（TSQA）是关键运维任务，对AI模型构成挑战。为此，研究团队推出ARFBench基准，基于Datadog真实内部事件及遥测数据构建。测试显示，当前领先的大型语言模型、视觉语言模型和时间序列基础模型在ARFBench上表现均有较大改进空间。团队提出混合TSFM-VLM模型，其整体性能接近前沿水平，为TSQA任务提供了新评估框架和改进方向。

论文/研究评测/基准部署/工程

推荐理由：CMU 和 Datadog 联手搞了个基于真实事故的时序问答基准，结论很诚实，现有模型全拉胯。做 SRE Agent 的团队该看看，这比合成数据的 benchmark 有说服力得多。

4月27日

23:58

GitHub Blog

精选79

GitHub Copilot 将转向基于使用量的计费模式

自6月1日起，GitHub Copilot 的使用将开始消耗 GitHub AI Credits，计费模式正式从固定订阅制转变为基于实际使用量的计费。这一变化意味着用户的费用将与 AI 助手的具体调用量直接挂钩，而非统一的月费或年费。

编码行业动态部署/工程

推荐理由：GitHub Copilot 从订阅制转向按量计费，这是 AI 编程工具定价范式的标志性拐点，所有重度用户和竞品都得重新算账。

22:28

Hugging Face：Blog（RSS）

如何利用OpenAI的Privacy Filter构建可扩展的Web应用

OpenAI正致力于通过开源与开放科学推动人工智能的进步与民主化。这一举措旨在降低AI技术的使用门槛，促进更广泛的创新与合作。其Privacy Filter工具为开发者提供了构建可扩展Web应用的关键支持，帮助在保障用户数据隐私的同时，高效集成AI能力。这一方向强调了技术开放性与负责任开发并重的理念。

OpenAI 教程/实践部署/工程

08:00

OpenRouter：Announcements（RSS）

Opus 4.7 的新 Tokenizer：它到底花了多少钱

Anthropic 在 Opus 4.7 中更换了 tokenizer。OpenRouter 通过对比用户从 Opus 4.6 迁移到 4.7 的实际使用数据，精确测量了 tokenizer 变更对成本的影响。

Anthropic 现象/趋势部署/工程

08:00

OpenRouter：Announcements（RSS）

精选57

Opus 4.7新分词器对成本的实际影响

Anthropic在Claude Opus 4.7版本中更新了分词器。通过对比4.6到4.7版本的实际使用数据，分析发现这一技术调整改变了文本转换为令牌的方式，直接影响API计价。相同的文本输入可能产生不同数量的令牌，从而导致用户的实际使用成本发生可量化的变化。这一调整虽不改变模型能力，但关乎运营开销，是开发者和企业用户需评估的关键因素。

Anthropic 评测/基准部署/工程

推荐理由：Opus 4.7 换了 tokenizer，大多数人只知道模型变强了，不知道计费逻辑也变了。OpenRouter 用真实流量数据算了一笔账，做成本预算的产品人值得扫一眼。

00:00

Mistral AI：News（网页）

为运营业务的工作打造的工作流 Workflows 现已进入公开预览。2026年4月27日 Mistral AI

Mistral AI 宣布其产品 Workflows 进入公开预览阶段。这是该公司提供的一款用于构建、测试和运行AI智能体与应用的工具，面向需要执行业务工作流的用户。

产品更新部署/工程

4月23日

08:00

Google Developers Blog（RSS）

精选59

使用 LiteRT 与 NPU 构建现实世界中的设备端人工智能

LiteRT 是一个生产就绪的框架，旨在帮助移动开发者充分发挥神经处理单元（NPU）的效能，以突破传统 CPU 或 GPU 在性能与电池续航上的瓶颈。该框架通过提供统一的 API 来屏蔽底层硬件复杂性，已成功助力 Google Meet、Epic Games 等行业领先者高效部署复杂的 AI 模型，实现实时视频处理、动画生成与语音识别等高级功能。此外，平台还提供基准测试工具并具备跨平台兼容性，能够支持 AI 应用无缝部署于移动设备、AI PC 及工业物联网硬件等多种终端。

Google 产品更新端侧部署/工程

推荐理由：Google 把 LiteRT 从实验品推到生产级，统一 NPU 调用 API，做端侧 AI 的开发者终于不用逐家适配芯片了。虽然不是新概念，但 Google Meet 和 Epic Games 已经在用，说明不是 PPT。

08:00

蚂蚁百灵：Developer Blog（网页）

精选67

Ling-2.6-flash 发布：更快响应、更强执行、更高 Token Efficiency

针对智能体任务中Token消耗快速增长的问题，Ling-2.6-flash模型正式发布。该模型采用混合线性架构等技术进行系统性优化，旨在实现更高推理效率和更低使用成本。其推理速度在4卡H20条件下最快可达340 tokens/s，在Artificial Analysis评测中仅消耗约对比模型1/10的Tokens。模型在多个Agent相关基准测试中达到同尺寸SOTA水平，保持了强大的任务执行与工具调用能力。

智能体模型发布部署/工程

推荐理由：蚂蚁百灵这次打的是「省 token」这张牌，104B 总参但只激活 7.4B，Agent 场景评测对齐同尺寸 SOTA，输出 token 消耗只有竞品的 1/10。做 Agent 产品、被推理成本卡脖子的团队值得认真看看这个路线。

4月22日