5月1日

02:15

Claude：Blog（网页）

精选64

Claude Code 团队分享了大规模优化提示缓存的核心策略。提示缓存基于前缀匹配工作，能显著降低延迟与成本，高命中率还能支持更宽松的订阅速率限制。关键实践包括：将静态系统提示和工具定义置于提示词前端以最大化共享前缀；通过消息而非修改提示词来传递更新信息，避免缓存失效；在会话中不切换模型、不增删工具，以维持缓存前缀稳定。此外，针对工具过多或“计划模式”等场景，可通过发送轻量存根或设计专用工具来规避缓存失效，从而在复杂功能中持续利用缓存优势。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Claude Code团队把提示缓存的坑和优化方法全盘托出，从提示顺序、工具加载到压缩技巧，每一个经验都是钱和延迟换来的，做agent的同行可以直接拿去做架构参考。

02:13

Ant Ling@AntLingAGI

精选76

AntLingAGI团队宣布Ling-2.6-1T模型正式开源，已登陆Hugging Face平台，并通过Novita Labs提供官方推理体验。该模型采用混合专家架构，总参数1万亿、激活参数630亿，核心优化方向为"令牌效率"以满足真实生产需求。具体表现为：低令牌开销，能在无需冗长推理链的情况下保持强大智能；可靠的多步执行能力，提升指令、工具、上下文和工作流的控制水平；生产就绪的部署特性，覆盖从代码生成到错误修复的任务，并广泛兼容各类智能体框架。团队旨在通过降低测试、部署、定制和构建的难度，为开发者创造价值。

Ant Ling: Last week, we introduced Ling-2.6-1T. Today, Ling-2.6-1T is officially an open model~ 🤗 1T total parameters · 63B activ...

智能体 Hugging Face 模型发布部署/工程

推荐理由：1T参数开源模型不是天天有，蚂蚁这个Ling-2.6-1T强调token效率和Agent能力，做Agent的可以直接去Hugging Face上跑一下，看看是不是真的在生产环境省token。

02:00

OpenRouter：Announcements（RSS）

精选58

OpenRouter 推出 Response Caching：相同请求零成本缓存

OpenRouter 新增 Response Caching 头部，用于缓存完全相同的 API 请求，使后续请求的响应时间大幅缩短，且缓存调用完全免费。

产品更新部署/工程

推荐理由：OpenRouter 这波缓存功能很实在，相同请求零费用，对频繁调用的开发者是省钱利器。可惜 42 天前的东西，现在只能当文档翻翻。

02:00

OpenRouter：Announcements（RSS）

OpenRouter 响应缓存：相同请求零成本

OpenRouter 推出 Response Caching header，允许缓存相同的 API 请求，使响应时间缩短至极小，且完全零成本。

产品更新部署/工程

02:00

OpenRouter：Announcements（RSS）

精选59

Response Caching：相同请求零成本

新推出的 Response Caching 头部实现了 API 请求的缓存机制，完全相同的请求可获得缓存响应，响应时间大幅缩短至微乎其微的水平，且不会产生额外成本。该功能通过自动识别并复用已生成的响应，显著提升了重复请求的处理效率。

产品更新部署/工程

推荐理由：OpenRouter 这次更新的响应缓存，直接让相同请求免费用，对频繁调用的场景是个省钱加速的好功能，用过 API 的人都能立刻明白它的价值。

01:15

Claude@claudeai

Claude Security 现已面向 Claude Enterprise 客户开启公开测试版。 Claude 会扫描您的代码库以查找漏洞，验证每个发现以减少误报，并建议您可以审查和批准的补丁。

Anthropic 产品更新安全/对齐部署/工程

4月30日

23:43

TestingCatalog News 🗞@testingcatalog

Manus AI宣布推出Cloud Computer，这是一种作为基础设施的、7x24小时持续运行的云端计算机。用户可通过它托管Discord和Telegram的持久运行机器人，构建持久知识库，部署并托管任何开源工具，运行定时网络爬虫，以及使用命令行开发者工具。该服务现已面向付费个人用户开放网页版和移动版访问，团队计划即将推出。

Manus: Read the full launch post for everything you can build with your Cloud Computer! Team plan coming soon! https://manus.im...

智能体产品更新部署/工程

23:14

Ethan Mollick@emollick

我越来越认为，我们将看到前沿模型API与前沿实验室原生应用（如Codex、Claude Code）之间的能力差距。针对其原生框架开发和训练的模型，在其框架内具备更多功能。

智能体大佬观点部署/工程

23:10

IT之家（RSS）

三星和 SK 海力士纷纷警告：AI 导致的内存短缺问题可能持续至 2027 年及以后

三星电子和SK海力士两大存储巨头相继预警，由人工智能基础设施建设拉动的存储芯片严重短缺局面将至少持续至2027年，甚至可能延续到2030年。短缺的核心是高带宽内存（HBM），其制造难度大、产能受限，需求增速远超产能扩建速度。资源向高利润的AI存储产品倾斜，已开始影响服务器、PC等普通DRAM的供给。尽管厂商正大幅投资扩产，但产能爬坡需时数年，难以追上AI需求增长。此次短缺推动厂商业绩飙升，三星半导体部门2026年第一季度营业利润达53.7万亿韩元，其中约94%来自AI存储芯片。

行业动态部署/工程

20:10

ginobefun@hongming731

京东广告发布GRAM架构，用大模型知识工程突破推荐瓶颈

京东广告团队推出GRAM架构，旨在通过大模型原生知识工程解决传统CTR模型的瓶颈。该架构构建了毫秒级查询的级联知识图谱，将商品属性与业务规则作为“事实护栏”注入，以杜绝AI幻觉，确保推荐符合现实。它颠覆了依赖历史数据的冷启动模式，即使零销量新品也能通过知识网络的高维特征关联实现精准分发。同时，GRAM将企业内隐知识结构化作为上下文，使大模型能进行复杂的深度决策，而非仅计算曝光。

教程/实践数据/训练部署/工程

20:00

Cursor Blog

精选55

持续优化智能体工具链：上下文演进与效果评估

Cursor团队以构建软件产品的方式迭代优化其智能体工具链，核心围绕上下文窗口的演进。早期模型能力有限，工具链依赖大量静态上下文和防护机制；随着模型能力提升，团队已转向提供更多动态上下文获取方式并移除限制。评估改进效果采用线上线下结合：通过CursorBench等基准测试进行标准化质量评估，同时进行线上A/B测试，使用“代码保留率”和用户反馈语义分析衡量真实场景表现。团队持续监控并修复工具调用错误，以应对日益复杂的工具链状态。

智能体 Anthropic OpenAI 教程/实践

推荐理由：Cursor 这篇 agent harness 复盘是今年聊 agent 基础设施最好的文章之一，从上下文管理到多 agent 调度，全是实战迭代的血泪经验，做 agent 的团队该逐字读。

18:39

Alibaba Cloud@alibaba_cloud

HiClaw v1.1.0 现已发布！🚀 🔹 K8s 原生：具备高可用和 RBAC 的生产就绪 Helm chart。 🔹 Hermes 支持：自主编码代理作为一等工作者。 🔹 轻量化：镜像大小减少约 1.7GB。 🔹 企业就绪：多租户隔离与可插拔存储。立即升级以获得可扩展的 AI 编排能力！了解更多：https://int.alibabacloud.com/m/1000412675/ #HiClaw #Kubernetes #AI

智能体产品更新部署/工程

17:10

IT之家（RSS）

快手推出 AI 桌面智能体 KroWork，支持通过自然语言生成本地应用

快手于4月30日发布AI桌面智能体KroWork。用户可通过自然语言指令驱动AI完成文件处理、浏览器自动化等任务，并能将重复性工作流固化为本地桌面应用，实现零token消耗、输出稳定且保障数据安全。该产品面向市场营销、财务等非技术用户，集成Qwen、Kimi等主流模型，支持沙箱执行和权限管控，旨在降低软件开发门槛，让个人能将日常需求转化为桌面工具。

智能体产品更新端侧部署/工程

16:09

meng shao@shao__meng

OpenAI 把 Responses API 提速 40%：为什么 Agent 时代，API 本身成了瓶颈？

OpenAI 最新工程博客指出，随着 GPT-5/5.2 及 Codex-Spark 等模型推理速度大幅提升（目标超1000 TPS），传统请求-响应 API 框架的固定开销成为 Agent 工作流的主要瓶颈。为此，OpenAI 为 Responses API 引入了 WebSocket 模式，通过保持长连接、在内存中缓存对话状态和已渲染 token，实现了跨工具调用的状态复用，避免了每次交互都重复预处理完整历史。此举使端到端延迟降低最多 40%，让 Codex-Spark 能稳定实现 1000 TPS 并峰值达 4000 TPS，显著提升了 Vercel AI SDK、Cline 和 Cursor 等集成的体验。

OpenAI Developers: ⚙️ We made agent loops faster with WebSockets in the Responses API As Codex got faster, the bottleneck moved from infere...

智能体 OpenAI 教程/实践部署/工程