11月4日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选74

随着AI智能体通过模型上下文协议（MCP）连接的工具数量激增，传统预先加载所有工具定义并通过上下文传递中间结果的方法，导致处理速度变慢、成本增加。问题核心在于工具定义占用大量上下文空间，且中间结果（如完整会议记录）在多次工具调用间重复传递，额外消耗数万令牌。文章提出解决方案：将MCP服务器呈现为代码API，使智能体能按需加载工具，并在执行环境中处理数据，仅将精简结果传回模型，从而显著减少令牌消耗、提升效率并降低成本。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把 MCP 从「能连」推进到「连多了怎么办」，用代码执行替代直接工具调用，token 省 98.7% 这个数字不是吹的。做 Agent 工程的人如果还在暴力塞 tool definition，这篇是必读的架构升级指南。

11月3日

00:00

LMSYS：Blog（Chatbot Arena 团队）

精选

在 NVIDIA DGX Spark 上优化 GPT-OSS：实现本地大模型部署

与 NVIDIA 合作，在 DGX Spark 上通过 SGLang 成功支持 GPT-OSS 20B 与 120B 模型，实现 20B 版本约 70 tokens/s、120B 版本约 50 tokens/s 的生成速度，达到目前最优水平。用户可通过 Docker 部署 SGLang 服务，接入 Open WebUI 实现本地聊天，或借助 LMRouter 转换请求格式以完全本地化运行 Claude Code。该方案使在 DGX Spark 上部署多百亿参数本地编码智能体成为现实。

智能体 OpenAI 教程/实践端侧

推荐理由：DGX Spark本地跑通Claude Code完全离线，隐私敏感开发者的新选择

10月30日

00:00

Claude：Blog（网页）

精选

金融服务领域构建 AI 代理指南

Claude 发布金融服务 AI 代理构建指南，分享 NBIM、Brex 等机构实践。NBIM 员工每周节省数百小时，McKinsey 研究显示欺诈检测生产力可提升 200% 至 2000%。AI 代理能自主整合多源数据、执行跨系统操作，在合规框架下处理客户服务与风险分析，将传统分析工具升级为可独立完成交易的自主系统。

智能体 Anthropic 教程/实践

推荐理由：Anthropic官方分享金融AI智能体落地实践，含NBIM、Brex等真实案例与效率数据。

10月23日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 探讨隐式缓存是否等同于 ZDR

OpenRouter 在公告中提出问题：是否应将提供隐式缓存（implicit caching）的供应商视为“ZDR”？

教程/实践部署/工程

9月29日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体，焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息，包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长，模型回忆信息的准确性会下降。因此，上下文工程要求精心编排高价值信息，以有限的资源最大化产出期望结果，这已成为构建高性能、可操控智能体的关键。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 亲自下场定义 context engineering 这个新范式，把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt，这篇会让你重新审视整个技术栈。

9月11日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体（如Claude Code）协作，采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括：选择适当的工具实现范围，使用命名空间明确功能边界，从工具向智能体返回有意义的上下文，优化响应以提高token效率，以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约，设计应优先考虑智能体的使用体验，而非传统开发者导向的API思路，以扩大智能体解决实际任务的能力。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了，从评估流程到 prompt 工程细节全是实操干货，做 MCP server 或 agent 工具链的人可以直接抄作业。

9月10日

15:01

Thinking Machines Lab：官方博客（RSS）

精选60

破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础，但即使在温度设为0的贪心采样下，ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于：部分GPU内核是非确定性的，但LLM前向传播使用的内核均为确定性；推理服务器前向传播本身是确定性的，用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解，并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由：Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size，并给出了可落地的 batch-invariant 内核实现，做推理部署和 RL 的工程师都该看看。

8月28日