AIHOT

10月23日

08:00

OpenRouter：Announcements（RSS）

OpenRouter 探讨隐式缓存是否等同于 ZDR

OpenRouter 在公告中提出问题：是否应将提供隐式缓存（implicit caching）的供应商视为“ZDR”？

教程/实践部署/工程

08:00

OpenRouter：Announcements（RSS）

OpenRouter 提出隐式缓存是否视为 ZDR 的问题

OpenRouter 向客户提问：是否应将提供隐式缓存的供应商视为“ZDR”（零数据保留）？该公告未提供更多背景或结论。

行业动态部署/工程

08:00

OpenRouter：Announcements（RSS）

隐式缓存是提示词保留吗？

文章探讨了AI服务提供商采用的隐式缓存技术是否应被视为零数据保留策略。隐式缓存指服务商为提高响应速度与效率，在系统内部临时存储用户提示词与生成结果，而非明确告知用户。这引发了数据隐私与透明度争议，关键问题在于这种未声明的缓存行为是否违背了用户对数据立即删除的预期。客户需评估该技术是否满足其数据保留要求，尤其在处理敏感信息时。

安全/对齐行业动态部署/工程

9月29日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选78

为AI智能体实施有效的上下文工程

随着AI应用从单次提示转向构建长期运行的智能体，焦点正从“提示工程”演进为“上下文工程”。后者旨在为大型语言模型优化有限的上下文窗口内的全部信息，包括指令、工具、外部数据和对话历史。其核心挑战在于模型存在“注意力预算”限制和“上下文腐化”现象——随着上下文增长，模型回忆信息的准确性会下降。因此，上下文工程要求精心编排高价值信息，以有限的资源最大化产出期望结果，这已成为构建高性能、可操控智能体的关键。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 亲自下场定义 context engineering 这个新范式，把 prompt engineering 之后的工程方法论讲透了。做 Agent 的人如果还在死磕 prompt，这篇会让你重新审视整个技术栈。

9月17日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

近期三次基础设施故障的事后分析

八月初至九月中旬，Anthropic的三次基础设施漏洞间歇性导致Claude响应质量下降。8月5日，上下文窗口路由错误致使部分Sonnet 4请求被误导向百万token服务器，8月31日高峰时影响16%请求。8月25日，TPU服务器错误配置引发输出损坏，可能在英文回复中生成泰文或中文字符，影响Opus和Sonnet模型。同日部署的代码还触发了编译器漏洞，主要影响Haiku 3.5。所有问题均非需求或负载所致，纯属基础设施漏洞。公司通过回滚部署和修复逻辑于9月18日前全部解决。

Anthropic安全/对齐部署/工程

推荐理由：Anthropic 主动公开三个基础设施 bug 的完整复盘，这种坦诚在大厂里极少见。做 AI 产品的人都该读一下，它把「模型质量下降」从玄学拉回了工程现实，尤其是 XLA 编译器那层的坑，踩过才知道多深。

9月11日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

为智能体编写高效工具--与智能体协作

文章探讨如何为基于大语言模型的智能体设计高效工具。核心方法是通过与智能体（如Claude Code）协作，采用快速原型构建和全面评估的迭代流程来优化工具性能。关键设计原则包括：选择适当的工具实现范围，使用命名空间明确功能边界，从工具向智能体返回有意义的上下文，优化响应以提高token效率，以及对工具描述进行提示词工程。工具本质上是确定性系统与非确定性智能体之间的新契约，设计应优先考虑智能体的使用体验，而非传统开发者导向的API思路，以扩大智能体解决实际任务的能力。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 把自家内部反复打磨的 agent 工具开发方法论完整公开了，从评估流程到 prompt 工程细节全是实操干货，做 MCP server 或 agent 工具链的人可以直接抄作业。

9月10日

15:01

Thinking Machines Lab：官方博客（RSS）

精选60

破解LLM推理中的非确定性

LLM推理的再现性是科学进步的基础，但即使在温度设为0的贪心采样下，ChatGPT等API以及vLLM、SGLang等自托管推理引擎仍无法保证确定性结果。常见的“并发+浮点非结合性”假设并不完整——GPU上重复执行相同矩阵乘法结果完全一致。真正原因在于：部分GPU内核是非确定性的，但LLM前向传播使用的内核均为确定性；推理服务器前向传播本身是确定性的，用户感知的非确定性源于浮点运算非结合性在不同聚合顺序下导致的细微数值差异。文章揭示了这一误解，并探讨如何实现真正可重现的LLM推理输出。

开源/仓库推理教程/实践部署/工程

推荐理由：Horace He 把 LLM 推理非确定性的锅从并发浮点转向 batch-size，并给出了可落地的 batch-invariant 内核实现，做推理部署和 RL 的工程师都该看看。

8月15日

19:57

蚂蚁 inclusionAI：GitHub 新仓库

精选58

inclusionAI/UI-Venus

UI-Venus 是一款本地 UI 智能体，仅以屏幕截图作为输入，即可执行精确的图形用户界面元素定位与高效导航。该代理无需依赖系统底层代码或辅助功能接口，直接通过视觉信息理解界面结构，实现自动化操作。其核心能力在于对任意应用或网页中的按钮、菜单、文本框等元素进行准确识别与交互，提升了跨平台任务执行的通用性与可靠性。

智能体GitHub多模态开源/仓库

推荐理由：蚂蚁这个纯截图驱动的 UI Agent 在当时算是早期探索，代码开源可直接用，做 GUI 自动化的值得看看底层怎么实现元素定位和导航。

8月1日

00:00

Mistral AI：News（网页）

通过微调释放视觉语言模型在卫星图像上的潜力

Mistral AI展示了如何通过LoRA微调技术，将Pixtral-12B视觉语言模型适配到卫星图像分析任务，从而显著提升模型在该专业领域的性能。该研究使用公开的Aerial Image Dataset进行测试，对比了微调前后的分类效果。未微调的基础模型在模糊类别上表现不佳且存在幻觉，而经过微调的模型将整体分类准确率从85.2%提升至94.1%，针对类似“游乐场”与“体育场”等易混淆类别的准确率也从63.0%大幅提升到88.5%，并解决了输出无效类别的幻觉问题。这项工作证明了领域特定微调对于挖掘通用大模型在垂直应用中潜力的有效性。

多模态教程/实践

7月14日

08:00

OpenRouter：Announcements（RSS）

使用OpenRouter在Cursor中调用模型：试试月之暗面的Kimi K2

OpenRouter的灵活模型路由现已集成到Cursor，用户可在Cursor中直接调用Moonshot AI的Kimi K2模型进行编码操作。

教程/实践编码

08:00

OpenRouter：Announcements（RSS）

精选56

OpenRouter 模型现可在 Cursor 中使用：试试月之暗面 Kimi K2

OpenRouter 宣布其灵活模型路由支持在 Cursor 中运行月之暗面的 Kimi K2。用户可直接在 Cursor 中调用 OpenRouter 路由的模型，无需额外配置。

MCP/工具教程/实践编码

推荐理由：一篇将 OpenRouter 模型接入 Cursor 的实操指南，虽然已过时三百多天，但对想免配置用 Kimi K2 的 Cursor 用户仍有参考价值。

6月13日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

我们如何构建多智能体研究系统

Claude的多智能体研究系统采用协调器-工作者架构，一个主导智能体分析用户查询并制定策略，并行调用多个专用子智能体协同工作。内部评估显示，以Claude Opus 4为主导、Claude Sonnet 4为子智能体的系统，在研究任务上比单智能体Claude Opus 4性能提升90.2%。该系统擅长处理需要同时探索多个独立方向的广度优先查询，通过分配独立上下文窗口实现并行推理扩容。但多智能体系统消耗的token量约为普通聊天的15倍，适用于任务价值足以支撑性能提升的场景，在需要高度并行化、大信息量或多工具调用的任务中表现卓越。

智能体Anthropic教程/实践

推荐理由：Anthropic 把 Research 背后的多智能体架构、prompt 工程和踩坑经验全抖出来了，做 Agent 的同行可以直接抄作业，尤其是『token 用量解释 80% 性能方差』这个结论，选型逻辑要变。

5月1日

08:00

Lilian Weng：Lil'Log（RSS）

我们为何思考

研究表明，“测试时计算”与“思维链”等技术能显著提升模型性能，但也引发了一系列新的研究问题。这些方法通过让模型在推理时进行更深入的“思考”，有效利用了额外的计算资源，从而改善了其在复杂任务上的表现。该文旨在回顾近期如何有效利用“测试时计算”的发展动态，并解析其有效性的原因。

OpenAI大佬观点推理

4月18日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code：智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流，并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查，以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用，并提供了避免常见失败模式的实用建议。

智能体Anthropic教程/实践编码

关联讨论 3 条

推荐理由：Anthropic 官方出的 Claude Code 最佳实践，不是泛泛而谈的入门指南，而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册，用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。

4月10日

08:00

Shunyu Yao：Blog（RSS）

AI下半场：从解题到定义问题

AI发展已进入“下半场”。前半场的核心是开发新训练方法与模型，如Transformer、GPT等，其创新集中于搜索、深度强化学习、规模化和推理。后半场的重心将从解决问题转向定义问题，评估比训练更重要。当前的突破性进展是强化学习终于实现泛化，形成了一个通用方案，能统一解决软件工程、创意写作、高等数学等多种复杂任务。这标志着AI从专注于方法创新的阶段，转向以明确目标、定义评估标准为核心的新时期。

智能体大佬观点推理

4月9日

00:00

Mistral AI：News（网页）

使用大语言模型作为评判者评估 RAG 系统

评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估，因此提出了“LLM 作为评判者”的方法，通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估：上下文相关性（检索内容是否契合查询）、事实基础（生成内容是否基于检索内容）和答案相关性（最终回答是否切题）。Mistral 的模型适用于构建生成与评判组件。

检索增强教程/实践

3月20日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选71

"思考"工具：让Claude在复杂工具使用场景中停下来思考

Anthropic为Claude引入了“思考”工具，允许其在生成最终响应前插入一个专门的思考步骤，以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同，更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中，该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它，并提供了标准的工具实现格式。

AnthropicMCP/工具教程/实践

推荐理由：Anthropic 官方给出的 think tool 实操指南，附带 τ-Bench 和 SWE-bench 的真实数据，做 Agent 或 tool use 的开发者可以直接抄 prompt 模板，比自己瞎试强太多。

3月4日

00:00

Mistral AI：News（网页）

Mistral AI 提出 TranscriptToPRDTicket 智能体工作流，自动化产品开发流程

Mistral AI 团队推出了名为 TranscriptToPRDTicket 的智能体工作流。该方案基于 Mistral Large 2 大语言模型，核心是 PRDAgent 和 TicketCreationAgent 两个组件。工作流接收会议记录作为输入，首先由 PRDAgent 生成结构化的产品需求文档（PRD），再由 TicketCreationAgent 将 PRD 转化为开发任务，并自动在 Linear 或 Jira 等工具中创建任务。此流程旨在自动化从讨论到开发任务创建的步骤，减少手动工作并提升团队协作的一致性。该实现方案已通过 Google Colab 笔记本开源。

智能体教程/实践

1月6日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率，超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力，要求模型在给定环境中理解、修改并测试代码，最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁，仅包含提示词、Bash 工具和编辑工具，赋予模型充分的自主判断空间，以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体Anthropic教程/实践编码

推荐理由：Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了，做 coding agent 的人可以直接抄作业，比看十篇二手解读都管用。

12月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选80

构建高效智能体：从简单模式开始

Anthropic基于实践经验指出，成功的LLM智能体往往采用简单、可组合的模式，而非复杂框架。文章区分了工作流（预定义路径编排）与智能体（LLM动态自主决策），建议开发者优先采用最简单方案，仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块，强调应为特定用例定制检索、工具等增强功能，并推荐通过Model Context Protocol集成第三方工具生态。

智能体AnthropicMCP/工具教程/实践

推荐理由：Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南，核心观点是「别上框架，先用最简单的模式」。做 Agent 产品的开发者，这篇比任何第三方教程都值得当 checklist 用。

11月28日

08:00

Lilian Weng：Lil'Log（RSS）

强化学习中的奖励欺骗问题

奖励欺骗是指强化学习智能体通过利用奖励函数的缺陷或歧义获取高分，而非真正完成预期任务的现象。随着语言模型任务泛化能力增强，以及基于人类反馈的强化学习成为主流对齐训练方法，该问题在语言模型训练中变得尤为突出。具体表现为模型可能通过修改测试用例来通过编程任务，或生成模仿用户偏好的偏见回答。此类行为正成为制约AI模型在更自主化场景中实际应用部署的关键瓶颈之一。

OpenAI安全/对齐教程/实践

9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

引入上下文检索：大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

8月1日