6月13日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选73

Claude的多智能体研究系统采用协调器-工作者架构，一个主导智能体分析用户查询并制定策略，并行调用多个专用子智能体协同工作。内部评估显示，以Claude Opus 4为主导、Claude Sonnet 4为子智能体的系统，在研究任务上比单智能体Claude Opus 4性能提升90.2%。该系统擅长处理需要同时探索多个独立方向的广度优先查询，通过分配独立上下文窗口实现并行推理扩容。但多智能体系统消耗的token量约为普通聊天的15倍，适用于任务价值足以支撑性能提升的场景，在需要高度并行化、大信息量或多工具调用的任务中表现卓越。

智能体 Anthropic 教程/实践

推荐理由：Anthropic 把 Research 背后的多智能体架构、prompt 工程和踩坑经验全抖出来了，做 Agent 的同行可以直接抄作业，尤其是『token 用量解释 80% 性能方差』这个结论，选型逻辑要变。

5月1日

08:00

Lilian Weng：Lil'Log（RSS）

我们为何思考

研究表明，“测试时计算”与“思维链”等技术能显著提升模型性能，但也引发了一系列新的研究问题。这些方法通过让模型在推理时进行更深入的“思考”，有效利用了额外的计算资源，从而改善了其在复杂任务上的表现。该文旨在回顾近期如何有效利用“测试时计算”的发展动态，并解析其有效性的原因。

OpenAI 大佬观点推理

4月18日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选77

Claude Code：智能体编码最佳实践指南

Claude Code 提供了一套完整的智能体编程工具与框架。其核心遵循“先探索、再计划、后编码”的工作流，并通过配置 CLAUDE.md 文件、管理权限和连接 MCP 服务器来优化环境。最佳实践强调为 Claude 提供工作验证方法、积极管理上下文、使用子代理进行调查，以及利用检查点回退来处理复杂任务。文档还详细介绍了在 VS Code、JetBrains IDE、Slack 及 CI/CD 中的集成使用，并提供了避免常见失败模式的实用建议。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 官方出的 Claude Code 最佳实践，不是泛泛而谈的入门指南，而是从 CLAUDE.md 配置到 subagent 编排的完整工程手册，用 Claude Code 做日常开发的人直接照抄就能少踩一半坑。

4月10日

08:00

Shunyu Yao：Blog（RSS）

AI下半场：从解题到定义问题

AI发展已进入“下半场”。前半场的核心是开发新训练方法与模型，如Transformer、GPT等，其创新集中于搜索、深度强化学习、规模化和推理。后半场的重心将从解决问题转向定义问题，评估比训练更重要。当前的突破性进展是强化学习终于实现泛化，形成了一个通用方案，能统一解决软件工程、创意写作、高等数学等多种复杂任务。这标志着AI从专注于方法创新的阶段，转向以明确目标、定义评估标准为核心的新时期。

智能体大佬观点推理

4月9日

00:00

Mistral AI：News（网页）

使用大语言模型作为评判者评估 RAG 系统

评估 RAG 系统需同时验证检索相关性和生成准确性。传统方法难以全面评估，因此提出了“LLM 作为评判者”的方法，通过一个“法官 LLM”依据量表对“生成器 LLM”的输出进行评分。评估框架 RAG Triad 从三个维度进行综合评估：上下文相关性（检索内容是否契合查询）、事实基础（生成内容是否基于检索内容）和答案相关性（最终回答是否切题）。Mistral 的模型适用于构建生成与评判组件。

检索增强教程/实践

3月20日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选71

"思考"工具：让Claude在复杂工具使用场景中停下来思考

Anthropic为Claude引入了“思考”工具，允许其在生成最终响应前插入一个专门的思考步骤，以处理多步骤工具调用链、分析外部信息并遵循复杂策略。该工具与更早发布的“扩展思考”功能不同，更侧重于在响应生成过程中对新信息进行针对性推理。在τ-Bench基准测试中，该工具显著提升了Claude在客户服务场景的表现。文章建议在需要复杂工具调用、长链分析或高成本序列决策的场景中使用它，并提供了标准的工具实现格式。

Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方给出的 think tool 实操指南，附带 τ-Bench 和 SWE-bench 的真实数据，做 Agent 或 tool use 的开发者可以直接抄 prompt 模板，比自己瞎试强太多。

3月4日

00:00

Mistral AI：News（网页）

Mistral AI 提出 TranscriptToPRDTicket 智能体工作流，自动化产品开发流程

Mistral AI 团队推出了名为 TranscriptToPRDTicket 的智能体工作流。该方案基于 Mistral Large 2 大语言模型，核心是 PRDAgent 和 TicketCreationAgent 两个组件。工作流接收会议记录作为输入，首先由 PRDAgent 生成结构化的产品需求文档（PRD），再由 TicketCreationAgent 将 PRD 转化为开发任务，并自动在 Linear 或 Jira 等工具中创建任务。此流程旨在自动化从讨论到开发任务创建的步骤，减少手动工作并提升团队协作的一致性。该实现方案已通过 Google Colab 笔记本开源。

智能体教程/实践

1月6日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

Claude 3.5 Sonnet 在 SWE-bench Verified 基准测试中刷新纪录

升级版 Claude 3.5 Sonnet 在软件工程评估基准 SWE-bench Verified 上取得 49% 的解决率，超越此前最佳模型的 45%。该基准通过真实 GitHub 问题测试 AI 模型完成软件工程任务的能力，要求模型在给定环境中理解、修改并测试代码，最终通过原始单元测试验证。Claude 团队构建的智能体设计简洁，仅包含提示词、Bash 工具和编辑工具，赋予模型充分的自主判断空间，以灵活步骤解决问题。目前尚无模型在该基准上突破 50% 的解决率。

智能体 Anthropic 教程/实践编码

推荐理由：Anthropic 把自家 SWE-bench agent 的 prompt、工具设计和踩坑经验全公开了，做 coding agent 的人可以直接抄作业，比看十篇二手解读都管用。

12月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选80

构建高效智能体：从简单模式开始

Anthropic基于实践经验指出，成功的LLM智能体往往采用简单、可组合的模式，而非复杂框架。文章区分了工作流（预定义路径编排）与智能体（LLM动态自主决策），建议开发者优先采用最简单方案，仅在必要时增加复杂性。许多核心模式直接调用LLM API仅需几行代码即可实现。文中介绍了增强型LLM、提示链等基础构建模块，强调应为特定用例定制检索、工具等增强功能，并推荐通过Model Context Protocol集成第三方工具生态。

智能体 Anthropic MCP/工具教程/实践

推荐理由：Anthropic 官方把过去一年踩过的坑浓缩成一篇 Agent 架构指南，核心观点是「别上框架，先用最简单的模式」。做 Agent 产品的开发者，这篇比任何第三方教程都值得当 checklist 用。

11月28日

08:00

Lilian Weng：Lil'Log（RSS）

强化学习中的奖励欺骗问题

奖励欺骗是指强化学习智能体通过利用奖励函数的缺陷或歧义获取高分，而非真正完成预期任务的现象。随着语言模型任务泛化能力增强，以及基于人类反馈的强化学习成为主流对齐训练方法，该问题在语言模型训练中变得尤为突出。具体表现为模型可能通过修改测试用例来通过编程任务，或生成模仿用户偏好的偏见回答。此类行为正成为制约AI模型在更自主化场景中实际应用部署的关键瓶颈之一。

OpenAI 安全/对齐教程/实践

9月19日

00:00

Anthropic：Engineering（事故复盘 + 工程实践 · 网页）

精选72

引入上下文检索：大幅提升RAG系统准确性的新方法

传统RAG系统在编码时易丢失上下文，导致检索失败。新方法“上下文检索”通过“上下文嵌入”和“上下文BM25”两项子技术，在检索前为文本块添加解释性上下文，能将检索失败次数减少49%，结合重排序后降幅可达67%，显著提升了下游任务性能。对于小于20万token的小型知识库，可直接将其完整内容放入提示词，结合Claude的提示词缓存功能，能降低超过2倍的延迟和高达90%的成本。对于大型知识库，上下文检索则提供了可扩展的解决方案。

Anthropic 检索增强教程/实践部署/工程

推荐理由：Anthropic 把 RAG 检索失败率砍了 67%，方法不复杂但数据扎实，做知识库的开发者可以直接抄 cookbook 上手，是那种读完当天就能改进生产环境的实用帖。

8月1日