小互@xiaohu

2026-06-04 17:03·28天前

AI 摘要

Anthropic 将 95% 的业务分析查询交给 Claude，准确率约 95%。最初仅 21%，通过搭建数据基础、权威来源、技能等四层系统提升。核心发现：准确性问题本质是上下文和验证，而非代码生成。三种失败模式：概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担，数据科学团队专注更高价值任务。

http://x.com/i/article/2062455165006090240

Anthropic 如何通过 Claude 实现自动化商业分析

Anthropic 95% 的数据分析让 Claude 干了…

但一开始准确率多少？21%，跟瞎蒙差不多…后来搭了一套四层系统直接拉到 95%。

Anthropic官方发布了一篇博客，详细阐述了他们是如何通过Claude 实现自动化商业分析的。

我翻译了下，推荐大家阅读！

原文：https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

做过数据的人都知道，让业务团队自己查数据，一直是个老大难。

一种常见做法是建宽表，把数据模型摊平了给非技术同事用。但业务一扩张，各种视图就开始打架，定义不一致、口径对不上，而且那些压根不想学 SQL 的人照样用不了。另一种做法是给用户划好一块块固定区域，只能在里面看数据，但这又覆盖不了那些零散的、个性化的分析需求。最后就是每个团队各搞一套，指标和看板越来越多，越来越乱。

大语言模型的出现提供了一条新路。但如果你只是把 Claude 往数据仓库一指，让 AI 智能体自己跑，很容易造成一种"看着很准其实不靠谱"的假象。

刚摆脱临时取数需求的那股兴奋劲儿，很快就会变成焦虑。你会发现，这套方案把业务方和底层的数据基础设施、文档、专业知识切断了，而过去恰恰是这些东西帮他们找到靠谱的数据集。

在 Anthropic，95% 的业务分析查询已经由 Claude 自动完成，整体准确率大约 95%。把这些重复性的活交给 Claude 之后，我们的数据科学团队可以把精力放在因果建模、预测分析、机器学习这些更有价值的事情上。

跟几十位 Anthropic 内部的 Claude Code 重度用户聊过、看过大量分析智能体的设计方案之后，我们攒了一些经验，想分享给同样在用 AI 做分析的数据团队。这篇文章会聊到：

分析准确性本质上是上下文和验证问题，不是代码生成问题

导致大多数错误的三种失败模式

我们围绕这三个问题建的智能体分析栈

我们怎么衡量效果

我们创建技能的基础模板（见附录）

数据不是软件

AI 的生成能力是把双刃剑：让模型能创造性解题的那套机制，也会让它"一本正经地胡说八道"。要理解分析智能体面临的挑战，跟编码智能体对比一下就清楚了。

写代码是个开放题，模型越有创造力越好，而且有文档和测试兜底，写错了跑不通。但分析不一样：往往只有一个正确答案、一个正确的数据源，而且没有办法自动验证结果对不对。

自动化智能体分析的难点，主要在于数据本身的歧义性。核心问题就一句话：能不能把用户的问题准确地对应到数据模型里那个特定的、最新的字段，并且知道怎么正确使用它。做到了这一步，写 SQL 就是小事了。

我们发现，绝大多数不准确的回答可以归因于三件事：

概念和实体对不上：数据模型里有成百上千个字段，潜在候选可能上百万，智能体不知道该选哪个。比如"活跃用户数"，什么行为算"活跃"？算不算欺诈用户？回看多长时间？

数据过时了：数据源、业务定义、表结构一直在变，智能体的知识没跟上，开始给出"看起来对，其实差了一点"的答案。

找不到：正确的信息明明就在数据模型里，标注也齐全，但搜索空间太大，智能体就是没找到。

我们的智能体分析栈

在 Anthropic，我们靠一套分层的智能体数据栈来对付这三个问题。每一层重点解决其中一个或几个：

对不上→ 数据基础和权威来源层把候选范围不断收窄，最终只剩一个标准答案。

过时了→ 维护和验证流程防止东西随着业务变化而腐烂。

找不到→ 技能确保智能体能稳定地找到并正确使用那个标准答案。

下面逐层讲。

维度建模这些经典的数据工程实践，依然和以前一样重要

数据基础

要让分析智能体准确，最重要的是把数据基础打好，包括数据仓库里的模型、转换逻辑、测试、表，以及描述它们的元数据。维度建模、尽早做测试、关键管道的新鲜度和完整性检查，这些老规矩依然有效，不多说了。

维度建模这些经典的数据工程实践，依然和以前一样重要。

但有一件事变了：数据模型的使用者不再是数据科学家这样的专家，而是替各种用户干活的智能体。这些用户水平参差不齐，你没法指望他们去验证底层查询逻辑对不对，他们根本看不懂。

数据基础层主要解决的是歧义问题。比如"收入"这个概念，如果在仓库里只对应一个经过治理的规范数据集，而不是四十个看着都像的候选项，那智能体还没开始搜，问题就消失了大半。同时这一层也是防过时的第一道防线，因为定义规范模型的那个代码仓库，本身就是最适合强制保持这些模型更新的地方。

智能体 Anthropic 教程/实践数据/训练

在 X 查看原推导出 Markdown

小互@xiaohu · X

70导出 Markdown

2026-06-04 17:03·28天前

在 X 看原推· x.com

AI 摘要

http://x.com/i/article/2062455165006090240

Anthropic 如何通过 Claude 实现自动化商业分析

Anthropic 95% 的数据分析让 Claude 干了…

但一开始准确率多少？21%，跟瞎蒙差不多…后来搭了一套四层系统直接拉到 95%。

Anthropic官方发布了一篇博客，详细阐述了他们是如何通过Claude 实现自动化商业分析的。

我翻译了下，推荐大家阅读！

原文：https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

做过数据的人都知道，让业务团队自己查数据，一直是个老大难。

大语言模型的出现提供了一条新路。但如果你只是把 Claude 往数据仓库一指，让 AI 智能体自己跑，很容易造成一种"看着很准其实不靠谱"的假象。

Anthropic 如何通过 Claude 实现自动化商业分析

数据不是软件

我们的智能体分析栈

数据基础

Anthropic 如何通过 Claude 实现自动化商业分析

权威来源

技能

验证

离线评估

消融实验

线上验证

怎么起步

附录

技能文件骨架

【数据仓库】技能指令

Semantic Layer （每个请求的必选第一步）

PART 1：必知（每次请求首先阅读）

🏢 业务上下文

PART 2：操作指南（执行过程中遵循）

PART 3：数据参考与资源

⚠️ 排障指南

数据不是软件

我们的智能体分析栈

数据基础

权威来源

技能

验证

离线评估

消融实验

线上验证

怎么起步

附录

技能文件骨架

【数据仓库】技能指令

Semantic Layer （每个请求的必选第一步）

PART 1：必知（每次请求首先阅读）

🏢 业务上下文

PART 2：操作指南（执行过程中遵循）

PART 3：数据参考与资源

⚠️ 排障指南

Anthropic 如何通过 Claude 实现自动化商业分析

数据不是软件

我们的智能体分析栈

数据基础

Anthropic 如何通过 Claude 实现自动化商业分析

权威来源

技能

验证

离线评估

消融实验

线上验证

怎么起步

附录

技能文件骨架

【数据仓库】 技能指令

Semantic Layer （每个请求的必选第一步）

PART 1： 必知（每次请求首先阅读）

🏢 业务上下文

PART 2： 操作指南（执行过程中遵循）

PART 3： 数据参考与资源

⚠️ 排障指南

数据不是软件

我们的智能体分析栈

数据基础

权威来源

技能

验证

离线评估

消融实验

线上验证

怎么起步

附录

技能文件骨架

【数据仓库】 技能指令

Semantic Layer （每个请求的必选第一步）

PART 1： 必知（每次请求首先阅读）

🏢 业务上下文

PART 2： 操作指南（执行过程中遵循）

PART 3： 数据参考与资源

⚠️ 排障指南

【数据仓库】技能指令

PART 1：必知（每次请求首先阅读）

PART 2：操作指南（执行过程中遵循）

PART 3：数据参考与资源

【数据仓库】技能指令

PART 1：必知（每次请求首先阅读）

PART 2：操作指南（执行过程中遵循）

PART 3：数据参考与资源