Anthropic 为 Claude Tag 推出智能体身份模型,Claude 在团队频道拥有独立账号,权限按频道配置可覆写,撤销身份即可终止访问。AI 编码代价方面,Meta 一次 AI 生成代码(无人工验证)导致 Instagram 密码重置漏洞,CISO 离职;Amazon 核心平台中断;GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程:同一 LLM 换装更精巧外架构后,TerminalBench 2.0 通过率从 52.8% 升至 66.5%,排名从 30 名外进入前 5。
http://x.com/i/article/2069568375752445952
BestBlogs 早报 · 06-24|Claude Tag 给智能体独立身份,AI 编码提速藏代价,Harness 架构降三成对话成本
在线阅读本期早报
BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容,如果你希望它基于你的兴趣和阅读习惯整理,可以体验「我的早报」。
导语
今天的核心问题是信任的边界该划在哪。精讲一里,Anthropic 给 Claude Tag 推出了「智能体身份」访问模型:团队频道里的 Claude 不再借用某个人的权限,而是拥有管理员配置的独立账号体系,按频道继承或覆写权限边界,能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」--这是多人协作场景下自主智能体访问控制的关键基础设施。
精讲二记录了不设边界的代价。《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性问题:Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞,CISO 在事故调查中离职;Meta、Amazon 内部出现「刷 Token 量」绩效造假,GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出的对策很务实:限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断--速度的代价正在系统性显现。
精讲三则从另一个角度回答「边界该怎么划」:决定 AI 编程效果的往往不是模型本身,而是包裹在外面那层约束代码。腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践,系统拆解了「Harness 工程」--同一模型换上更精巧的外层架构,TerminalBench 通过率即可从 52.8% 跃升到 66.5%。
三条精讲放在一起看,正好覆盖了今天 AI 工程里最实在的三个问题:智能体的权限边界怎么划,没有边界会付出什么代价,以及怎么用工程化的「壳」把这种边界变成可复制的系统。
★ 精讲一:智能体身份:适用于自主、团队级 AI 的新型访问模型 | Claude
原文链接:智能体身份:适用于自主、团队级 AI 的新型访问模型 | Claude(Claude Blog)
Anthropic 这篇博客提出的判断很直接:当 AI 在「单人模式」下工作--一个人和一个助手聊天--权限模型很简单,你连上自己的账号,agent 代表你行动。但 Claude Tag 把 Claude 放进了团队共享频道,它要调用的是整个工作空间的工具和上下文,而不属于某一个具体的人。这种「多人模式」让「借用某个人的权限」这套老办法彻底失效,原因有两个:一是 agent 的自主性在持续增强,能独立完成的任务时长大约每四个月翻一倍,agent 现在会自己安排任务,在发起者下线很久之后还在响应事件;二是当频道里有多个人同时在指挥 agent,比如三个工程师和一个产品经理一起在排查问题,到底该用谁的权限去执行操作?没有哪个人的权限选择是「永远正确」的。
Anthropic 给出的答案是「智能体身份」(agent identity):Claude 在它接触的每个系统里都拥有自己的账号,在 Slack 里以 Claude App 的身份发帖,以 Claude GitHub App 的身份开 PR,用管理员配置的服务账号查询数据仓库。因为没有任何个人凭证参与其中,一个共享频道永远不会变成某个人私密文档的后门。在这套模型里,管理员在工作空间层级定义一个身份--Claude 在所有地方持有的基础连接和技能集合--每个频道默认继承这套身份,再按需在频道层级覆写,比如把工程频道的权限开到 GitHub 和数据仓库,或者把某个 CRM 连接限定在一个私密频道内。管理员需要配置的内容包括:仓库访问范围(Claude 能读写哪些仓库)、连接器(Claude 用来完成工作的工具和 API Key,同一个服务在不同频道可以配置不同权限级别)、技能与插件(Claude 动态加载的指令、脚本和资源文件夹),以及每个频道的常驻指令。因为这套模型围绕独立的 Claude 身份构建,撤销身份就能一次性终止 Claude 在所有使用过该身份的地方的访问权限--这比逐个审计分散在几十个用户账号下的 agent 行为要省力得多。
Anthropic 为 Claude Tag 推出智能体身份模型,Claude 在团队频道拥有独立账号,权限按频道配置可覆写,撤销身份即可终止访问。AI 编码代价方面,Meta 一次 AI 生成代码(无人工验证)导致 Instagram 密码重置漏洞,CISO 离职;Amazon 核心平台中断;GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程:同一 LLM 换装更精巧外架构后,TerminalBench 2.0 通过率从 52.8% 升至 66.5%,排名从 30 名外进入前 5。
http://x.com/i/article/2069568375752445952
BestBlogs 早报 · 06-24|Claude Tag 给智能体独立身份,AI 编码提速藏代价,Harness 架构降三成对话成本
在线阅读本期早报
BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容,如果你希望它基于你的兴趣和阅读习惯整理,可以体验「我的早报」。
导语
今天的核心问题是信任的边界该划在哪。精讲一里,Anthropic 给 Claude Tag 推出了「智能体身份」访问模型:团队频道里的 Claude 不再借用某个人的权限,而是拥有管理员配置的独立账号体系,按频道继承或覆写权限边界,能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」--这是多人协作场景下自主智能体访问控制的关键基础设施。
精讲二记录了不设边界的代价。《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性问题:Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞,CISO 在事故调查中离职;Meta、Amazon 内部出现「刷 Token 量」绩效造假,GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出的对策很务实:限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断--速度的代价正在系统性显现。
这套设计和今天另外两条精讲形成了清晰的呼应:精讲二里 Meta 的 Instagram 漏洞事故,本质就是 AI 代码在没有清晰权限边界和审计轨迹的情况下被直接上线;精讲三里腾讯云开发者讲的 Harness 工程,则是从另一个维度--「模型外面那层约束代码」--回答同一个问题:怎么让 AI 在可控范围内做正确的事。Anthropic 把这种约束做到了身份和权限层,腾讯云开发者的实践做到了规则和钩子层,两者共同指向一个判断:随着 agent 自主性提升,「给 AI 划清楚边界」正在变成和模型能力同等重要的基础设施问题。
值得留意的是,这套身份模型并不是一次性配置完就一劳永逸的静态权限表。文章里提到,管理员可以随时按频道粒度调整覆写规则--比如某个临时项目频道需要短暂打开生产数据库的写权限,事后再收回--这种「默认收紧、按需放开、随时可撤销」的设计思路,本质上和传统 IT 安全里的最小权限原则是一脉相承的,只是把审计的颗粒度从「人」下沉到了「人 + 智能体」的组合。
★ 精讲二:慢下来才能更快:AI 如何重塑软件工程
原文链接:慢下来才能更快:AI 如何重塑软件工程(The Pragmatic Engineer)
这期视频梳理的是一个正在系统性显现的代价:当 Cursor、Claude、Codex 这类高度智能、能感知上下文的工具让工程团队的产出速度达到前所未有的水平,随之而来的不是简单的效率提升,而是结构性的脆弱、软件可靠性的明显下滑,以及内部文化压力的彻底重塑。文章给出的第一个真实案例分量很重:Meta 出现了一次史无前例的安全漏洞,一个未经身份验证的密码重置机制被直接上线到 Instagram,这个漏洞被直接追溯到由 AI 编写、又由 AI 审查、全程没有任何人工验证步骤的代码。这次重大基础设施事故之后,Meta 的首席信息安全官在事故调查正在进行期间意外离职--这个细节和当时精英软件团队普遍经历的大规模重组、被迫重新分配数据标注工作、士气急剧下滑的文化环境是吻合的。
更值得警惕的是一种「反常指标」现象。当组织把 AI 使用统计直接接入工程师绩效评估,往往会催生意料之外的行为--文章把它称为 token maxing:因为担心被裁员,工程师开始故意刷高自动化系统的用量,比如执行没有实际意义的代码指令只为了在排行榜上靠前,用 AI 解析基础文档而不是自己直接读,或者把指标驱动的系统调用量摆在实际可交付的产品组件之上。这种缺乏人工验证的状况已经在头部基础设施平台引发了实质性的系统故障:Amazon 最近遭遇了一次核心平台中断,原因是内部一个生成式布局引擎意外清空了一个正在运行的生产环境;与此同时,GitHub 因为自动化开发工作流带来的三倍负载增长,持续出现性能不稳定。传统系统正在被自身的扩张速度压垮,因为代码库的膨胀速度已经远远超过结构性验证层能跟上的节奏--用行业资深人士的话说,现在的开发活动积累原始代码的速度,远远超过积累系统信任的速度。
面对这种局面,文章给出的对策刻意保持朴素:把每天的生成式工作流限制在一个你能真正自信审计、测试、系统化验证的量级以内;把 AI 用来快速偿还已经积累的技术债,让自己转型成架构层面的维护者,而不是让 AI 替代对系统的深度理解;如果放任自动化工具决定具体实现细节、却忽略底层抽象,今天换来的速度就是在透支未来的专业技术能力。这恰好呼应了精讲一里 Anthropic 强调的「智能体身份」逻辑和精讲三里腾讯云开发者讲的 Harness 工程:无论是清晰的权限边界、独立的审计轨迹,还是包裹在模型外面的约束代码,本质都是在给 AI 的自主性套上一层人类可以验证、可以追溯的「刹车系统」--没有这层系统,速度本身就会变成风险。
★ 精讲三:从 Harness 架构到 Token 经济学的探索
原文链接:从 Harness 架构到 Token 经济学的探索(腾讯云开发者)
这篇文章试图回答一个让很多人沮丧的问题:花半小时纠正 AI 的一个错误,写清楚「不要这样做」,第二天开新会话,AI 还是会犯同样的错;换了更贵的模型,效果没有想象中提升;同一套代码,别人的 AI 跑得很顺,自己接进来却各种翻车。2025 年 LangChain 发布的一组实验数据点出了答案:给同一个大语言模型换上一套更精巧的 Harness 架构,它在 TerminalBench 2.0(AI 编程能力权威榜单)的通过率,从 52.8% 直接拉升到 66.5%,底层模型权重一个字节没改,单靠换壳,排名从 30 名开外飙进前 5。文章由此引出一个公式:Agent = Model + Harness。Harness(直译「挽具/线束」)是包裹在大模型外面的那套代码,决定模型能看到什么、行为边界在哪里,以及模型如何知道自己做对了。
这篇文章把团队拓扑(Team Topologies)的框架应用到智能体平台上,回答「谁该负责提供什么、团队之间该怎么交互」的问题。作者的核心论点是:过去构建一个应用意味着按时间顺序分配角色--一人设计、一人挑战架构、一人测试、一人部署,复杂度是真实存在的,但分散在多个人、拉长在一段时间里。Agent 改变了这个等式:它们不会提问,只会立刻给出答案,从不疲倦、不休息、不等待。过去角色们依次提出的问题,现在必须由人类在一个 prompt 的极短窗口里提前预判、并行考虑。这和精讲一里 Claude Tag 面对的「多人同时指挥一个 agent,权限该归谁」的问题是同一个组织设计难题的两个侧面。
【Seed2.1 正式发布,深入 AI 生产力】(https://www.bestblogs.dev/article/1c83ff2d)
【Spring AI 2.0 中的自纠正结构化输出】(https://www.bestblogs.dev/article/95cbc77f) -- Spring AI 2.0 新增提供商原生模式强制执行和响应端自纠正验证两种机制,让模型在重试时能看到具体错误而不是盲目重来,适合用 Java/Spring 生态做结构化输出的工程师。
今日阅读路径
如果今天只有十分钟,建议按这个顺序读:先读精讲一(Claude Tag 的智能体身份),它给出了今天整期早报最底层的那把钥匙--当 agent 的自主性持续增强,「谁能做什么」必须从「这个用户」下沉到「这个智能体在这个范围内」;接着读精讲二(AI 编程的隐性代价),看清楚没有这层边界会发生什么--Instagram 漏洞、CISO 离职、刷 Token 量绩效造假,这些都是真实代价而不是假设;最后读精讲三(Harness 架构与 Token 经济学),看怎么把抽象的「边界」工程化成 Rules、Hooks 这样可复制、可优化的系统,顺带把单次对话成本砍掉三成。三篇放在一起读,会比单独读任何一篇更能看清楚:2026 年 AI 工程的核心命题,已经从「模型够不够强」转向「有没有一套靠得住的边界,把强模型的自主性安全地释放出来」。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,关注你感兴趣的来源和主题,每天生成一份更适合自己的「我的早报」,欢迎体验。
精讲三则从另一个角度回答「边界该怎么划」:决定 AI 编程效果的往往不是模型本身,而是包裹在外面那层约束代码。腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践,系统拆解了「Harness 工程」--同一模型换上更精巧的外层架构,TerminalBench 通过率即可从 52.8% 跃升到 66.5%。
三条精讲放在一起看,正好覆盖了今天 AI 工程里最实在的三个问题:智能体的权限边界怎么划,没有边界会付出什么代价,以及怎么用工程化的「壳」把这种边界变成可复制的系统。
★ 精讲一:智能体身份:适用于自主、团队级 AI 的新型访问模型 | Claude
原文链接:智能体身份:适用于自主、团队级 AI 的新型访问模型 | Claude(Claude Blog)
Anthropic 这篇博客提出的判断很直接:当 AI 在「单人模式」下工作--一个人和一个助手聊天--权限模型很简单,你连上自己的账号,agent 代表你行动。但 Claude Tag 把 Claude 放进了团队共享频道,它要调用的是整个工作空间的工具和上下文,而不属于某一个具体的人。这种「多人模式」让「借用某个人的权限」这套老办法彻底失效,原因有两个:一是 agent 的自主性在持续增强,能独立完成的任务时长大约每四个月翻一倍,agent 现在会自己安排任务,在发起者下线很久之后还在响应事件;二是当频道里有多个人同时在指挥 agent,比如三个工程师和一个产品经理一起在排查问题,到底该用谁的权限去执行操作?没有哪个人的权限选择是「永远正确」的。
Anthropic 给出的答案是「智能体身份」(agent identity):Claude 在它接触的每个系统里都拥有自己的账号,在 Slack 里以 Claude App 的身份发帖,以 Claude GitHub App 的身份开 PR,用管理员配置的服务账号查询数据仓库。因为没有任何个人凭证参与其中,一个共享频道永远不会变成某个人私密文档的后门。在这套模型里,管理员在工作空间层级定义一个身份--Claude 在所有地方持有的基础连接和技能集合--每个频道默认继承这套身份,再按需在频道层级覆写,比如把工程频道的权限开到 GitHub 和数据仓库,或者把某个 CRM 连接限定在一个私密频道内。管理员需要配置的内容包括:仓库访问范围(Claude 能读写哪些仓库)、连接器(Claude 用来完成工作的工具和 API Key,同一个服务在不同频道可以配置不同权限级别)、技能与插件(Claude 动态加载的指令、脚本和资源文件夹),以及每个频道的常驻指令。因为这套模型围绕独立的 Claude 身份构建,撤销身份就能一次性终止 Claude 在所有使用过该身份的地方的访问权限--这比逐个审计分散在几十个用户账号下的 agent 行为要省力得多。
这套设计和今天另外两条精讲形成了清晰的呼应:精讲二里 Meta 的 Instagram 漏洞事故,本质就是 AI 代码在没有清晰权限边界和审计轨迹的情况下被直接上线;精讲三里腾讯云开发者讲的 Harness 工程,则是从另一个维度--「模型外面那层约束代码」--回答同一个问题:怎么让 AI 在可控范围内做正确的事。Anthropic 把这种约束做到了身份和权限层,腾讯云开发者的实践做到了规则和钩子层,两者共同指向一个判断:随着 agent 自主性提升,「给 AI 划清楚边界」正在变成和模型能力同等重要的基础设施问题。
值得留意的是,这套身份模型并不是一次性配置完就一劳永逸的静态权限表。文章里提到,管理员可以随时按频道粒度调整覆写规则--比如某个临时项目频道需要短暂打开生产数据库的写权限,事后再收回--这种「默认收紧、按需放开、随时可撤销」的设计思路,本质上和传统 IT 安全里的最小权限原则是一脉相承的,只是把审计的颗粒度从「人」下沉到了「人 + 智能体」的组合。
★ 精讲二:慢下来才能更快:AI 如何重塑软件工程
原文链接:慢下来才能更快:AI 如何重塑软件工程(The Pragmatic Engineer)
这期视频梳理的是一个正在系统性显现的代价:当 Cursor、Claude、Codex 这类高度智能、能感知上下文的工具让工程团队的产出速度达到前所未有的水平,随之而来的不是简单的效率提升,而是结构性的脆弱、软件可靠性的明显下滑,以及内部文化压力的彻底重塑。文章给出的第一个真实案例分量很重:Meta 出现了一次史无前例的安全漏洞,一个未经身份验证的密码重置机制被直接上线到 Instagram,这个漏洞被直接追溯到由 AI 编写、又由 AI 审查、全程没有任何人工验证步骤的代码。这次重大基础设施事故之后,Meta 的首席信息安全官在事故调查正在进行期间意外离职--这个细节和当时精英软件团队普遍经历的大规模重组、被迫重新分配数据标注工作、士气急剧下滑的文化环境是吻合的。
更值得警惕的是一种「反常指标」现象。当组织把 AI 使用统计直接接入工程师绩效评估,往往会催生意料之外的行为--文章把它称为 token maxing:因为担心被裁员,工程师开始故意刷高自动化系统的用量,比如执行没有实际意义的代码指令只为了在排行榜上靠前,用 AI 解析基础文档而不是自己直接读,或者把指标驱动的系统调用量摆在实际可交付的产品组件之上。这种缺乏人工验证的状况已经在头部基础设施平台引发了实质性的系统故障:Amazon 最近遭遇了一次核心平台中断,原因是内部一个生成式布局引擎意外清空了一个正在运行的生产环境;与此同时,GitHub 因为自动化开发工作流带来的三倍负载增长,持续出现性能不稳定。传统系统正在被自身的扩张速度压垮,因为代码库的膨胀速度已经远远超过结构性验证层能跟上的节奏--用行业资深人士的话说,现在的开发活动积累原始代码的速度,远远超过积累系统信任的速度。
面对这种局面,文章给出的对策刻意保持朴素:把每天的生成式工作流限制在一个你能真正自信审计、测试、系统化验证的量级以内;把 AI 用来快速偿还已经积累的技术债,让自己转型成架构层面的维护者,而不是让 AI 替代对系统的深度理解;如果放任自动化工具决定具体实现细节、却忽略底层抽象,今天换来的速度就是在透支未来的专业技术能力。这恰好呼应了精讲一里 Anthropic 强调的「智能体身份」逻辑和精讲三里腾讯云开发者讲的 Harness 工程:无论是清晰的权限边界、独立的审计轨迹,还是包裹在模型外面的约束代码,本质都是在给 AI 的自主性套上一层人类可以验证、可以追溯的「刹车系统」--没有这层系统,速度本身就会变成风险。
★ 精讲三:从 Harness 架构到 Token 经济学的探索
原文链接:从 Harness 架构到 Token 经济学的探索(腾讯云开发者)
这篇文章试图回答一个让很多人沮丧的问题:花半小时纠正 AI 的一个错误,写清楚「不要这样做」,第二天开新会话,AI 还是会犯同样的错;换了更贵的模型,效果没有想象中提升;同一套代码,别人的 AI 跑得很顺,自己接进来却各种翻车。2025 年 LangChain 发布的一组实验数据点出了答案:给同一个大语言模型换上一套更精巧的 Harness 架构,它在 TerminalBench 2.0(AI 编程能力权威榜单)的通过率,从 52.8% 直接拉升到 66.5%,底层模型权重一个字节没改,单靠换壳,排名从 30 名开外飙进前 5。文章由此引出一个公式:Agent = Model + Harness。Harness(直译「挽具/线束」)是包裹在大模型外面的那套代码,决定模型能看到什么、行为边界在哪里,以及模型如何知道自己做对了。
这篇文章把团队拓扑(Team Topologies)的框架应用到智能体平台上,回答「谁该负责提供什么、团队之间该怎么交互」的问题。作者的核心论点是:过去构建一个应用意味着按时间顺序分配角色--一人设计、一人挑战架构、一人测试、一人部署,复杂度是真实存在的,但分散在多个人、拉长在一段时间里。Agent 改变了这个等式:它们不会提问,只会立刻给出答案,从不疲倦、不休息、不等待。过去角色们依次提出的问题,现在必须由人类在一个 prompt 的极短窗口里提前预判、并行考虑。这和精讲一里 Claude Tag 面对的「多人同时指挥一个 agent,权限该归谁」的问题是同一个组织设计难题的两个侧面。
【Seed2.1 正式发布,深入 AI 生产力】(https://www.bestblogs.dev/article/1c83ff2d)
【Spring AI 2.0 中的自纠正结构化输出】(https://www.bestblogs.dev/article/95cbc77f) -- Spring AI 2.0 新增提供商原生模式强制执行和响应端自纠正验证两种机制,让模型在重试时能看到具体错误而不是盲目重来,适合用 Java/Spring 生态做结构化输出的工程师。
今日阅读路径
如果今天只有十分钟,建议按这个顺序读:先读精讲一(Claude Tag 的智能体身份),它给出了今天整期早报最底层的那把钥匙--当 agent 的自主性持续增强,「谁能做什么」必须从「这个用户」下沉到「这个智能体在这个范围内」;接着读精讲二(AI 编程的隐性代价),看清楚没有这层边界会发生什么--Instagram 漏洞、CISO 离职、刷 Token 量绩效造假,这些都是真实代价而不是假设;最后读精讲三(Harness 架构与 Token 经济学),看怎么把抽象的「边界」工程化成 Rules、Hooks 这样可复制、可优化的系统,顺带把单次对话成本砍掉三成。三篇放在一起读,会比单独读任何一篇更能看清楚:2026 年 AI 工程的核心命题,已经从「模型够不够强」转向「有没有一套靠得住的边界,把强模型的自主性安全地释放出来」。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,关注你感兴趣的来源和主题,每天生成一份更适合自己的「我的早报」,欢迎体验。