我用 Apodex 做了一次深度研究测试。 Apodex 的定位是 Self-Evolving Heavy-Duty Solver，也就是“自进化重型求解器”。它面向的不是简单问答，更专注那些重要、复杂、没有现成答案的问题：需要拆解、搜索、比较证据，再在下结论前核查关键主张。这次我选的问题是： AI Agent 公司如何选择产品方向：开发者工具、企业工作流、研究助手，哪个更值得做？这个问题比单纯问“某个技术最近有什么进展”更难，因为它没有标准答案。要同时看市场需求、付费意愿、竞争格局、技术门槛、销售周期、融资叙事、短期落地难度和长期空间。我用中档 Deep Reasoning 跑了一次，也尝试了 Deep Discovery。后面这个模式更能体现 Apodex 的核心能力：它会把问题拆成多条研究线，分别查开发者工具、企业工作流、研究助手，再补充 VC 视角、企业采用率、市场规模、客户流失风险和具体创业机会。比较有意思的是，它没有在第一轮搜索后马上给结论。它先做总览，再发现证据不够，于是继续补查 TAM、创业方向排名、Menlo Ventures、SaaStr、BCG、企业 AI 报告等来源。这个过程能看到它在不断确认：哪些判断有数据支撑，哪些只是看起来合理。最后它给出的排序是： 1. 垂直企业工作流 Agent 2. 垂直研究助手 3. 开发者工具它认为，2026 年对大多数 AI Agent 创业公司来说，最值得做的是“垂直企业工作流 Agent”。理由是这类产品更容易找到明确买方，也更容易证明价值：比如保险理赔、医疗账单、物流异常处理、合规监测、采购和库存管理。这些场景本来就有人力和外包成本，Agent 如果能节省时间、降低错误率或提升收入，客户更容易付费。开发者工具当然是 AI 最成熟的应用之一，但竞争也最强。Codex、Cursor、Claude Code、Devin 这些玩家已经占住用户心智。新公司如果还只是做通用 coding assistant，很难讲出差异。除非团队本身有很强的开发者工具背景，并且能切入更细的方向，比如合规代码、安全审查、CI/CD 自动化、企业代码治理。研究助手的机会也存在，但前提是必须垂直化。通用 research assistant 很容易被大模型和浏览器插件覆盖。更有价值的是法律、金融、药研、监管、投研这类高价值场景，因为它们需要引用来源、审计记录和人工确认。换句话说，好的研究助手最后往往会变成“研究型企业工作流 Agent”。这次测试让我更清楚地感受到 Apodex 和普通聊天机器人的区别：它的重点是先验证、后下结论。对这种变量多、信息散、需要做取舍的问题，过程透明和证据核查比答案本身更重要。所以我觉得 Apodex 更适合拿来处理这类问题： · 一个创业方向值不值得做？ · 某个行业现在是否适合进入？ · 技术趋势背后有没有真实商业机会？ · 一个投资判断有哪些反方证据？ · 复杂议题里，哪些结论可以相信？这类问题很难靠一次搜索或一次对话解决，需要一个系统把资料找齐、拆开比较、反复验证。Apodex 想做的就是这件事。体验入口：http://www.apodex.ai 开发者可以在 Hugging Face 下载模型：http://huggingface.co/apodex 感兴趣也可以加入 Discord。

译博主用自进化重型求解器Apodex测试“AI Agent公司如何选择产品方向”。Deep Discovery模式下，Apodex拆解为开发者工具、企业工作流、研究助手三条线，补充VC视角、市场规模等来源，持续验证后给出排序：1. 垂直企业工作流Agent（有明确买方和成本替代逻辑）；2. 垂直研究助手（需针对法律、金融等高价值场景）；3. 开发者工具（竞争被Codex、Cursor、Claude Code等占据）。Apodex强调先验证后下结论，适合变量多、需取舍的复杂议题。体验入口apodex.ai，Hugging Face可下载模型。

ginobefun@hongming731 · 6月24日43

http://x.com/i/article/2069568375752445952 # BestBlogs 早报 · 06-24｜Claude Tag 给智能体独立身份，AI 编码提速藏代价，Harness 架构降三成对话成本在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的核心问题是信任的边界该划在哪。精讲一里，Anthropic 给 Claude Tag 推出了「智能体身份」访问模型：团队频道里的 Claude 不再借用某个人的权限，而是拥有管理员配置的独立账号体系，按频道继承或覆写权限边界，能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」——这是多人协作场景下自主智能体访问控制的关键基础设施。精讲二记录了不设边界的代价。《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性问题：Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞，CISO 在事故调查中离职；Meta、Amazon 内部出现「刷 Token 量」绩效造假，GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出的对策很务实：限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断——速度的代价正在系统性显现。精讲三则从另一个角度回答「边界该怎么划」：决定 AI 编程效果的往往不是模型本身，而是包裹在外面那层约束代码。腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践，系统拆解了「Harness 工程」——同一模型换上更精巧的外层架构，TerminalBench 通过率即可从 52.8% 跃升到 66.5%。三条精讲放在一起看，正好覆盖了今天 AI 工程里最实在的三个问题：智能体的权限边界怎么划，没有边界会付出什么代价，以及怎么用工程化的「壳」把这种边界变成可复制的系统。 ## ★ 精讲一：智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude 原文链接：智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude（Claude Blog） Anthropic 这篇博客提出的判断很直接：当 AI 在「单人模式」下工作——一个人和一个助手聊天——权限模型很简单，你连上自己的账号，agent 代表你行动。但 Claude Tag 把 Claude 放进了团队共享频道，它要调用的是整个工作空间的工具和上下文，而不属于某一个具体的人。这种「多人模式」让「借用某个人的权限」这套老办法彻底失效，原因有两个：一是 agent 的自主性在持续增强，能独立完成的任务时长大约每四个月翻一倍，agent 现在会自己安排任务，在发起者下线很久之后还在响应事件；二是当频道里有多个人同时在指挥 agent，比如三个工程师和一个产品经理一起在排查问题，到底该用谁的权限去执行操作？没有哪个人的权限选择是「永远正确」的。 Anthropic 给出的答案是「智能体身份」（agent identity）：Claude 在它接触的每个系统里都拥有自己的账号，在 Slack 里以 Claude App 的身份发帖，以 Claude GitHub App 的身份开 PR，用管理员配置的服务账号查询数据仓库。因为没有任何个人凭证参与其中，一个共享频道永远不会变成某个人私密文档的后门。在这套模型里，管理员在工作空间层级定义一个身份——Claude 在所有地方持有的基础连接和技能集合——每个频道默认继承这套身份，再按需在频道层级覆写，比如把工程频道的权限开到 GitHub 和数据仓库，或者把某个 CRM 连接限定在一个私密频道内。管理员需要配置的内容包括：仓库访问范围（Claude 能读写哪些仓库）、连接器（Claude 用来完成工作的工具和 API Key，同一个服务在不同频道可以配置不同权限级别）、技能与插件（Claude 动态加载的指令、脚本和资源文件夹），以及每个频道的常驻指令。因为这套模型围绕独立的 Claude 身份构建，撤销身份就能一次性终止 Claude 在所有使用过该身份的地方的访问权限——这比逐个审计分散在几十个用户账号下的 agent 行为要省力得多。这套设计和今天另外两条精讲形成了清晰的呼应：精讲二里 Meta 的 Instagram 漏洞事故，本质就是 AI 代码在没有清晰权限边界和审计轨迹的情况下被直接上线；精讲三里腾讯云开发者讲的 Harness 工程，则是从另一个维度——「模型外面那层约束代码」——回答同一个问题：怎么让 AI 在可控范围内做正确的事。Anthropic 把这种约束做到了身份和权限层，腾讯云开发者的实践做到了规则和钩子层，两者共同指向一个判断：随着 agent 自主性提升，「给 AI 划清楚边界」正在变成和模型能力同等重要的基础设施问题。值得留意的是，这套身份模型并不是一次性配置完就一劳永逸的静态权限表。文章里提到，管理员可以随时按频道粒度调整覆写规则——比如某个临时项目频道需要短暂打开生产数据库的写权限，事后再收回——这种「默认收紧、按需放开、随时可撤销」的设计思路，本质上和传统 IT 安全里的最小权限原则是一脉相承的，只是把审计的颗粒度从「人」下沉到了「人 + 智能体」的组合。 ## ★ 精讲二：慢下来才能更快：AI 如何重塑软件工程原文链接：慢下来才能更快：AI 如何重塑软件工程（The Pragmatic Engineer）这期视频梳理的是一个正在系统性显现的代价：当 Cursor、Claude、Codex 这类高度智能、能感知上下文的工具让工程团队的产出速度达到前所未有的水平，随之而来的不是简单的效率提升，而是结构性的脆弱、软件可靠性的明显下滑，以及内部文化压力的彻底重塑。文章给出的第一个真实案例分量很重：Meta 出现了一次史无前例的安全漏洞，一个未经身份验证的密码重置机制被直接上线到 Instagram，这个漏洞被直接追溯到由 AI 编写、又由 AI 审查、全程没有任何人工验证步骤的代码。这次重大基础设施事故之后，Meta 的首席信息安全官在事故调查正在进行期间意外离职——这个细节和当时精英软件团队普遍经历的大规模重组、被迫重新分配数据标注工作、士气急剧下滑的文化环境是吻合的。更值得警惕的是一种「反常指标」现象。当组织把 AI 使用统计直接接入工程师绩效评估，往往会催生意料之外的行为——文章把它称为 token maxing：因为担心被裁员，工程师开始故意刷高自动化系统的用量，比如执行没有实际意义的代码指令只为了在排行榜上靠前，用 AI 解析基础文档而不是自己直接读，或者把指标驱动的系统调用量摆在实际可交付的产品组件之上。这种缺乏人工验证的状况已经在头部基础设施平台引发了实质性的系统故障：Amazon 最近遭遇了一次核心平台中断，原因是内部一个生成式布局引擎意外清空了一个正在运行的生产环境；与此同时，GitHub 因为自动化开发工作流带来的三倍负载增长，持续出现性能不稳定。传统系统正在被自身的扩张速度压垮，因为代码库的膨胀速度已经远远超过结构性验证层能跟上的节奏——用行业资深人士的话说，现在的开发活动积累原始代码的速度，远远超过积累系统信任的速度。面对这种局面，文章给出的对策刻意保持朴素：把每天的生成式工作流限制在一个你能真正自信审计、测试、系统化验证的量级以内；把 AI 用来快速偿还已经积累的技术债，让自己转型成架构层面的维护者，而不是让 AI 替代对系统的深度理解；如果放任自动化工具决定具体实现细节、却忽略底层抽象，今天换来的速度就是在透支未来的专业技术能力。这恰好呼应了精讲一里 Anthropic 强调的「智能体身份」逻辑和精讲三里腾讯云开发者讲的 Harness 工程：无论是清晰的权限边界、独立的审计轨迹，还是包裹在模型外面的约束代码，本质都是在给 AI 的自主性套上一层人类可以验证、可以追溯的「刹车系统」——没有这层系统，速度本身就会变成风险。 ## ★ 精讲三：从 Harness 架构到 Token 经济学的探索原文链接：从 Harness 架构到 Token 经济学的探索（腾讯云开发者）这篇文章试图回答一个让很多人沮丧的问题：花半小时纠正 AI 的一个错误，写清楚「不要这样做」，第二天开新会话，AI 还是会犯同样的错；换了更贵的模型，效果没有想象中提升；同一套代码，别人的 AI 跑得很顺，自己接进来却各种翻车。2025 年 LangChain 发布的一组实验数据点出了答案：给同一个大语言模型换上一套更精巧的 Harness 架构，它在 TerminalBench 2.0（AI 编程能力权威榜单）的通过率，从 52.8% 直接拉升到 66.5%，底层模型权重一个字节没改，单靠换壳，排名从 30 名开外飙进前 5。文章由此引出一个公式：Agent = Model + Harness。Harness（直译「挽具/线束」）是包裹在大模型外面的那套代码，决定模型能看到什么、行为边界在哪里，以及模型如何知道自己做对了。文章梳理了 Harness Engineering 从 2022 年 ReAct 论文的 Thought-Action-Observation 循环，到 2023 年 Reflexion 论文把失败转化为反思记忆，再到 2026 年 LangChain 把控制论（Cybernetics）正式引入 Harness 框架的完整演进史，并把这些学术概念对照到真实的工程配置：Rules 承担「前馈控制」，在设计时就把先验知识和约束边界注入 AI 的推理上下文；Hooks 承担「反馈控制」，在 AI 行动之后检测结果、计算偏差、决定阻止或纠正——两者合起来构成 Harness 的双保险。具体到 ReAct 循环的三个阶段，Rules 用 project-rules.md 约束 AI 的思考方向，PreToolUse Hooks 在 AI 决定调用工具前做安全检查，PostToolUse Hooks 在工具返回结果后做反馈，比如检测到改动涉及公共组件后自动 grep 全仓库的引用方，把影响面报告追加进观察结果里。文章的判断很形象：没有 Harness 的 ReAct 就像没有刹车的车，能跑，但不知道什么时候该停，Hooks 就是装在行动阶段的刹车系统。除了架构层面的拆解，文章还给出了实测的 Token 成本数据：通过精简 Rules、按需加载 Skills、压缩 Hooks 输出等手段，把单次对话的基础开销从 23.5K token 降到 15K token，降幅达到 36%——这给同样关心 AI 编程团队成本结构的读者提供了一套可复制的优化路径，而不只是停留在「换个更贵模型」的简单思路上。把今天三条精讲并排来看，会发现它们其实是同一个命题的三种切面：精讲一在身份和权限层给 agent 划边界，精讲二是没有边界时会付出的真实代价，精讲三则是怎么用 Rules、Hooks 这类工程化的「壳」把边界落实成可复制、可优化的系统——卡住效果的常常不是模型本身，而是模型外面那层有没有被认真设计过的约束代码。 ## 速览 [Claude Code 主创复盘疯狂的一年｜对话 Boris & Cat](https://www.bestblogs.dev/article/8b737736) Claude Code 上线满一年，负责人 Boris Cherny 与产品负责人 Cat Wu 复盘了团队内部工作流的演进。两人提到的关键转变是：纠正 AI 的错误不能只说一次，要写进 CLAUDE.md 或做成一个 skill，沉淀才有复利；验证的真正门槛不是单测、lint 这些早就自动化的环节，而是 agent 能不能自己运行、自己看结果；逐条点「同意」反而不如全交给 auto mode，因为人在点到 99% 都是 yes 时注意力早就涣散了。Boris 还提到自己现在「不再 prompt agent，而是写 loop」——当模型足够强之后，工程师的核心工作正在从写代码转向设计能自主发现任务、反复调用 agent 的循环系统。这和精讲三里腾讯云开发者讲的 Rules / Hooks 工程化思路是同一种取向：把对 agent 的管理沉淀成可复用的系统，而不是每次都重新交代一遍。 [前 Meta L8 工程师的智能体工程设置](https://www.bestblogs.dev/article/ea0d869f) 一位曾在 Meta、Microsoft、Atlassian 担任 L8 首席工程师的作者，离开大厂独立创业后，分享了自己以终端为中心、键盘驱动的完整智能体工程设置——把 agent 当成自主队友用于规划、实现和验证。他提到用 agent 之后的生产力变化很直观：以前很难想象能交付 30 多个达到自己标准的高质量 PR，现在这只是一个普通的「慢」工作日；他形容自己进入了一种近乎持续的「流」状态，瓶颈只剩下思考的质量和速度本身。这种个人层面的高强度 agent 使用，恰好是精讲二提醒的另一面——速度本身不是问题，问题是有没有配套的验证习惯撑住这种速度。 [当反思无法修复 AI 智能体的输出时该怎么办](https://www.bestblogs.dev/article/4be45766) 作者在大型互联网公司做过生产环境的 agent 系统，专门生成部署配置、API payload、数据库查询，他的结论是：用 LLM 反思去修复结构化输出并不可靠。常见教程教的做法是加一次「评审」调用，但作者发现这只会让原本三分之一的失败率降到六分之一，而且这些残留失败是「隐形」的——反思步骤会说「看起来不错」然后放行，系统变成了一个自信地犯错、却要等到生产环境凌晨两点出问题才会暴露的黑箱。他给出的替代方案是一种确定性的「生成-验证-重试」循环，用代码而不是另一次 LLM 调用去做校验。这和精讲三里 Harness 工程强调的 PostToolUse Hooks 反馈机制几乎是同一个思路：判断 AI 输出对不对，不该交给另一个不可靠的 LLM，而应该交给确定性的代码检查。 [对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局](https://www.bestblogs.dev/podcast/8823d0d) 这期播客是 MiniMax CEO 闫俊杰一次少有的公开露面，他谈到了 M1 到 M3 的迭代历程、训练 10T 规模大模型的决心，以及中美模型差距的真实尺度——美国头部模型基本上大 10 倍，而 10 倍意味着整整两代的差距。他还谈到模型的数据观正在转向：一年前以为数据就是标注，现在 MiniMax 开始招募经济学家、哲学家甚至核物理学家。同台的另外三位嘉宾也分享了视角：何涛提出一句暴论——最讨厌别人说「这是 agent 做的，别怪我」，用你的账号提交代码，责任就该是你的。这句话和精讲一里 Anthropic「智能体身份」的设计初衷形成了有趣的对照：当 agent 的行动有了独立账号和审计轨迹，「这是 agent 做的」就不再能成为推卸责任的借口。 [谁做什么？面向智能体平台的团队拓扑](https://www.bestblogs.dev/article/3fa5680e) 这篇文章把团队拓扑（Team Topologies）的框架应用到智能体平台上，回答「谁该负责提供什么、团队之间该怎么交互」的问题。作者的核心论点是：过去构建一个应用意味着按时间顺序分配角色——一人设计、一人挑战架构、一人测试、一人部署，复杂度是真实存在的，但分散在多个人、拉长在一段时间里。Agent 改变了这个等式：它们不会提问，只会立刻给出答案，从不疲倦、不休息、不等待。过去角色们依次提出的问题，现在必须由人类在一个 prompt 的极短窗口里提前预判、并行考虑。这和精讲一里 Claude Tag 面对的「多人同时指挥一个 agent，权限该归谁」的问题是同一个组织设计难题的两个侧面。 [Seed2.1 正式发布，深入 AI 生产力](https://www.bestblogs.dev/article/1c83ff2d) 字节跳动发布 Seed2.1 系列模型，面向真实生产力场景，在通用 Agent 能力、代码工程交付和多模态理解三个维度都有显著提升，目前已在豆包和 TRAE 上线。通用 Agent 方面，Seed2.1 在 Workspace Bench、Agent Startup Bench 上表现稳定，Seed2.1 Pro 在 GDPval 基准上拿到最高分；在更专业、更难刷分的 Agents' Last Exam（ALE）基准上也处于第一梯队水平，说明它在此前未见过的高门槛工作流上具备较好的泛化能力。代码工程方面，模型能够在真实企业级开发任务中完成需求理解、bug 修复、环境搭建和结果验证的完整链路。这种对真实工作流稳定性的强调，恰好是精讲二里反复提到的那个缺口——光有速度不够，可靠的端到端交付才是真正的瓶颈。 [OpenAI 联手 PE 砸下 40 亿美元，聊聊硅谷最火新职位 FDE](https://www.bestblogs.dev/article/32b5da89) FDE（Forward Deployment Engineer，前线部署工程师）正在成为硅谷最热的岗位之一：既要懂模型和技术，也要理解客户的数据、流程和业务痛点，核心任务是把 AI 从 demo 变成各个行业自己的 AI-native 工作流。今年 5 月，OpenAI 联手 19 家 PE 合计投入超 40 亿美元成立了部署公司，并打包带走了 150 个 FDE；Anthropic 也宣布与 Blackstone 等金融机构合作成立 15 亿美元的合资企业。两位一线从业者在播客里谈到，模型公司开始意识到模型本身不是产品，产品要落地还需要大量贴近客户的工程工作——这恰好印证了精讲二的判断：单纯把模型做强不会自动带来可靠的交付，中间这层「把能力变成可用系统」的工程工作，价值正在被重新定价。 ## 补充阅读 [大规模采用 AV1 进行实时通信（RTC）](https://www.bestblogs.dev/article/46b40515) —— Meta 详述了在 Messenger 和 WhatsApp 上部署 AV1 编解码器的多年历程，涵盖设备资格的 ML 判定、自适应码率控制和错误恢复机制，适合做实时音视频基础设施的工程师参考。 [腾讯王腾飞：从生成内容到生成环境，世界模型的 3D 落地之路](https://www.bestblogs.dev/article/ebff792d) —— 腾讯混元世界模型团队负责人深度专访，拆解 HY-World 2.0 的四阶段生成流程，并探讨世界模型与游戏、具身智能的关系，适合关注世界模型技术路线的读者。 [每周使用 AI、开放工具和人机协同发布 huggingface_hub](https://www.bestblogs.dev/article/cb37f57c) —— Hugging Face 用开放模型、确定性验证循环和人机协同把发布流程自动化，从半天工作量压缩到几分钟，适合关心开源维护者效率问题的团队。 [Codex 日志正在燃烧你的 SSD](https://www.bestblogs.dev/article/58fb6bc9) —— 深入分析 OpenAI Codex 把 TRACE 级网络事件写入持久化 SQLite 数据库导致的写入放大问题，给出风险分层和止血方案，适合每天使用 Codex CLI 的开发者排查本机性能问题。 [Spring AI 2.0 中的自纠正结构化输出](https://www.bestblogs.dev/article/95cbc77f) —— Spring AI 2.0 新增提供商原生模式强制执行和响应端自纠正验证两种机制，让模型在重试时能看到具体错误而不是盲目重来，适合用 Java/Spring 生态做结构化输出的工程师。 ## 今日阅读路径如果今天只有十分钟，建议按这个顺序读：先读精讲一（Claude Tag 的智能体身份），它给出了今天整期早报最底层的那把钥匙——当 agent 的自主性持续增强，「谁能做什么」必须从「这个用户」下沉到「这个智能体在这个范围内」；接着读精讲二（AI 编程的隐性代价），看清楚没有这层边界会发生什么——Instagram 漏洞、CISO 离职、刷 Token 量绩效造假，这些都是真实代价而不是假设；最后读精讲三（Harness 架构与 Token 经济学），看怎么把抽象的「边界」工程化成 Rules、Hooks 这样可复制、可优化的系统，顺带把单次对话成本砍掉三成。三篇放在一起读，会比单独读任何一篇更能看清楚：2026 年 AI 工程的核心命题，已经从「模型够不够强」转向「有没有一套靠得住的边界，把强模型的自主性安全地释放出来」。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，关注你感兴趣的来源和主题，每天生成一份更适合自己的「我的早报」，欢迎体验。

译Anthropic 为 Claude Tag 推出智能体身份模型，Claude 在团队频道拥有独立账号，权限按频道配置可覆写，撤销身份即可终止访问。AI 编码代价方面，Meta 一次 AI 生成代码（无人工验证）导致 Instagram 密码重置漏洞，CISO 离职；Amazon 核心平台中断；GitHub 因负载增长三倍不稳定。腾讯云开发者介绍 Harness 工程：同一 LLM 换装更精巧外架构后，TerminalBench 2.0 通过率从 52.8% 升至 66.5%，排名从 30 名外进入前 5。

ginobefun@hongming731 · 6月24日37

BestBlogs 早报 · 06-24 # Claude Tag / 智能体身份 / Harness 工程 / MiniMax / FDE [1] ★ 精讲｜智能体身份：适用于自主、团队级 AI 的新型访问模型 | Claude Anthropic 为 Claude Tag 推出「智能体身份」访问模型：团队频道里的 Claude 不再借用某个人的权限，而是拥有管理员配置的独立账号体系，按频道继承或覆写权限边界，能读写 GitHub、数据仓库等系统并留下独立审计轨迹。核心转变是从「这个用户能做什么」变成「这个智能体在这个范围内能做什么」——这是多人协作场景下自主智能体访问控制的关键基础设施。来源：Claude Blog https://www.bestblogs.dev/article/b6b6137f [2] ★ 精讲｜慢下来才能更快：AI 如何重塑软件工程 [视频] 《Pragmatic Engineer》梳理了 AI 高速生成代码带来的结构性代价：Meta 一次未经人工复核的 AI 生成代码直接导致 Instagram 重置密码漏洞，CISO 在事故调查中离职；Meta、Amazon 内部出现「刷 Token 量」绩效造假，GitHub 因 AI 驱动的提交量暴涨三倍而持续抖动。作者给出务实对策：限制每日可审计的生成量、把 AI 用于清偿技术债而非替代理解、不让工具决定架构判断——速度的代价正在系统性显现。来源：The Pragmatic Engineer https://www.bestblogs.dev/video/550c5a2 [3] ★ 精讲｜从 Harness 架构到 Token 经济学的探索腾讯云开发者结合 LangChain、Anthropic、OpenAI 等一线工程实践，系统拆解「Harness 工程」：同一模型换上更精巧的外层架构，TerminalBench 通过率即可从 52.8% 跃升到 66.5%，证明卡住效果的常是「壳」而非模型本身。文章用控制论、ReAct、Reflexion、MCTS 等理论对照真实的 Rules / Hooks / Skills 配置，并实测把单次对话基础开销从 23.5K 降到 15K token，降幅 36%——给 AI 编程团队一套可复制的架构与成本优化方法论。来源：腾讯云开发者 https://www.bestblogs.dev/article/70410bef [4] 当反思无法修复 AI 智能体的输出时该怎么办本文认为，使用基于 LLM 的反思来修复结构化 AI 智能体输出并不可靠，并提出一种确定性的「生成-验证-重试」循环作为更可靠的替代方案。来源：freeCodeCamp https://www.bestblogs.dev/article/4be45766 [5] 前 Meta L8 工程师的智能体工程设置一位前 Meta L8 工程师分享了他完整的智能体工程设置——以终端为中心、键盘驱动——将智能体作为自主队友用于规划、实现和验证。来源：ByteByteGo Newsletter https://www.bestblogs.dev/article/ea0d869f [6] Seed2.1 正式发布，深入 AI 生产力字节跳动发布 Seed2.1 系列模型，面向真实生产力场景，在通用 Agent、代码工程交付和多模态理解三大能力上实现显著提升，并已在豆包和 TRAE 上线。来源：字节跳动 Seed https://www.bestblogs.dev/article/1c83ff2d [7] OpenAI 联手 PE 砸下 40 亿美元，聊聊硅谷最火新职位 FDE 本文通过一线从业者对谈，深入解析 FDE（前线部署工程师）的岗位职责、能力要求，并探讨模型公司联手 PE 成立部署公司背后的商业逻辑，以及 AI 落地浪潮对咨询和私募行业的影响。来源：硅谷 101 https://www.bestblogs.dev/article/32b5da89 [8] Claude Code 主创复盘疯狂的一年｜对话 Boris & Cat Claude Code 主创 Boris 与 Cat 复盘了 AI 编程一年来团队内部工作流的演进，核心观点是工程师的核心工作正从写代码转向设计能自主发现任务、分派执行的循环系统（Loop Engineering）。来源：十字路口 Crossing https://www.bestblogs.dev/article/8b737736 [9] 对话 MiniMax 闫俊杰：M3、10X 计划、10T 模型、和智能的终局 [播客] MiniMax CEO 闫俊杰罕见公开分享从 M1 到 M3 的模型迭代至暗时刻与突破、训 10T 大模型的决心、以及对模型与 Agent 关系、中美差距的深度思考。来源：十字路口 Crossing https://www.bestblogs.dev/podcast/8823d0d [10] 谁做什么？面向智能体平台的团队拓扑本文将领团队拓扑应用于智能体平台，定义团队类型与交互方式，以分配 AI 驱动生产中被转化的认知负荷。来源：Hacker News https://www.bestblogs.dev/article/3fa5680e --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-24

译Anthropic 为 Claude Tag 推出智能体身份访问模型，赋予 AI 独立账号体系。Meta 因 AI 生成代码未经人工复核导致 Instagram 漏洞

Berryxia.AI@berryxia · 6月24日47

Claude 可以直接开启了你的数字分身！我知道你很兴奋，但普通用户还用不了😂 Claude现在可以直接在Slack里当团队成员了，你@它就能让它干活。新功能叫Claude Tag，它能加入指定频道和工具，别人@它就能让它拆解任务、写PR、跑数据分析、处理各种故障。频道里只有一个Claude，大家可以接力使用，它还会积累上下文。开启环境模式后，它甚至会主动跟进沉寂的线程，提醒相关信息。这算是Claude Code的团队版进化，Anthropic自己内部已经在大量使用。目前在Enterprise和Team计划的beta阶段。不过看评论区，大部分人反应是：“行吧行吧…… Fable呢？”

译Anthropic 推出 Claude Tag，让 Claude 以团队成员身份加入 Slack。用户可指定频道和工具，通过 @Claude 委托任务（拆解任务、写 PR、跑数据分析、处理故障）。频道内一个 Claude 实例可供多人接力使用，并积累上下文；开启环境模式后，它会主动跟进沉寂线程并提醒相关信息。该功能被视为 Claude Code 的团队版进化，Anthropic 内部已大量使用。目前面向 Enterprise 和 Team 计划开放 beta 测试。

Berryxia.AI@berryxia · 6月24日54

最近你的时间线一定出现了各种AI产品支持GLM 5.2 的宣传！是真的火出圈了，尤其鬼佬兴奋的不行。国人是因为抢不到coding plan 而暗自不爽😂 今天看到Flowith家的Matrix把GLM-5.2直接接入Matrix里，让用户能用1M上下文直接干长程产品构建和agent公司。 GLM-5.2本身就擅长long-horizon coding和复杂多步执行，现在通过Matrix这个agentic workspace，用户可以直接在里面构建产品、部门、工作流，甚至整个agent公司。 Matrix的beta用户还能领到1000万免费tokens（限时），这已经不是单纯的模型调用，是把强模型和实际执行环境绑在一起了。以前大家觉得“用AI建公司”还停留在聊天和prompt阶段，现在有了1M上下文 + 结构化的agent workspace，执行链条被大幅拉长和稳定化。 Matrix的用户反馈也指向了这一点：它更适合真正把东西做出来，而不是只停留在 ideation。这其实是把“模型能力”和“执行环境”进一步融合的一次尝试。强模型负责思考和规划，workspace负责持久上下文和多步执行，两者结合后，个人或小团队能做的事情边界又被推远了一点。

译GLM-5.2 近期火爆出圈，尤其海外用户兴奋，国内用户则因抢不到 coding plan 而不爽。Flowith 的 Matrix 产品已接入智谱 GLM-5.2，提供 1M 上下文窗口，适用于 long-horizon coding、产品构建和复杂多步执行。Matrix 作为 agentic workspace，用户可直接在其中构建产品、部门、工作流甚至整个 agent 公司。所有 Matrix beta 用户可领取 1000 万免费 tokens（限时），这标志着强模型与执行环境的进一步融合，个人或小团队的能力边界被推远。

Andrej Karpathy@karpathy · 6月24日55

This is a new paradigm for interacting with Claude that is significantly more "inline" with all the other human activity org-wide. Once you do all of the under the hood engineering work to make this "just work" (e.g. across tools, integrations, compute environments, memory, security, etc.), Claude basically joins the team in a seamless way - you can talk to it as you would talk to a person and it can help with a very large variety of workloads. Imo this is the 3rd major redesign of LLM UIUX. The first paradigm was that the LLM is a website you go to, the second was that it is an app you download to your computer. This third one is that it is a self-contained, persistent, asynchronous entity with org-wide tools and context, working alongside teams of humans. It really takes a while to wrap your head around it, but it works and it is awesome.

译Anthropic 推出 Claude Tag，让 Claude 以团队成员身份加入 Slack 频道，可被 @提及并委派任务。团队可为其配置频道访问权限和工具，从而实现异步协作。Andrej Karpathy 评价这是 LLM UI/UX 的第三次重大重新设计：从访问网站、下载 App，演进为自包含、持久、异步的组织级实体，无缝融入人类工作流，能处理多种工作负载。

Google AI Developers@googleaidevs · 6月24日60

The Gemini Interactions API is your unified interface for text, multimodal inputs, tool use, and managed agents all in a single endpoint. Go from prompt to production faster than ever. Read the developer guide ⬇️ https://x.com/GoogleAIStudio/status/2069450021955592406

译Gemini Interactions API 是您处理文本、多模态输入、工具使用和管理智能体的统一接口，所有这些都集成在一个端点上。从提示词到产品，比以往更快。阅读开发者指南 ⬇️ https://x.com/GoogleAIStudio/status/2069450021955592406

宝玉@dotey · 6月24日54

Google Workspace CLI 这项目当时我还转发过，没想到几个月过去，作者 Justin Poehnelt 因为这个项目被开除了。 Justin 在 Google 干了将近七年，岗位是 Workspace 开发者关系工程师。今年 3 月初，他用 Rust 写了一个 Google Workspace CLI，放在了 Google 官方 GitHub 组织下（http://github.com/googleworkspace/cli），可以用命令行操作 Gmail、Drive、Calendar 等所有 Workspace 服务，还内置了 MCP 服务器，AI agent 可以直接调用。 Addy Osmani 3 月 5 日发推介绍了这个项目。然后就爆了，Hacker News 第一名，GitHub star 数冲到两万多，几天之内就有了几千个实际用户。 Google 内部的反应是两极的：有总监和高管主动来问这个工具能教他们什么；同时法务开始盘问他，为什么项目上有 Google 的 logo 和品牌色。 4 月 22 日到 24 日的 Google Cloud Next 大会上，Google Workspace 官方博客宣布官方 Workspace CLI 即将推出。两天后，Justin 被开除了。他怀疑是 Workspace 的某些管理层和项目害怕被 AI agent 颠覆，而这种恐惧不只是针对他的 CLI，是针对整个 agent 对 Workspace 意味着什么。 Hacker News 上对这件事的观点两极分化。一派认为这是 Google 官僚主义碾压创新的典型案例，七年老员工做了个用户真正想要的东西，然后被自己公司干掉了。另一派指出，Google 有一套非常明确的开源发布审批流程，用公司品牌发布未经批准的项目，在任何大公司都可能被开除。 Justin 本人在 Hacker News 回复里的说法是：作为 DevRel 工程师，开源发布审批本来就是他日常工作的一部分，而且这个流程文档不清楚，还一直在变。这个项目本身还活着。最新一次更新是 6 月，GitHub 上 26000 多颗星，InfoQ 和 BetterStack 都有详细的教程。Justin 被开除后还在继续写技术博客，最近一篇是用 Claude Code 的 subagent 做 Gmail 分类。对于正在用这个 Workspace CLI 的开发者来说，眼下倒不用太担心，项目还在 Google 的 GitHub 组织下正常维护。

译谷歌开发者关系工程师 Justin Poehnelt 今年 3 月初用 Rust 创建了 Google Workspace CLI，支持命令行操作 Gmail、Drive、Calendar 等服务并内置 MCP 服务器。项目发布后登顶 Hacker News，GitHub 获两万多星。谷歌内部反应两极：高管主动请教，法务质疑品牌色。4 月 22–24 日 Google Cloud Next 大会官方宣布即将推出官方 CLI，两天后 Justin 被开除。他怀疑管理层害怕被 AI agent 颠覆。项目仍在 Google GitHub 组织下正常维护（26000+ 星）。

Orange AI@oran_ge · 6月24日61

你的 AI 数字员工，Claude Tag 正式发布了 Claude 的思考和其他产品有点不同不是基于三省六部给身份，也不是基于 team context 让 Agent 知道一切。他们选择了一个 channel based context，因此来界定 multi Agent 这也是 Claude 内部使用数字员工的方式。很有意思，正在实践 AI 新组织的可以看看

xAI@xai · 6月24日50

Try the new Firecrawl plugin in the Grok Build Plugin Marketplace

译尝试 Grok Build 插件市场中的新 Firecrawl 插件。

SemiAnalysis@SemiAnalysis_ · 6月24日50

Today, @_catwu introduced “Claude Tags,” a Slack AI coworker and direct competitor to @perplexity_ai’s Computer. @AravSrinivas’s Computer Slack coworker has been wildly useful internally at SemiAnalysis, which is why Anthropic launched a competing product. The team is configuring Claude Tag AI coworkers and is excited to compare and contrast them with Perplexity Computer.

译SemiAnalysis 团队测试了 Devin、Mistral、Grok、Perplexity 等多款 AI 工具，发现 Perplexity Computer 的 Slack 集成表现远超 Claude：它可发送图片并返回详细研究报告与可视化，是唯一带来“正向价值”的工具。目前该团队超 96% 的 token 预算用于 Anthropic，但部分可能转向 Perplexity。Anthropic 今日推出 Slack AI 同事工具 Claude Tags，直接对标 Perplexity Computer。团队已开始配置，计划进行对比评测。

宝玉@dotey · 6月24日70

http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装 Skill，这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

译http://transitions.dev 这个网站的动画过渡效果很不错👍 还可以安装技能，这样 Agent 可以自己为你的网页添加炫酷的动画 npx skills add jakubantalik/transitions.dev

MiniMax (official)@MiniMax_AI · 6月24日28

some scenes from the @hud_evals × @ycombinator Frontier RL Environments Hackathon over the weekend. 24 intense, collaborative hours with 200 of the top builders in the world turning browser-use, robotics, logistics, and worldsims into environments where models can actually learn from. a few highlights built with MiniMax M3: Tera — zero-token browser-use RL env, #3 overall Warehouse AI — autonomous warehouse robot fleet coordination Atomz — Mars construction rovers in simulation project videos in the comments.

译MiniMax 官方回顾了上周末与 HUD Evals、Y Combinator 联合举办的 Frontier RL Environments 黑客马拉松。活动吸引了 200 名顶尖开发者，在 24 小时内利用浏览器使用、机器人、物流和世界模拟等环境进行强化学习。基于 MiniMax M3 构建的出色项目包括：零 token 浏览器使用 RL 环境 Tera（总排名第三）、自主仓库机器人车队协调系统 Warehouse AI，以及火星建筑漫游车仿真项目 Atomz。

AYi@AYi_AInotes · 6月24日62

哇偶哇偶，你的下一个同事，以后只需要在Slack里@一下。 Anthropic刚刚宣布把Claude Code嵌入Slack，推出Claude Tag。自带频道专属记忆、主动监控频道、独立跑代码提PR，任务收尾自动打上✅标记，内部产品团队65%的新增代码都由它产出。核心运行逻辑拆成三层，很好理解： 1. 独立身份+频道隔离记忆不同项目频道上下文完全互不混淆，不会串起产品、客服两条线的对话；每条对话线程单独分配沙箱，任务结束直接销毁，隔离性拉满。 2. 主动自主执行，不用反复写长提示词提前给清基础规则，它会全天盯紧频道、自动答疑、汇总项目信息，问题闭环后主动标记状态，全程不用人工催促。 3. 原生Claude Code代码能力，多层安全防护支持拉取仓库、编写调试代码、自动化测试、提交PR，所有操作在封闭沙箱运行；模型过滤、密钥权限管控、频道边界三重安全兜底，不会触碰敏感密钥。日常覆盖全团队高频工作： • 内部知识库检索：快速回复服务负责人、历史故障复盘等问题，不用翻海量历史链接 • 新人入职答疑，自动承接重复性基础提问 • 代码迭代、反馈处理、故障排查、数据统计全流程辅助 • 自定义频道值守规则，完全按你的要求自动运行上手门槛极低，频道添加@.Claude，一句自然语言指令就能完成配置。这件事真正的行业信号，远不止「Slack多了一个AI机器人」。过去我们用AI，要单独打开网页、复制粘贴上下文来回切换；现在AI直接驻扎在日常协作场景里。很多团队AI落地卡顿，瓶颈从来不是模型能力，而是没法让AI融入原本的工作流，Claude Tag给出了最务实的解决方案。目前仅Enterprise与Team付费计划开放Beta，小团队暂时无法使用。落地提醒：优先挑选低风险测试频道，清晰限定执行规则，所有代码、业务结论必须人工复核，复杂战略、客户沟通不能全权交给AI。如果你们团队正在用Slack，可以先拿一个辅助频道试水。

译Anthropic 将 Claude Code 嵌入 Slack，推出 Claude Tag。AI 以团队成员身份加入频道，具备频道专属记忆、主动监控、独立跑代码并提 PR，任务完成自动标记 ✅。内部产品团队 65% 新增代码由 Claude Code 产出。三层架构：独立身份+频道隔离记忆（不同项目上下文不混淆，沙箱任务结束销毁）；主动自主执行（设置规则后全天盯频道、答疑、汇总）；原生 Claude Code 代码能力（拉取仓库、调试、测试、提 PR），多层安全防护。支持知识库检索、新人答疑、代码迭代、故障排查等。仅 Enterprise 与 Team 付费计划开放 Beta。建议低风险频道测试并人工复核。

Chubby♨️@kimmonismus · 6月24日52

I use Slack daily. Claude Tag actually sounds like a very useful feature to me, one that I would even use. "We’re starting on Slack, which Claude can join as a team member. Grant Claude access to selected channels, and connect it to whichever tools, data—and even codebases—you choose."

译Claude 推出 Claude Tag 功能，支持将 Claude 添加为 Slack 团队成员。用户可选择授权频道与工具，通过 @ 提及 Claude 委派任务，让 Claude 访问选定数据甚至代码库，团队成员可并行推进其他工作。该功能旨在提升团队协作效率，将 Claude 整合进日常沟通流。

AK@_akhaliq · 6月24日43

Ling and Ring 2.6 Technical Report Efficient and Instant Agentic Intelligence at Trillion-Parameter Scale

译Ling and Ring 2.6 Technical Report 高效且即时的万亿参数量级智能体智能

Rohan Paul@rohanpaul_ai · 6月24日70

Agents token burn needs more visibility. Latitude just launched an open-source, MIT licensed monitoring platform that turns AI agent conversations into production debugging data. Most agents already talk to more users than any teammate, but those chats usually sit as raw logs, so teams miss frustration, unmet requests, repeated failures, and churn signals. Latitude organizes that mess into a see, catch, fix loop: see sessions, users, tools, cost, latency, and behaviors; catch repeated failures through Signals; fix them from your editor through MCP. The product is built for production agents, not just model calls, because agent quality depends on tool use, user intent, retries, cost, latency, and the gap between what the user expected and what the system did.

译Latitude 发布 MIT 许可的开源监控平台，将 AI 智能体对话转为生产调试数据。多数智能体已比员工接触更多用户，但对话仅存为原始日志，导致团队错过用户不满、未满足请求、重复失败和流失信号。平台提供 see, catch, fix 循环：查看会话、用户、工具、成本、延迟和 behaviors；通过 Signals 捕获重复失败；通过 MCP 从编辑器直接修复。平台面向生产智能体，关注工具使用、用户意图、重试、成本、延迟等，而非仅模型调用。推文称智能体对话是公司最被低估的数据源，Latitude 正改变此局面。

宝玉@dotey · 6月24日65

今天发布了 Claude Tag，让 Claude 以同事的身份常驻 Slack 频道。团队成员在频道里 @Claude 就能分配任务，Claude 会把任务拆成几个步骤，逐步完成后在 Slack 线程里交付结果。目前以 research preview 形式提供，Claude Enterprise 和 Team 客户可以使用。跟之前 Slack 里给 Claude 发私信或者在频道里临时呼叫不同，Claude Tag 有几个变化。一是多人协作。一个频道里只有一个 Claude 身份，所有人共享同一个对话上下文。你让 Claude 做了一半的事，同事可以接着往下聊，不用从头解释。二是持续学习。 Claude 会持续关注频道里的对话，逐渐积累对团队工作的理解，不需要每次都重新交代背景。管理员可以授权它读取其他频道的信息，让它更快了解整个组织的情况。三是主动干活。开启 ambient 模式后，Claude 会主动推送它认为你需要知道的信息，跟进没人回复的线程，提醒被遗忘的任务。Anthropic Claude Code 产品负责人 Cat Wu 举了个例子：她把自己的 Claude Tag 连上了 Gmail，Claude 会自动读邮件，遇到重要邮件就在 Slack 里通知她。权限控制方面，管理员可以精确指定每个频道的 Claude 能访问哪些工具和数据。法务频道的 Claude 不会把信息带到工程频道，也不会让工程师接触到法务数据。 Anthropic 自己已经是重度用户。目前产品团队 65% 的代码由内部版 Claude Tag 生成。用途也不限于写代码，团队还用它查产品数据、处理客服工单、排查疑难 bug。 Claude Tag 会替换现有的 Claude in Slack 应用，管理员有 30 天的迁移窗口。Anthropic 会给符合条件的企业和团队账户发放体验额度。底层模型用的是 Opus 4.8。

译Anthropic 发布 Claude Tag，以 research preview 形式将 Claude 作为同事常驻 Slack 频道。团队成员 @Claude 可分配任务，Claude 逐步完成并在线程交付结果。新功能支持多人协作（共享上下文）、持续学习（自动关注频道对话，可授权读取其他频道）和 ambient 模式（主动推送信息、提醒任务）。管理员可精确控制各频道数据访问权限。内部产品团队 65% 的代码由内部版 Claude Tag 生成，底层模型为 Opus 4.8。将替换现有 Claude in Slack 应用，管理员有 30 天迁移窗口，目前仅面向 Claude Enterprise 和 Team 客户。

AYi@AYi_AInotes · 6月24日45

兄弟们，华尔街六位数年费的投研能力，现在一套开源系统免费就能用。 4.6万GitHub星标，8千次分叉，MIT协议完全开源，一分钱不用花。不用凑两万五千美元的开户门槛，不用付彭博终端六位数年费，更不用给对冲基金交百分之二管理费加百分之二十业绩分成，十八位对应不同流派的智能体，直接在你笔记本上跑。巴菲特锚定合理价格的卓越企业，芒格死守每笔交易的安全边际，迈克尔贝瑞逆向挖掘被市场忽略的深度价值，木头姐高信念押注颠覆性成长赛道，还有格雷厄姆达莫达兰比尔阿克曼，外加十一位覆盖技术面情绪面风控基本面的专家，全员独立输出判断。输入一个股票代码，系统自动抓取实时财报资产负债表内幕交易动态与全量市场新闻。每位智能体严格遵循自身投资哲学做分析，风控模块同步排查仓位风险。最终由组合经理整合所有信号给出买卖持有结论，每一步都附完整推理链，全程没有黑箱。打开推理展示模式，相当于坐在上帝视角看这群大佬当场辩论。护城河拆解，风险点揪出，机会挖掘，正反两面全部摊开，所有决策逻辑一目了然。内置完整回测引擎，可用历史数据验证策略收益。配了可视化网页界面，不用敲复杂命令行，上手就能用。支持主流云模型接口，也能通过Ollama完全本地运行，所有数据永远不会离开你的设备。核心标的基础数据永久免费，连API密钥都不用申请。所有AI分析都只是参考，不能替代自主决策，但如果这套系统给你拿了半年的持仓票，发出了明确的卖出信号，你会重新审视这笔投资吗。仓库链接放评论区👇 #美股#AI投资#开源项目

译一个4.6万星标、8千次分叉的MIT协议开源项目，提供免费AI投研系统。输入股票代码后，18位分别模仿巴菲特、芒格、木头姐、格雷厄姆等流派的智能体会自动抓取实时财报、新闻，依据各自投资哲学独立分析，风控模块排查仓位风险，最终由组合经理输出买卖持有结论，推理链完全透明。内置回测引擎、可视化网页界面，支持云模型或通过Ollama完全本地运行，核心基础数据永久免费，无需API密钥。

🚨 AI News | TestingCatalog@testingcatalog · 6月24日56

Anthropic launched Claude Tag for Team and Enterprise users. Claude Tag works in Slack and can tackle more complex tasks, break them down into smaller milestones, and integrate with connected tools. A new AI coworker 👀

译Anthropic 为团队和企业用户推出了 Claude Tag。 Claude Tag 在 Slack 中运行，能够处理更复杂的任务、将其分解为更小的里程碑，并与已连接的工具集成。一位新的 AI 同事 👀

elvis@omarsar0 · 6月24日61

Very cool to see more focus on agent observability tools. I pointed Latitude at my Claude Code setup and immediately saw which tasks were actually eating my token budget. It's a great way to: > See what your agent does > Catch the failures that keep repeating, with the frequency and reason > Fix them without leaving your editor Open source and MIT licensed! Try it free at http://latitude.so

译DAIR.AI 创始人 Elvis Saravia 推荐开源（MIT 许可）工具 Latitude，用于 AI 智能体可观测性。将 Latitude 指向 Claude Code 配置后，可实时查看哪些任务消耗 token 预算，观察智能体行为、捕获重复失败及其频率与原因，并在编辑器中直接修复。引用推文指出：公司最被低估的数据源是 AI 智能体对话，Latitude 能捕捉这些被浪费的数据。免费试用地址：latitude.so。

Yuchen Jin@Yuchenj_UW · 6月24日46

They're just like us.

译在Slack中，Claude 作为团队成员加入，可访问你选择的频道和工具。@Claude 并委派任务给它，让你专注于其他工作。他们和我们一样。

Thariq@trq212 · 6月24日57

Claude Tag is an incredible new form factor for agents, so I think it's going to take some time to figure out the best practices, but these are some of my favorites 🧵

译Claude Tag 是一种令人难以置信的智能体新形态，因此我认为需要一些时间来摸索最佳实践，但以下是我最喜欢的一些做法 🧵

Rohan Paul@rohanpaul_ai · 6月24日66

Anthropic just turned Claude into a shared Slack teammate that can read approved channels, use approved tools, and handle work after someone tags Claude. Anthropic says its internal version now creates 65% of its product team’s PR. So the point is to move Claude into the place where team decisions, bugs, metrics, and handoffs happen. The big shift is shared memory, because here Claude sits inside a channel and builds work context from the channel instead of forcing every person to restart the explanation in a private chat. A person can tag @ Claude with a request like “investigate this bug,” and Claude can split the task into steps, inspect connected tools, write code, analyze data, open or merge pull requests, and report back inside the Slack thread. Access is scoped by admins, so a sales Claude and an engineering Claude can have separate tools, memories, spend limits, and separate codebases or documents it can see. Claude then gets its own account and credentials, so its actions are separate from any employee’s account and can be logged. When someone writes @ Claude in a thread, Claude reads the thread, uses the channel’s past context, checks any allowed tools, breaks the task into steps, and starts doing the work.

译Anthropic 推出 Claude Tag，让 Claude 作为共享队友加入 Slack 频道。Claude 可读取经批准的频道、使用授权工具，在被 @ 后自动分解任务、编写代码、分析数据、打开或合并 PR，并在线程中汇报结果。内部版本已为产品团队创建 65% 的 PR。管理员可为不同团队分别配置工具、记忆、额度及可访问代码库。Claude 拥有独立账号和凭据，操作与员工账号分离且可审计。共享记忆让 Claude 从频道中积累工作上下文，无需私聊重复解释。

Boris Cherny@bcherny · 6月24日56

We're launching Claude Tag today. Tag Claude into Slack and it works in channel with you. It’s proactive, multiplayer, with its own identity and memory. But it’s not just a bot in Slack. Over the last few months, it’s totally changed how we use Claude

译我们今日发布 Claude Tag。在 Slack 中 @Claude，它就能与你一起在频道中工作。它主动、支持多人协作、拥有独立身份和记忆。但它不只是 Slack 中的一个机器人。过去几个月，它彻底改变了我们使用 Claude 的方式。

ClaudeDevs@ClaudeDevs · 6月24日70

The Claude Code team has been shipping with Claude Tag internally all year. It now writes 65% of our product team's code, including most of what built Claude Tag itself. Here are a few ways we use it every day: 🧵 https://x.com/claudeai/status/2069468693017268244

译Claude Code 团队全年内部使用 Claude Tag。目前，Claude Tag 已编写了产品团队 65% 的代码，其中大部分代码本身也用于构建 Claude Tag。Claude Tag 是团队协作新工具，在 Slack 中作为成员加入，可访问指定频道和工具，用户通过 @提及将任务委派给 Claude。

elvis@omarsar0 · 6月24日38

Eve does feel like the "Next.js for agents" as @rauchg puts it. You got to check it out!

译Vercel 的 eve AI 智能体框架将所有内容（工具、技能、评估）都视为文件，让你能快速上手构建 AI 智能体。如果你喜欢 TypeScript，也会喜欢它。快去试试吧！

Google AI Developers@googleaidevs · 6月24日62

🗣️We built Managed Agents in the Gemini API to handle the plumbing so you can focus on building smart, autonomous agents. With just a single prompt, see how the agent researches a topic and builds a radio show from scratch. Here’s how it works: - [Zero infrastructure setup] The API automatically spins up a secure, temporary Linux sandbox. - [Autonomous loops] The agent independently plans, self-corrects, and executes its own code. - [Multi-step logic] With instructions and tools defined via industry-standard agents.md and skills.md files, the agent uses its Gemini-optimized understanding to draft and produce a dynamic, back-and-forth audio dialogue, generate music, create album art and more, all in a single API call. https://x.com/_philschmid/status/2062908191634076056/video/1

译Google AI for Developers 宣布在 Gemini API 中推出 Managed Agents，开发者只需一条提示即可构建自主智能体。该智能体能自动研究主题并从头制作广播节目，包括生成对话音频、音乐、专辑封面等。核心特性：零基础设施设置——API 自动创建安全的临时 Linux 沙箱；自主循环——智能体独立规划、自我纠错并执行代码；多步逻辑——通过 agents.md 和 skills.md 文件定义指令和工具，Gemini 优化理解后在一次 API 调用内完成全部任务。

Chubby♨️@kimmonismus · 6月24日70

Been waiting for someone in agent observability to do this properly. Latitude doesn't just hand you traces. It collapses repeated failures into one issue with frequency and reason, and lets you search production conversations in plain English. Open source, MIT licensed, self-hostable. Rare in this category. (and you know that i love open source) If you run agents in prod, the Claude Code token telemetry is the part I'd try first.

译Latitude 是一款开源的 AI agent 可观测性工具，MIT 许可、可自托管。它不局限于提供 traces，而是将重复失败自动归纳为单个 issue，显示频率和根本原因；还支持用自然语言搜索生产对话。引用推文指出，AI agent 对话是公司最被低估的数据源，Latitude 能改变这一状况。推荐优先尝试其 Claude Code token telemetry 功能。

elvis@omarsar0 · 6月24日48

I'm digging the eve agentic framework from Vercel. I like that everything is files, from the tools to the skills to the evals. More importantly, it's gets you building with agents fast. Very promising. If you like TypeScript you will dig this too. Get started with eve ↓

译我很喜欢 Vercel 的 eve 智能体框架。我欣赏它的一切都是文件，从工具到技能再到评测。更重要的是，它能让你快速使用智能体进行开发。非常有前景。如果你喜欢 TypeScript，你也会喜欢这个。开始使用 eve ↓

Rohan Paul@rohanpaul_ai · 6月24日51

AI coding has a QA problem. And Momentic just released a testing platform around that bottleneck: faster code means little if QA cannot scale with it. So Momentic's testing agents read the same product memory humans use, including Linear tickets, Notion PRDs, and PR diffs, so tests are based on intended behavior rather than blind script matching. They are claiming in the past few weeks, its agents analyzed 70K+ test failures, created 600 tests, and reached a 73% PR merge rate.

译AI编码速度提升但QA成为新瓶颈。Momentic推出测试平台，其智能体可读取Linear工单、Notion PRD和PR差异等产品记忆，使测试基于预期行为而非静态脚本。过去几周，该平台已分析7万+次测试失败，创建600个测试，PR合并率达73%并持续增长。客户包括Notion、Xero、Webflow、Retool、Runway和Bilt。

AK@_akhaliq · 6月24日32

World Action Models: A Survey

译世界动作模型：一项综述

AK@_akhaliq · 6月24日35

PlanBench-XL Evaluating Long-Horizon Planning of LLM Tool-Use Agents in Large-Scale Tool Ecosystems

译PlanBench-XL 评估LLM工具使用智能体在大型工具生态系统中的长时域规划能力

Berryxia.AI@berryxia · 6月24日43

刚刚，鹅厂上线开源来EdgeOne Makers！ AI Agent 一句话部署应用，云平台的玩法变了！必须得吹一波了😂赶紧丢给Agent学习就在刚刚，腾讯做了一件没人注意到的事。他们发布了一个叫EdgeOne Makers的平台。没有发布会。没有大佬站台。只有一条推文和一个GitHub仓库。这个平台的核心理念只有一句话：让AI Agent自己部署应用。过去，部署一个Web应用需要什么。登录控制台。选区域。配域名。设环境变量。点部署。看日志。排错。再点部署。每一步都是人在操作界面。 EdgeOne Makers把这件事倒过来了。你只需要告诉AI一句"把这个Next.js项目部署了"，它就会通过CLI自动完成全部流程。 Git推送。CI/CD触发。边缘函数部署。预览链接生成。全程不需要打开浏览器。它的底层是一套标准化的Skill系统。每个Skill对应一个能力模块：边缘函数、云函数、KV存储、中间件、AI Agent框架。 Claude Code、Cursor、CodeBuddy都能直接调用。 AI Agent读取Skill文档后，就知道怎么用代码操控整个部署流程。这背后有一个更深层的趋势。过去十年，云平台的设计逻辑是"为人服务"——图形界面、拖拽操作、可视化配置。但AI Agent不需要GUI。它需要的是API、CLI和结构化的文档。EdgeOne Makers本质上是第一个为Agent设计的云平台。腾讯没有大肆宣传这件事。但GitHub上已经有完整的开源仓库，支持Node.js、Go、Python三种语言的云函数，V8边缘运行时，以及LangGraph、Claude SDK、OpenAI Agents等主流Agent框架的集成。当其他云厂商还在优化控制台界面的时候，腾讯已经把控制台本身变成了可编程的接口。这可能是云计算的下一个范式转变——不是人去适应云，而是Agent直接操控云。地址： GitHub：http://github.com/TencentEdgeOne/edgeone-makers-tools

译腾讯低调发布EdgeOne Makers平台，无发布会，仅一条推文和一个GitHub仓库。核心理念：让AI Agent一句话部署应用——通过CLI自动完成Git推送、CI/CD触发、边缘函数部署及预览链接生成，无需打开浏览器。底层标准化Skill系统支持边缘函数、云函数、KV存储等能力模块，Claude Code、Cursor等Agent可直接调用。GitHub已开源，支持Node.js、Go、Python云函数和V8边缘运行时，集成LangGraph、Claude SDK、OpenAI Agents等主流框架。这标志着云平台从为人设计转向为Agent设计。

Rohan Paul@rohanpaul_ai · 6月24日67

The biggest weakness of AI agents: every useful run usually dies with the session. Imagine being able to turn an AI workflow into a desktop application that runs without consuming any tokens when restarted. i.e. non-technical users can create complete, deployable applications through natural language alone No programming background needed. Just open the app, describe what you need, done. No vibe-coding, instead it’s outcome-coding. Newly launched KroWork is turning an AI chat into a small desktop app you can reuse. Instead of getting a one-time answer, you get a workflow that can run again without rebuilding it. So with KroWork, you describe a task once, the AI agent builds the workflow, and then you can save it as software you actually keep. The conversation becomes something persistent, local, and reusable. Besides, it runs purely locally — your data never leaves your device. I want to monitor the market in real time and access stock information, but tools like Yahoo Finance, Seeking Alpha, and SEC filings are scattered, and paid tools with similar features are too expensive. KroWork can directly generate a reusable application to help me monitor the market for free. With just one command, installation and free deployment are complete.

译KroWork 新发布，解决 AI 智能体每次运行后会话即失效的痛点。用户用自然语言描述任务，AI 自动构建工作流并保存为可重用的桌面应用，无需编程背景。应用完全本地运行，数据不出设备。相比一次性回答，它生成持久、可复用的软件——例如一句指令即可生成免费市场监控应用，替代分散的付费工具。KroWork 将“氛围编码（vibe-coding）”转变为“结果编码（outcome-coding）”。

🚨 AI News | TestingCatalog@testingcatalog · 6月24日64

Latitude is released as an open-source, MIT-licensed platform for monitoring AI agents in production, letting users surface what an agent does once it meets real users, catch recurring failures, and route fixes back into the editor. Users can cluster thousands of live conversations into a single view of what people ask for and where they drop off, with plain-English search across every trace. AI observability 👀

译Latitude 以 MIT 许可证开源发布，用于监控生产环境中的 AI 智能体。平台可揭示智能体与真实用户交互时的行为、捕获重复失败，并将修复反馈回编辑器。用户能将数千条实时对话聚类为单一视图，了解用户需求与流失点，并支持纯英文搜索所有 trace。引用指出：AI 智能体的对话是企业最被低估的数据源，Latitude 改变了这一现状。

elvis@omarsar0 · 6月23日27

Highly-recommended read. It's exciting to see large-scale agentic RL becoming more accessible. Cool to see the infra layer for this is being built and I think this plays an important role in self-improving agents arc and "owning your AI."

译一篇博客文章汇总了在 GLM-5 上进行强化学习所需的所有基础设施组件。主推文作者强烈推荐阅读，并认为这对自我改进智能体发展至关重要。

Berryxia.AI@berryxia · 6月23日54

AI把“做出东西”变得容易了，但把东西做得真正优秀，反而更难了。 Paul Bakaus今天宣布成立Renaissance Geek（Impeccable背后的公司），拿了a16z的钱，还和GitHub达成合作。他核心的观点是：AI已经把地板抬高了（第一稿变容易），但天花板并没有被自动抬高。真正优秀的工作，依然来自清晰的意图、无休止的迭代……判断力和craft，而不是单纯的循环制胜。他把这个方向叫“增强工艺”——让人类深度参与智能体循环的最后20%，而不是把人彻底踢出去。天衣无缝的设计就是这个理念的第一个产品：给AI coding agent一套设计词汇表，让它在真实代码库里做视觉迭代，而不是只在聊天里生成slop。更重要的是，他提出了“文艺复兴极客”这个新人群画像：T型通才 + 高品味 + 高主动性 + 强好奇心的人。 AI让他们能跨领域移动，而他们的taste和判断力，正是AI目前最缺的东西。这篇文章把当前AI工具界的两种路径说得很清楚：一条是继续堆地板（让更多人能做出东西），另一条是认真抬天花板（让真正有品味的人能做出更好的东西）。他选择后者。我翻译了一下中文，感兴趣可以看看。

译Paul Bakaus 宣布成立 Renaissance Geek（Impeccable 母公司），获 a16z 投资并与 GitHub 合作。他认为 AI 降低了创作门槛，但未自动提高上限；真正优秀的工作仍需清晰意图、迭代、判断力与工艺。公司方向为“增强工艺”——让人类深度参与智能体循环的最后 20%。首款产品 Impeccable 为 AI coding agent 提供设计词汇表，支持在真实代码库视觉迭代，避免低质量输出。同时提出“文艺复兴极客”画像：T 型通才、高品味、高主动性、强好奇心，AI 赋能其跨领域移动，而品味与判断力是 AI 最稀缺的能力。

Rohan Paul@rohanpaul_ai · 6月23日66

AI agents are coming to each and every workflow. Templafy just launched a AI PowerPoint Agent that turns prompts and source files into real, editable .pptx decks. The product is aimed at the boring failure point of AI slide tools: a deck may look finished, but it often breaks when a team edits it in PowerPoint, applies brand rules, updates charts, or sends it through legal. You give it a prompt, choose the theme and depth, add source files when needed, review the outline, and get a deck that can still be edited where work actually happens. free, in the browser, no signup.

译Templafy 推出 AI PowerPoint Agent，用户只需输入提示词、选择主题与深度、添加源文件并审核大纲，即可生成可直接编辑的 .pptx 演示文稿。该工具旨在解决现有 AI 幻灯片工具在编辑、品牌规则应用、图表更新和法律审核环节的易用性问题。产品完全免费、在浏览器中使用，无需注册。引用推文显示本次升级新增聊天历史、自定义颜色和可编辑图表功能，进一步提升了灵活性和创作效率。

歸藏(guizang.ai)@op7418 · 6月23日49

http://x.com/i/article/2069421203073490944 # Seed 2.1 Pro 测评，终于能胜任 Agent 工作了今天 Seed 2.1 Pro 正式发布，我提前用它做了一些测试。 ## 它能不能进 Agent 工作流？这次我最关心一件事：它能不能进真实的 Agent 工作流。跑下来，我觉得答案是能。以前很多人对它的印象，可能还停留在基础问答：速度快、回答顺、多模态能力不错，适合日常聊天和查资料。但如果要把它放到 Codex、Claude Code 这类 Agent 场景里，让它读规则、调工具、改文件、生成网页、做 PPT，大家可能不会第一时间想到它。这次 Seed2.1 Pro 给我的感觉不太一样。它已经能认真跑 Agent 任务了，而且有几个长处很明显。第一，复杂任务里比较稳。 Agent 场景里，模型不能只会回答一句话。它要理解任务、读材料、遵循工具规则，最后产出一个能交付的东西。我用它跑 Skills 的时候，它没有明显瞎写，也没有绕开规则，基本是在已有约束里把结果做出来了。第二，视觉内容的规划能力强。这里说的好看，只是表层。页面、PPT、图片卡片、动效这些东西，它会自己安排信息密度和视觉层级。很多模型可以完成任务，但结果经常需要人返工；Seed2.1 Pro 的产出更接近“可以直接拿来展示”的状态。第三，多模态是它的额外优势。现在很多强 coding 模型没有完整多模态能力，或者视觉理解不是主场。 Seed2.1 Pro 可以在图片、文档、视频理解和视觉表达上承担更多工作，和其他模型配合时也会很有价值。 ## 我怎么测的这次我主要用两个渠道测试。一个是在豆包里选择任务模式，再选择本地电脑，让它以类似 Codex 或 Claude Code 的 Agent 方式操作。另一个是通过火山引擎 API，在 Cloud Code 这类常见 Agent 架构下调用。这样可以同时看它在自家产品里的表现，以及换到更通用的 Agent 工作流后是否还稳。 ## 先跑复杂 Skills 我先测的是自己的两个 Skills，PPT 生成和社交媒体卡片。原因很简单：大多数人日常使用 Agent，不会每天都做重度工程开发，更多是办公、内容生产、资料整理、简单工具调用。复杂 Skills 规则多、上下文长、要求细，刚好能看出模型的下限和上限。第一个是 PPT Skill。我把 Seed2.1 的官方介绍文章给它，让它生成一份介绍 Seed2.1 的 PPT。结果相当不错。它没有出现页面内容超出，也没有大面积空白。每一页的信息密度都比较合理，标题、正文、数据和视觉元素之间的比例很稳。更重要的是，它不会死板地套模板，而是会根据内容调整版式。这点很能说明它在 Agent 场景里的可用性。它会先理解内容，再做结构规划，不会只把文字塞进模板。它还会加入动效，做出一些 Skill 模板里没有明确给过的排版方式，效果也可以。我还试了社交媒体图片卡片 Skill，结果也不错。这个场景更偏日常内容生产，比如封面图、信息卡片、产品介绍图。 ## 再跑三个前端任务接下来我测了三个编程任务。这三个任务避开了传统 CRUD，更吃 Agent 编程能力、前端实现能力和空间感知，主要是 WebGL / 3D / 动效。第一个是抽屉式或者百叶窗式的图片动效。我让它做一个横向展开的图片交互，鼠标 Hover 到某一列时，当前列展开，其他列收缩，同时要有图片、文字、遮罩、局部放大和高级感。这个效果它基本一步到位。豆包产品内和 Cloud Code 下的版本风格还有点不一样：豆包里的版本更简洁、更高级； Cloud Code 下的版本动效更多，有自定义光标、圆形画中画、分层遮罩和更强的动态反馈。第二个是 WebGL 贝塞尔曲线效果。这个任务更难。我只是用文字描述了一个抽象效果：三格贝塞尔曲线，每一格都有对应色散，曲线一直在运动；鼠标 Hover 到对应区域时，色散会增强，但仍然要沿着贝塞尔曲线自然运动。 Seed2.1 Pro 做出来的结果很舒服。曲线没有僵硬地抖动，玻璃切片和色散也没有乱糊一片。鼠标移动时，局部折射会增强，但整体运动仍然保持连续。这个案例说明，它能把抽象视觉描述转成可运行的前端效果。第三个是跨整页的视差滚动网页。我让它做一个长页面，九张图片贯穿整个网页。随着滚动，这九张图片会不断堆叠、散开、组成九宫格、再横向流动，每一段散开的组织形式都不同，但整体动画要连续。这个任务很容易翻车。它是一整条时间线，卡片的位置、缩放、旋转、滚动进度、文字层级、背景变化都要互相配合。但 Seed2.1 Pro 的结果很完整。它用了 GSAP、ScrollTrigger 和 Lenis，把九张卡片组织成一段连续的视觉叙事：先是扇形展开，再到斜向视差流，然后进入九宫格、空间穿梭和横向叙事。 ## 它适合放在哪里所以我对 Seed2.1 Pro 的判断是：它未必是每个榜单上最顶尖的模型，但已经能在真实 Agent 任务里干活了。尤其是在内容生产这个方向上，它的组合能力非常好：能读材料，能遵循复杂规则，能做工具调用，能生成视觉内容，也能完成有一定难度的前端动效。我觉得它适合放在组合工作流里。强 coding 模型继续负责重工程和复杂代码链路，Seed2.1 Pro 负责多模态理解、内容规划、视觉表达和前端呈现。这样反而更接近我日常真正会用的方式。当然也有限制。官方这次强调了视频理解能力，这点我很期待。但我在 Cloud Code 下调用时，视频输入似乎还不是完整视频实例，更像是抽帧式处理。如果后续 API 和 Agent 框架能更好地支持原生视频输入，它的优势会更明显。总的来说，大家以前可能觉得它只是一个快、顺、多模态好的基础模型。 Seed2.1 Pro 这次更值得关注的地方，是它开始能进 Agent 工作流了。现在 API 已经在火山引擎全量上线了，可以去试试。而且他们也支持直接接入到各种 Agent 里面，Code plan 可能还要等等。如果觉得内容对你有帮助的话，可以帮忙点个赞或者转发，谢谢。

译Seed 2.1 Pro 正式发布，测评显示它能胜任真实 Agent 工作流。优势包括：复杂任务稳定、视觉内容规划能力强、多模态额外优势。测试通过豆包任务模式（本地电脑 Agent 操作）和火山引擎 API（Cloud Code）进行。复杂 Skills 测试（PPT 生成、社交媒体卡片）表现优秀，能根据内容调整版式。三个前端任务（百叶窗图片动效、WebGL 贝塞尔曲线、跨整页视差滚动网页）均一步到位或结果完整。定位：未必最顶尖，但适合组合工作流——强编码模型负责工程，Seed 2.1 Pro 负责多模态理解、内容规划和视觉表达。限制：视频输入目前为抽帧式处理。API 已在火山引擎全量上线。