You'll be able to use Qwen (Alibaba's AI assistant) to order KFC in China! Simply say, "order me a meal deal from the nearest KFC," and Qwen will match your coupons and place the order. Other than KFC, Luckin Coffee, Mixue, and China Eastern Airlines will also join.

译你将可以使用Qwen（阿里巴巴的AI助手）在中国点肯德基外卖！只需说“从最近的肯德基给我订一份套餐”，Qwen就会匹配你的优惠券并下单。除了肯德基，瑞幸咖啡、蜜雪冰城和中国东方航空也将加入。

Rohan Paul@rohanpaul_ai · 6月4日71

This Google DeepMind’s paper is a serious warning for anyone using autonomous agents today. Gives the first clear taxonomy of 6 attack types where harmful websites can detect AI agents and show them hidden content humans never see, like - Instructions buried in HTML comments or white-on-white text - Steganography in image pixels - Override commands in PDFs, metadata, or even speaker notes - Memory poisoning that persists across sessions - Goal hijacking and cross-agent cascades in multi-agent setups The real security problem for AI agents is not just the model, but the environment it reads. The web itself can be weaponized against autonomous AI agents. As agents increasingly browse the internet, read emails, execute transactions, and spawn sub-agents, the information environment becomes an attack surface. In one cited benchmark, hidden prompt injections embedded in web content partially commandeered agents in up to 86% of scenarios, sub-agent hijacking working 58–90% of the time, and data exfiltration attacks clearing 80% across five different agent architectures. That reframes the whole debate. We usually talk about model safety as if the danger sits inside the weights, but agents do something more fragile: they browse, retrieve, remember, and act on untrusted material in real time. Here’s the thing to worry about. A web page does not have to look malicious to be dangerous to an agent, because the agent may parse what humans never see: hidden HTML comments, metadata, CSS-hidden text, formatting syntax, or adversarial content embedded in images and other media. The threat gets more serious once memory enters the loop. If an agent uses RAG or persistent memory, poisoning no longer has to win in one shot. It can sit quietly in a corpus or memory store and activate later, which is why the paper highlights results showing latent memory poisoning above 80% attack success with less than 0.1% data contamination. --- ssrn .com/sol3/papers.cfm?abstract_id=6372438

译Google DeepMind论文首次系统分类六类攻击：HTML注释/白色文本隐藏指令、图像隐写、PDF元数据/演讲者笔记覆写、跨会话内存投毒、目标劫持及多智能体级联攻击。隐藏提示注入在86%场景中部分控制智能体，子智能体劫持成功率58–90%，数据泄露攻击在五种架构中均超80%。内存投毒成功率超80%，仅需不足0.1%数据污染。论文指出网页、邮件等非受信材料可被武器化，构成主要攻击面。

X.PIN@thexpin · 6月4日52

You'll be able to use Qwen (Alibaba's AI assistant) to order KFC in China! Simply say, "order me a meal deal from the nearest KFC," and Qwen will match your coupons and place the order.

译你将能够使用 Qwen（阿里巴巴的 AI 助手）在中国点肯德基！只需说“从最近的肯德基帮我点一份套餐”，Qwen 就会匹配你的优惠券并下单。

小互@xiaohu · 6月4日70

http://x.com/i/article/2062455165006090240 # Anthropic 如何通过 Claude 实现自动化商业分析 Anthropic 95% 的数据分析让 Claude 干了... 但一开始准确率多少？21%，跟瞎蒙差不多...后来搭了一套四层系统直接拉到 95%。 Anthropic官方发布了一篇博客，详细阐述了他们是如何通过Claude 实现自动化商业分析的。我翻译了下，推荐大家阅读！原文：https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude 做过数据的人都知道，让业务团队自己查数据，一直是个老大难。一种常见做法是建宽表，把数据模型摊平了给非技术同事用。但业务一扩张，各种视图就开始打架，定义不一致、口径对不上，而且那些压根不想学 SQL 的人照样用不了。另一种做法是给用户划好一块块固定区域，只能在里面看数据，但这又覆盖不了那些零散的、个性化的分析需求。最后就是每个团队各搞一套，指标和看板越来越多，越来越乱。大语言模型的出现提供了一条新路。但如果你只是把 Claude 往数据仓库一指，让 AI 智能体自己跑，很容易造成一种"看着很准其实不靠谱"的假象。刚摆脱临时取数需求的那股兴奋劲儿，很快就会变成焦虑。你会发现，这套方案把业务方和底层的数据基础设施、文档、专业知识切断了，而过去恰恰是这些东西帮他们找到靠谱的数据集。在 Anthropic，95% 的业务分析查询已经由 Claude 自动完成，整体准确率大约 95%。把这些重复性的活交给 Claude 之后，我们的数据科学团队可以把精力放在因果建模、预测分析、机器学习这些更有价值的事情上。跟几十位 Anthropic 内部的 Claude Code 重度用户聊过、看过大量分析智能体的设计方案之后，我们攒了一些经验，想分享给同样在用 AI 做分析的数据团队。这篇文章会聊到： - 分析准确性本质上是上下文和验证问题，不是代码生成问题 - 导致大多数错误的三种失败模式 - 我们围绕这三个问题建的智能体分析栈 - 我们怎么衡量效果 - 我们创建技能的基础模板（见附录） ## 数据不是软件 AI 的生成能力是把双刃剑：让模型能创造性解题的那套机制，也会让它"一本正经地胡说八道"。要理解分析智能体面临的挑战，跟编码智能体对比一下就清楚了。写代码是个开放题，模型越有创造力越好，而且有文档和测试兜底，写错了跑不通。但分析不一样：往往只有一个正确答案、一个正确的数据源，而且没有办法自动验证结果对不对。自动化智能体分析的难点，主要在于数据本身的歧义性。核心问题就一句话：能不能把用户的问题准确地对应到数据模型里那个特定的、最新的字段，并且知道怎么正确使用它。做到了这一步，写 SQL 就是小事了。我们发现，绝大多数不准确的回答可以归因于三件事： 1. 概念和实体对不上：数据模型里有成百上千个字段，潜在候选可能上百万，智能体不知道该选哪个。比如"活跃用户数"，什么行为算"活跃"？算不算欺诈用户？回看多长时间？ 1. 数据过时了：数据源、业务定义、表结构一直在变，智能体的知识没跟上，开始给出"看起来对，其实差了一点"的答案。 1. 找不到：正确的信息明明就在数据模型里，标注也齐全，但搜索空间太大，智能体就是没找到。 ## 我们的智能体分析栈在 Anthropic，我们靠一套分层的智能体数据栈来对付这三个问题。每一层重点解决其中一个或几个： 1. 对不上→ 数据基础和权威来源层把候选范围不断收窄，最终只剩一个标准答案。 1. 过时了→ 维护和验证流程防止东西随着业务变化而腐烂。 1. 找不到→ 技能确保智能体能稳定地找到并正确使用那个标准答案。下面逐层讲。维度建模这些经典的数据工程实践，依然和以前一样重要 ## 数据基础要让分析智能体准确，最重要的是把数据基础打好，包括数据仓库里的模型、转换逻辑、测试、表，以及描述它们的元数据。维度建模、尽早做测试、关键管道的新鲜度和完整性检查，这些老规矩依然有效，不多说了。维度建模这些经典的数据工程实践，依然和以前一样重要。但有一件事变了：数据模型的使用者不再是数据科学家这样的专家，而是替各种用户干活的智能体。这些用户水平参差不齐，你没法指望他们去验证底层查询逻辑对不对，他们根本看不懂。数据基础层主要解决的是歧义问题。比如"收入"这个概念，如果在仓库里只对应一个经过治理的规范数据集，而不是四十个看着都像的候选项，那智能体还没开始搜，问题就消失了大半。同时这一层也是防过时的第一道防线，因为定义规范模型的那个代码仓库，本身就是最适合强制保持这些模型更新的地方。我们觉得特别有效的几个做法： - 建规范数据集：最常见的错误是智能体没法把一个概念（比如"产品 X 的收入"）对应到唯一正确的表、列和指标定义，往往因为有好几个看着都合理但细节不同的候选。解决办法是少而精，精选一小批规范的数据集，权属清晰、开箱即用、容易发现，然后把那些近似重复的版本积极废弃。物理层面的汇总表和缓存还是要的，但它们应该从规范模型自动生成，不能作为平行替代方案存在。目标就是：智能体搜一个概念，只能搜到一个标准答案。 - 标准得靠强制执行：光定标准没用，得三管齐下。工具层面，智能体在架构上被优先引导到规范模型；CI 层面，绕过规范层的改动会在代码审查中被拦住；制度层面，下游团队必须基于治理层构建，不用就得解释为什么。没有执行力的治理，很快就退回到"一堆候选分不清"的老问题。 - 所有东西放同一个仓库：数据模型和业务逻辑天天在变，我们的防御手段是把建模代码、语义层、参考文档、看板定义全放在一个仓库里，靠 CI 检查保护跨层一致性。改了一个模型会影响下游看板？CI 会标出来，修复就在同一个 PR 里完成。 - 把元数据当正经产品来维护：编码智能体之所以表现好，部分原因是代码库本身就很"可读"，有 README、类型签名、文档字符串。数据仓库也可以做到一样可读，但前提是你得认真维护：列和表的描述、规范指标定义、粒度说明（一行代表什么）、有效值范围、数据血缘、权属关系、模型分级。这不是什么新道理，但好的治理确实能给智能体提供关键的选择依据。 ## 权威来源如果说数据基础是数据仓库本身，那权威来源就是智能体用来在仓库里找路的参考层。这一层负责把业务方说的"周活跃用户"翻译成数据模型里某个具体的、经过治理的实体。按信任度从高到低排： - 语义层：编译好的指标和维度定义。如果一个问题能直接对应到已定义的指标，智能体调一个函数就能拿到一个数字，跟公司所有其他分析工具算出来的一模一样。我们的智能体被强制要求优先走语义层（见附录）。我们试过一个没用的思路：让 AI 从原始表和查询日志自动生成指标定义来引导语义层。结果生成的定义看着像那么回事，实际上把我们正要消除的歧义编码进去了，评估表现还不如更小但人工精选的版本。所以我们的建议是：用 Claude 生成文档，但指标定义由人来把关。 - 数据血缘和转换关系图：语义层覆盖不到的问题，可以靠血缘关系和表排名（按被引用次数排）来推理：哪些上游模型跟某个概念有关、哪些已经废弃、哪些粒度相同。这就把"我不知道这个指标"变成了"我知道该从哪个治理过的模型去聚合"。同时它也是后面线上验证部分的新鲜度和来源信号的基础。 - 历史查询语料：看板、Notebook 和过去分析里的 SQL 记录。听起来应该很有用，毕竟是每个已经被正确回答过的问题的记录。但实际上，让智能体直接检索几千条历史查询，准确率只提升了不到一个百分点（后面消融实验部分细讲）。非结构化检索没法把新问题映射到正确的先例上。真正管用的做法是把这些语料提炼成结构化的领域参考文档和可复用的分析模式，写进技能里。历史查询是原材料，不是让智能体直接读的参考答案。 - 业务上下文：大多数团队跳过的一层，也是我们低估最久的。不懂业务的智能体，会回答用户字面上问的问题，但不会回答他们真正想问的。它不知道"Q2 发布"是哪个产品，不知道两个团队对同一个术语定义不同，也不知道这个问题之所以被问是因为周四要开董事会。我们接入了一个公司知识图谱，索引文档、产品路线图、决策日志、组织架构都在里面，让智能体能理解那些言外之意，问出更好的澄清问题。这四层有个共同的失败模式，跟数据基础层一样：文档质量差或者过时了。Claude 在弥补这个差距方面非常好用（写列描述、根据查询模式建议指标文档、在 CI 里标记缺文档的模型），但内容的筛选和权属还是得人来管。接下来两节讲的是怎么让这件事的成本低到真正能落地。 ## 技能如果说权威来源是智能体的知识，比如"这个指标是什么意思"，那技能就是它的方法论，比如先查什么、按什么顺序查、碰到数据歧义怎么办、一个合格的分析长什么样。在 Claude Code 里，技能就是一组 Markdown 文件，智能体按需读取。在 Anthropic 内部，技能带来的提升是巨大的。没有技能时，Claude 回答分析问题的准确率不到 21%。加上技能，整体稳定在 95% 以上，某些领域经常到 99%。模板见附录。几条经验：技能要成对建：一个"知识"技能当顶层路由，它说"先查语义层，没有覆盖的话，这个领域大概 30 份参考文档，里面有相关的表、列、关联关系和常见坑"。这个路由器本质上就是我们对"找不到"问题的回答：与其让智能体在百万级字段里大海捞针，不如先把范围缩到几十份精选文件。另一个"unbook"技能编码的是一位资深分析师的工作流程：先澄清问题，再通过知识技能找数据来源，跑查询，然后把结果丢给对抗审查的子智能体做验证。它还内置了十几种可复用的分析模式，比如留存曲线、比率分解、漏斗分析等等，让常见需求不用每次从零开始。参考文档要为 AI 写：我们的参考文档写的是表信息（粒度、范围、排除条件）、常见坑的具体机制（比如"排除免费邮箱域名，但保留自定义域名如 anthropic.com"），以及明确的路由触发条件（比如"如果问题涉及实验提升……不要用来算原始事件数"）。但不写会过时的固定脚本。参考文档模板如下： > [markdown] # [领域] 表 ## 快速参考 ### 业务上下文 — [用大白话解释这个领域是什么] ### 实体粒度 — [一行代表什么] ### 标准清洗过滤器 — [该领域每个查询都要应用的过滤条件] ## 维度 - [关键维度的编码方式，以及同一概念在不同表中的不同命名] ## 核心表 ### [table_name] - **粒度**: [...] · **范围/排除条件**: [...] - **使用说明**: [什么时候用、什么时候不用、关联键、必需过滤条件] [... 每个治理过的表一个简短小节 ...] ## 常见陷阱 - [资深分析师会提醒你的那些容易出错的地方] ## 最佳实践 / 常见查询模式 - [默认选择、标准切分维度、具体查询形式本身就是难点的成熟模式] ## 交叉引用 - [负责相邻问题的其他领域文档] 技能维护是正经工程活：技能文档描述的数据模型每天都在变，不维护的话几周就失准。我们亲眼看着离线准确率从上线时的 95% 左右，一个月内掉到 65%，才真正当回事。办法是把技能的 Markdown 文件跟数据转换模型放在同一个仓库，改模型的 PR 就得同时更新文档。我们还设了个代码审查钩子：涉及报表模型的变更如果没碰对应的技能文件，就会被标出来。现在大约 90% 的数据模型 PR 里都带着技能变更。我们也会定期清理，模型进步了，以前的失败模式不再适用，对应的指引也该删。所有界面一个答案：同一个技能在 Slack、IDE、看板工具、独立会话里，必须对同一个问题给出同一个答案。我们靠一个规范来源（数据仓库的代码仓库）加自动同步来实现。代码合并后，技能会同步到插件市场（IDE 用户）、云存储（托管应用）和 MCP 服务。从一开始就不硬编码路径、不绑定特定界面。 ## 验证验证是你发现三个问题还有哪个在漏网的最后一关。 ## 离线评估很常见的情况是，数据团队花了大力气搭分析环境，却完全没有流程来验证智能体答得准不准。怎么补？做离线评估，就是一组"问题 / 标准答案"对。你可以把它理解成机器学习里的离线测试：不能告诉你线上实际表现，但能让你看清有没有致命缺口。我们在 Anthropic 做两类离线评估。看板评估由 Claude 自动生成再人工验证，覆盖业务方最常问的问题。长尾评估是把产品路线图、表文档等业务上下文喂给 Claude，让它在其余领域生成可能出现的问题。另外，每次业务方在对话里纠正了智能体的回答，我们都会把这条纠正收起来当候选评估用例。其他经验： - 标准答案要锚定，不能漂移：基于实时数据写的评估用例，底层数字一变就废了。要么锚定到快照日期、基于稳定的事实表写，要么让评分器判查询语句而不是最终数字。把评估接进 CI，改了依赖就自动重跑受影响的用例。 - 评估结果当遥测数据存，不当测试日志存：每次运行的结果落入数据仓库，记录技能版本、git SHA、模型 ID、逐条断言结果、token 用量、耗时。"上次改动有没有用"变成一条查询就能回答的事，还能用时间序列抓住单次 CI 跑不出来的缓慢衰退。 - 按领域卡发布门槛：某个领域的负责人要向业务方宣布"智能体可以用了"之前，必须先让该领域评估集的通过率到某个阈值（我们起步用的 90%）。这就逼着大家在用户踩坑之前先把参考文档修好。 - 评估用例不是越多越好：该建多少取决于业务领域和数据模型的复杂度。我们发现每个主题超过几十条之后就有边际递减，而且这个上限随模型迭代在降。 - 离线准确率应该接近 100%，正确答案也应该走到你的语义层。这不代表系统不会出错，只是在覆盖度足够的前提下，确保没有明显的缺口。 ## 消融实验关于技能的每个结构性决策，比如暴露哪些数据源、子智能体值不值得它带来的额外延迟、两个技能要不要合并，都是在固定评估集上做消融实验定的。每次只改一个变量，对比通过率。一轮实验一个小时，省下大量争论。方法论比任何单次结果都重要： - 做好"没变化"的准备。我们最有价值的一次消融实验恰恰是个否定结果。我们给智能体开了对所有看板 SQL、转换 SQL 和分析师 Notebook SQL 的 grep 权限（几千个文件），而且确认它每次回答前都读了。结果准确率纹丝不动。然后我们查了混淆因素：答错的问题里，答案是不是真的在语料库中？80% 的情况是的。"答案在"能预测"答对"吗？不能。信息就在那儿，智能体也看到了，但就是没用上。这一个实验就说明：瓶颈不在于能不能访问历史成果，而在于结构，也就是怎么把问题映射到正确的实体。这个发现直接改变了我们好几个月的路线图。 - 在 PR 粒度上做消融。每次有意义的技能改动都跑一轮前后对比，差异写进 PR 描述。"我优化了文档"这种话就有据可查了，同时能抓住一种出人意料地常见的情况：好心的修改反而把事情搞糟了。 - 记下行不通的东西。我们的两个例子：超过某个点之后继续迭代文档反而是负面的（连续三轮越写越长、越写越差）；把对抗审查换成更便宜的模型以降低延迟（准确率的提升丢了大半，速度也没快多少）。记录负面结果成本很低，但能防止下一个人重走老路。 ## 线上验证最后一步是确保线上系统的实际表现尽可能好。我们做了这些： - 对抗审查：用一个 Claude 技能在最终回答前激进质疑所有假设。评估集上准确率提高了 6%，代价是多 32% 的 token 和 72% 的延迟。 - 来源溯源脚注：每个回答附一个脚注，标明数据来自哪个层级（语义层 > 精选参考文档 > 原始表）、数据多新鲜、谁负责。不能让答案更准，但能帮用户判断信任度。看到"原始表，新鲜度未知"就知道要先核实再转发。这也是我们对静默错误为数不多的防线之一。 - 数据质量检查：智能体可能选对了字段、用法也对，但数据本身就是错的。加点基础检查，确保字段最新、完整、没有异常，是基本卫生习惯。 - 被动监控：我们持续跟踪两个指标：走语义层的查询占比，以及回复中出现纠正性语言（"那个表不对""你漏了欺诈过滤器"）的占比。两个都汇到一个看板，每周跟离线通过率一起看。 - 主动纠错采集：闭环的关键。一个定时智能体每隔几小时扫业务方的沟通频道，找纠正性语言，起草一行修复写进参考文档，开 PR 标给领域负责人。修复流程故意做得很无聊，编辑一个 Markdown 文件，合并，自动同步，这样负责人不用花太多时间。同样的纠正也反馈回离线评估集。以上所有措施都没法完全解决的是静默错误。答案错了，但看起来合理，没人质疑就用了。我们的应对是来源脚注、上报管理层的内容必须人工签字确认、每个领域的核心 KPI 每天跟权威看板做合理性校验。但说实话，我们目前还没有一个真正稳健的方案。 ## 怎么起步如果你从零开始：几个规范数据集、几十条离线评估、一个精简的知识技能，就能拿到大部分收益。本文其他内容都是在这些基础之上逐步加的。我们分享了很多经验，但不是每条都适合每个团队。开始之前，先跟组织对齐几个原则： - 今天的正确答案和未来的正确答案，哪个更重要？ AI 模型进步飞快。我们经常看到公司花大力气补当前模型的短板，结果模型一升级全白干了。等模型进步来填补缺口成本低得多，但要看你的公司能不能接受这个风险。 - 业务复杂度会怎么变？如果你数据量不大、分析消费者就几个人、数据模型也不会变复杂，上面很多流程可能是过度设计。 - 谁来用这个系统？如果是数据科学家，他们能看出错误答案，容错空间大一些；如果是完全不懂数据模型的人，标准就不一样。 - 愿意为准确率花多少钱？对抗审查这样的流程确实能显著提升准确率，但成本和延迟也上去了。 - 数据访问的口子开多大？智能体的上下文越多表现越好，但宽泛的数据访问跟大多数公司的治理策略冲突。这决定了你是建一个全能智能体，还是多个各有权限的智能体。不管走哪条路，我们最大的收益始终来自同一件事：把歧义收敛到一个标准答案，让这个答案容易被找到，在它过时的时候及时报警。本文由 Anthropic 数据科学与数据工程团队的 Chen Chang、Clement Peng、Justin Leder、Johanne Jiao 和 Josh Cherry 共同撰写。感谢 Michael Segner 的贡献。 ## 附录 ## 技能文件骨架下面是我们主数据仓库技能的骨架，保留了真实文件的结构，内部细节用 [方括号] 替换了。不是让你照搬，而是展示我们觉得哪些东西值得写下来。 > [markdown] --- name: [warehouse-skill] version: [x.y.z] description: "IF the user asks to query [the company]'s data warehouse for any [业务领域列表] question — THEN invoke this skill. DO NOT invoke for [相邻的工程任务] or questions with no data-warehouse component." --- # [数据仓库] 技能指令 ## Description 查询 [数据仓库] 的唯一权威来源，确保安全高效。被其他技能 [列表] 引用以获取查询执行指导。扮演数据分析师角色，提供战略性洞察和数据驱动的建议，但在过程中主动寻求指导。 **超出范围的决策**: [产品领域等] → 只展示数据，声明"决策由 [负责团队] 做主"，不要表态或编写修复代码。 ## Executing queries 优先级： 1. **[托管连接]** (如可用): [查询工具] / [schema 工具] 2. **[CLI 后备]** (如已安装): [默认项目, 后备项目] 3. **两者都没有** — 要求用户先认证，然后停止 --- # Semantic Layer (每个请求的必选第一步) 受治理的语义层是每个数据问题的**强制默认路径** — 数字和 [BI 工具] 保持一致，join/粒度/过滤器已内置。通过下方参考文档走原始 SQL 是**后备方案**，仅在语义层路径被证明无法覆盖需求后才使用。 ## Required workflow 1. **加载** — [如何在各运行环境中加载语义层，含后备方案] 2. **发现** — 按关键词搜索度量/维度; **务必检查 segments** (命名好的规范化人群过滤器 — 手写这些 WHERE 子句是最主要的错误答案模式) 3. **编译 + 执行** — 构建查询规格 → 编译为 SQL → 执行 4. **后备** — 仅在发现阶段找不到相关指标或编译失败时 → 通过 `references/*.md` 走原始 SQL (下方 PART 3) > **不要过早放弃。** 以下理由不构成回退到原始 SQL 的依据： > - "[自定义日期过滤/队列分析]" → [时间维度规格已覆盖] > - "[需要 join]" → [指标层已封装了所需的 join] > - [再列 3-4 个智能体常用来跳过语义层的借口，逐一反驳] ### 日期窗口与时区 — 查询前先确定 - **截止日期 vs 滚动 N 天**: [各自的约定] - **"上周/上月"** → 最近一个*完整*日历周/月，不是滚动 7/30 天 - **时区默认值**: [时区]; [某些汇总报表的例外] - **新鲜度延迟**: [某些] 表结算较晚 — 以 MAX(date) 为锚，而非"昨天" --- # PART 1: 必知（每次请求首先阅读） ## 🚀 快速起步工作流 1. **先检查红旗**: [受限/PII 请求, 需授权的领域, 需要额外验证的高风险请求] 2. **超出范围 — 升级而非猜测**: [权限请求、管线故障排查、过期看板、根因断言、产品/定价建议] → 转交 [负责团队]，不要作答 3. **澄清需求**: 时间段、细分维度、这个分析要支撑什么业务决策 4. **检查现有看板**: [按领域的看板目录] 5. **识别数据源**: [下方导航地图; 优先使用受治理/已聚合的表] 6. **执行分析**: [必需过滤器 + 对抗审查] 7. **交付洞察**: 展示方法论，区分观察和解读 ## 🏢 业务上下文 ### 实体消歧 (必须澄清) - **"[术语 A]" 可能指**: [实体 1] 或 [实体 2] — 必须确认是哪个 - **"[术语 B]" 可能指**: [实体 1] → [实体 2] → [实体 3] (一对多链) - **"用户"**: [哪个标识符能给出准确计数，哪些会导致膨胀] ### 业务术语 - [当前产品名称 vs 已弃用但仍作为冻结值存在于数据层的旧别名 — 用新名写作，用旧名过滤] - [关键内部缩写] - **[核心指标] 计算方式**: [月度 / 默认窗口 / 先行指标] - **遇到陌生术语 — 搜索 [内部文档]，不要猜** ### 数据完整性要求 ⚠️ - **绝不**: 编造数据/列; 做出超出数据范围的推测性断言 - **始终**: 使用安全除法; 区分观察 ("数据显示 X") 和解读 ("这表明 Y"); 标注局限性 --- # PART 2: 操作指南（执行过程中遵循） ## 🔧 技术执行指南 - [托管连接工具和 CLI 调用细节] - **PII 保护**: 对于受限数据，只返回 SQL 让用户自己执行 — 不要返回查询结果 ## 📊 分析最佳实践指南 1. 查询前先澄清需求 2. 展示你的工作（过滤器、包含/排除条件、新鲜度） 3. 澄清分母 4. 考虑样本偏差 5. 关联到业务影响 6. **对抗性 SQL 审查 (强制)** — 在最终回答前为每条查询启动 [sql-reviewer] 子智能体; 阻断性发现必须修复并重新审查; 不得自我认证 7. **带来源报告** — 每个回答都以脚注结尾： > **来源:** [语义层 | 受治理表 | 原始探索] · > **置信度:** [层级] · **已审查:** [审查者 ✓, 第 N 轮] · > **新鲜度:** [数据中的最大日期] · **负责人:** [负责团队] --- # PART 3: 数据参考与资源 ## 📚 知识库导航 ### [领域 A] → `references/[domain_a].md` - **用途**: [适用的问题类型] - **核心表**: [...] - **看板**: `references/[domain_a]_dashboards.json` ### [领域 B] → `references/[domain_b].md` - **用途**: [...] [... 每个业务领域一个条目 — 总共约几十个 ...] ## ⚠️ 排障指南 ### 信息缺失时 - [表缺失 / 权限不足 / 文档过期 / 未知枚举值 → 如何处理] ### 字段命名陷阱 - 用 `[field_x_v2]` 而不是 `[field_x]` - [两个名称相似的表以不同粒度报告同一指标 — 该用哪个] - [对于核心指标，两个看似合理的来源中哪个才是规范来源] - [… 十几条更多踩坑得来的一行提醒 …]

译Anthropic 将 95% 的业务分析查询交给 Claude，准确率约 95%。最初仅 21%，通过搭建数据基础、权威来源、技能等四层系统提升。核心发现：准确性问题本质是上下文和验证，而非代码生成。三种失败模式：概念对应错误、数据过时、找不到正确字段。重复分析由 Claude 承担，数据科学团队专注更高价值任务。

meng shao@shao__meng · 6月4日55

Margin Collateral Agent：用架构分离解决 OTC 保证金争议场外衍生品名义价值 846 万亿美元，45% 的保证金追缴存在争议，其中过半争议发生在计算之前——双方对同一份 CSA 合同的理解不同。该系统将流程拆为四层：ADE 按 CSA 专用 Schema 提取字段并绑定源页码；三个 Claude Agent 并行归一化抵押品描述、时区和货币条款，纯规则验证 Agent 预审矛盾项；五步骤纯 Python 计算器执行确定性运算，零 LLM 调用；最终生成带页码追溯、推理链和可独立运行 Python 脚本的审计包。关键洞察：争议根源是合同解读而非数学。LLM 负责需要判断的模糊语义，规则负责需要一致性的算术，两者接口显式化。可审计性必须从架构第一天内建，事后补装无效。该分离原则适用于保险理赔、监管报告等一切"文档解释驱动确定性计算"的高风险场景。

译场外衍生品名义846万亿美元，45%保证金追缴有争议，过半源于合同解读。系统用四层架构分离语义与算术：ADE提取字段绑页码，多个Claude并行归一化，规则预审矛盾，纯Python计算器确定性运算，生成带追溯的审计包。LLM处理模糊语义，规则保证算术一致性，适用于文档解释驱动的场景。

🚨 AI News | TestingCatalog@testingcatalog · 6月4日63

HeyGen announced a new FRAME.md format 👀 This format converts DESIGN.md files (which describe your brand guidelines) into a new format that also explains how to generate branded videos. It comes as an open-source repository that any brand can use, so the new FRAME.md file can steer your video generation agents.

译HeyGen 宣布了新的 FRAME.md 格式，可将品牌指南文件 DESIGN.md 转换为专为视频和动态设计的规范。原有 DESIGN.md 适用于静态屏幕，但应用到视频时，AI 智能体会误将其解读为网页和幻灯片。FRAME.md 教会智能体如何生成真正的品牌视频。该项目已以开源仓库发布，任何品牌均可使用，通过 FRAME.md 文件来引导视频生成智能体。

宝玉@dotey · 6月4日69

上次推荐的 Zara Zhang 的开源项目 feishu-claude-code-bridge ，可以把飞书和你本机的 Claude Code 连接起来，解决了用飞书保存所有消息历史，以及随时将飞书的信息转发给Claude的问题，相当使用的一个功能。现在有个问题是再过几天到 6 月 15 日，Claude 订阅计划对 claude -p 和 Agent SDK 的使用将独立计费，不走订阅额度。好在 Zara Zhang 这几天刚把项目升级了，也能支持飞书连接 Codex 了，只要你本机装了 codex cli，登录了 ChatGPT 账号或者配置了 API，就能使用，不用担心 claude -p 收费的问题了。另外还带来一个好处，就是 Codex 是有调用 GPT Image 2 画图能力的，所以你现在可以从飞书指挥 Codex 画图，画完的图片直接就到飞书，插入文档。比如我的一个常用指令如下： > 请帮我抓取并翻译 {url} > 然后根据翻译的内容画一张中文手绘教育风信息图 > 最后把文章和图片一起创建一份飞书文档连接步骤和之前介绍的连接 Claude Code 方法一致，只是运行的命令行变成了： > lark-channel-bridge run --profile codex 具体可以看项目的说明说，中英文版都有，写的很详细： https://github.com/zarazhangrui/lark-coding-agent-bridge/blob/main/README.zh.md

译Zara Zhang 的开源项目 feishu-claude-code-bridge 现已升级，新增支持连接本机 Codex CLI。由于 6 月 15 日起 Claude 订阅计划对 claude -p 和 Agent SDK 独立计费，不走订阅额度，用户可改用 Codex 避免此限制。Codex 支持调用 GPT Image 2 画图，可在飞书内指挥它抓取网页、翻译并生成中文手绘教育风信息图，直接创建飞书文档。连接命令改为 `lark-channel-bridge run --profile codex`。项目 README 提供中英文说明。

StepFun@StepFun_ai · 6月4日73

Thanks @ArtificialAnlys for the detailed independent evaluation. Step 3.7 Flash is built with a clear focus on the intelligence-speed frontier: MTP-assisted decoding, 400+ output tokens/s, stronger agentic performance, native multimodal capabilities, and Apache 2.0 open weights. This is the direction we believe matters for production agent workloads: capable, efficient, and deployable at scale.

译阶跃星辰发布开源 Step 3.7 Flash（Apache 2.0），采用 MoE 架构（198B 总参/11B 活跃参），配备 MTP 辅助解码（3 个预测头），输出速度超 400 tokens/s，是同类两倍多。Artificial Analysis Intelligence Index 得分 42.6，较 Step 3.5 Flash 提升 4 分。智能体能力明显增强：GDPval-AA Elo 升至 1298，TerminalBench Hard 升至 35.6%。新增 1.8B 视觉编码器，MMMU-Pro 得分 75.3%。上下文窗口 256K tokens，提供 BF16、FP8、NVFP4 版本。缺点：AA-Omniscience 准确率仅 25.4%，幻觉率 84.4%。

Alibaba Cloud@alibaba_cloud · 6月4日60

Choose your arena! Join Qwen Cloud Global AI Hackathon Series and push the boundaries of AI agent capabilities across 5 tracks: MemoryAgent, AI Showrunner, Agent Society, Autopilot Agent, and EdgeAgent. Show the world what you can ship! Submit by July 8, 2026. 👇Register now: https://click.qwencloud.com/m/20000000281/

译选择你的赛场！加入Qwen Cloud全球AI黑客松系列，在5个赛道中突破AI智能体能力的边界：MemoryAgent、AI Showrunner、Agent Society、Autopilot Agent和EdgeAgent。向世界展示你的成果！截止日期：2026年7月8日。 👇立即注册：https://click.qwencloud.com/m/20000000281/

宝玉@dotey · 6月4日61

AI Agent 对比 PC 和移动端不是完全取代的关系。手机出来没有完全取代PC，但很多事情你可以随时随地处理了；AI Agent 也不会完全取代手机和PC，但很多时候你不需要打开很多App了，直接给 Agent下指令就够了。

译AI Agent 不会完全取代手机和 PC，但用户无需打开多个 App，直接给 Agent 下指令即可。通用 Agent 将成未来操作系统，App 有三种结局：消亡、转为 CLI/MCP、保留为 GUI 插件。SaaS 应尽快推出 CLI 与 Skill 以适配 Agent。

Nathan Lambert@natolambert · 6月4日62

Great little video on modern on-policy distillation in post-training recipes. Wish I had this when writing the section on distillation for my book. And where I've been bearish on a lot of the academic work for self-distillation, it seems impactful at the frontier.

译Nathan Lambert 评论该视频正是其写书所需，认为前沿自蒸馏工作影响显著。Dwarkesh Patel 记录 Sasha Rush 的即兴讲解：当模型在 rollout 中出错（例如调用不存在的工具），无需针对整条轨迹的最终奖励学习（信号噪声大），而是让另一个模型阅读轨迹定位错误位置，在错误处上方插入 hint tokens，再让原模型运行一次前向传播，利用 hint 使模型对错误 token 分配更低概率，然后训练原模型匹配这些新概率。整个过程无需重新生成 rollout（无额外解码开销）。

meng shao@shao__meng · 6月4日65

Cursor Debug Mode 有什么用？核心问题：AI Agent 修复 Bug 的局限性 @ericzakariasson 指出，传统的 AI Agent 在处理 Bug 时通常依赖静态推理： · 阅读代码 → 形成理论假设 → 直接修改代码 → 期望修复成功 · 这种方式经常产生“看起来自信但实际掩盖了真正 Bug”的假修复这反映了当前 AI 编码工具的普遍痛点：缺少运行时真实证据，只能靠模型的先验知识和代码上下文“猜”。 Debug Mode 的解决方案与工作原理 Debug Mode 的核心理念是：让 Agent 通过运行时日志获取证据，而不是纯猜测。具体循环流程： · Agent 对 Bug 提出多个假设，并优先处理最合理的那个。不直接修改实现代码，而是先添加临时日志来验证假设。 · 通过一个轻量级的调试服务器，将程序运行时的输出收集到 .cursor/debug.log 文件中。 · 用户手动复现 Bug，Agent 随后读取日志，基于真实运行数据理解问题根源。 · Agent 定位根因后，进行真正修复，并自动移除之前添加的临时日志。这个过程将“猜测”转变为“基于证据的诊断”，显著提升了修复的可靠性和透明度。帖中附带了一个真实 Bug 的演示视频，直观展示了整个流程：Agent 添加日志 → 用户复现 → 读取日志 → 精准修复。实际应用案例（Cursor 团队内部使用） · 概率性 Race Condition（1/20 概率出现，破坏 Git 元数据）：传统方式极难复现，Debug Mode 在不到一小时内定位。 · 内存泄漏：通过日志一次追踪到前端框架误用，修复仅需一行代码。 · C++ 原生崩溃（Electron 崩溃）：原本大家倾向于绕过，日志让问题变得可定位。 · SSR 闪烁/渲染 Bug：长期被放弃的顽疾，通过运行时页面行为观察得以修复。这些案例覆盖了并发、内存、本地崩溃、UI 渲染等不同类型问题，显示 Debug Mode 对难以通过静态分析诊断的 Bug 特别有效。

译Cursor 推出 Debug Mode，解决传统 AI Agent 依赖静态推理易产生“假修复”的问题。其核心是通过添加临时日志、让用户复现 Bug，收集运行时证据进行诊断，再自动清除日志。Cursor 团队内部案例显示，该模式能高效定位概率性竞态条件、内存泄漏、C++ 原生崩溃及 SSR 渲染等难以静态分析的 Bug，将“猜测”转为“基于证据的诊断”。

jason@jxnlco · 6月4日54

codex has changed how we do data analysts in the past few months If you wanna learn how we did it, check out this blog post. https://blog.bytebytego.com/p/how-openai-built-its-data-agent

译Codex 在过去几个月改变了我们做数据分析师的方式。如果你想了解我们是如何做到的，请查看这篇博客文章。 https://blog.bytebytego.com/p/how-openai-built-its-data-agent

Berryxia.AI@berryxia · 6月4日66

端侧模型的能力还是在被放大！ Gemma 4 12B和Google AI Edge彻底打通，现在直接在笔记本上就能跑100% on-device的Agentic workflow。 Mac用户最爽：AI Edge Gallery直接生成代码，AI Edge Eloquent支持语音输入然后实时编辑文本，两者都是全新上线。底层用LiteRT-LM把Gemma 4 12B本地Serve起来，整个过程零网络、零延迟、数据全在自己机器里。以前我们总觉得12B模型本地跑agentic任务还差得远，结果Google这次把模型、推理引擎、开发工具链一次性打包好，让普通开发者在笔记本上就能把AI当成真正私有的、可连续执行的本地队友。这其实把行业当前最主流的路径直接反转了。大家都在卷云端更大模型、更低延迟，现在Google却用12B本地模型告诉你：真正的生产力跃迁，是把agentic能力彻底下沉到设备端，让AI成为你操作系统的一部分。

译谷歌将 Gemma 4 12B 与 Google AI Edge 深度整合，开发者可在笔记本上运行 100% on-device 的 Agentic workflow。Mac 用户新增两款工具：AI Edge Gallery 直接生成代码，AI Edge Eloquent 支持语音输入并实时编辑文本。底层通过 LiteRT-LM 本地 serve 模型，实现零网络、零延迟、数据完全留在设备端。Google 将模型、推理引擎和开发工具链打包，让开发者拥有私有的、可连续执行的本地 AI 队友。

Berryxia.AI@berryxia · 6月4日58

我今天刷到OpenAI官方消息，直接把“通用模型就能通吃一切”这个主流认知又打了个反转。他们把GPT-Rosalind正式升级了。这不是简单迭代，把一个专门为生命科学研究打造的企业级模型系列。底层直接把GPT-5.5最强的Agentic Coding和工具调用能力，和生命科学领域的深度智能融合到一起。以前药企做药物发现、分子分析、实验设计、湿实验流程，经常卡在“AI只能给idea，真实实验还得人一步步验证”这个断层上。现在Rosalind把agentic能力直接嵌入到这些流程里：它能自主生成假设、调用工具做模拟、设计实验方案、甚至追踪整个工作流的可重复性。更狠的是，它是专门定制的，不是在通用模型上加个生命科学prompt，而是从头针对药物发现、蛋白设计、实验优化这些真实场景做了专项强化。企业级规模意味着它能处理海量实验数据、跨团队协作、合规审计这些以前只有顶尖实验室才玩得起的复杂链路。这其实戳破了当前AI行业最大的集体幻觉：大家还在卷单一通用模型的参数和基准分，OpenAI却在用行动告诉我们，真正能改变产业的，是把agentic智能下沉到垂直领域，让AI从“聊天助手”变成“科研基础设施”。 Rosalind这个名字也选得有深意，向Rosalind Franklin致敬，那位被低估却奠定DNA结构基础的科学家。现在AI终于开始在生命科学里扮演真正能落地的伙伴角色，而不是停留在纸面演示。

译OpenAI 为专为生命科学研究打造的企业级模型系列 GPT-Rosalind 增加新能力，融合 GPT-5.5 的 Agentic Coding 与工具调用能力。Rosalind 可自主生成假设、调用工具模拟、设计实验方案并追踪工作流可重复性，面向药物发现、分子分析、实验设计及湿实验流程。该模型非通用模型加生命科学提示，而是从头针对药物发现、蛋白设计等场景专项强化，支持企业级海量数据处理、跨团队协作与合规审计。命名致敬 DNA 结构科学家 Rosalind Franklin。

meng shao@shao__meng · 6月4日59

OpenClaw Skill Workshop @shakker OpenClaw 把 Skill 定位为可复用的 Agent 工作流，而不只是说明文档。Skill 一旦生效，会改变之后每一次 Agent 的行为；因此写错 Skill 比写错单次回答更严重——错误会被固化进系统。 Skill Workshop 的定位就是要在「临时对话」和「持久能力」之间加一道人工审核闸门。 https://docs.openclaw.ai/tools/skill-workshop 机制：先提案，再生效 · 提案期：生成 PROPOSAL.md，不写入 SKILL.md，Agent 不会执行 · 审核期：用户可改措辞、补步骤、加规则、调支持文件 · 应用期：用户确认后才变成正式 Skill 典型协作链：你描述要复用的流程 → Agent 起草提案 → 你迭代修订 → 你决定「采用 / 跳过」。产品形态：两种审核节奏 · Board 视图 — 工作坊全貌按 pending / applied / rejected / stale 分栏；可搜索、预览、看 diff、检查附属文件。适合批量治理技能库。 · Today 视图 — 快速过审一次只呈现下一个提案，问题很具体：「要不要纳入 Skills 集合？」适合日常轻量决策。 · Tweak（微调） — 价值最集中的环节生成物往往「八九分对」：措辞、缺步、安全兜底、脚本 vs 模板等。Workshop 把修补变成围绕同一提案对象的修订对话，而不是改完就丢上下文。 Skill 不只是 Markdown Skill 可捆绑标准子目录下的支持文件： · assets / examples / references / scripts / templates 这些文件随提案一起展示、扫描，应用时与主指令一并写入。路径规则刻意收紧：禁止绝对路径、目录穿越、隐藏段、写到 Skill 目录外——在「够用」和「可写任意文件」之间取保守平衡。

译OpenClaw 推出 Skill Workshop，将 Agent 的 Skill 定位为可复用工作流。机制为先提案后生效：Agent 生成提案，用户可修改措辞、补充步骤、调整支持文件，确认后才写入正式 Skill，避免错误固化。提供 Board 视图（按 pending/applied/rejected/stale 分栏管理）和 Today 视图（快速过审）。Tweak 微调功能允许围绕同一提案反复修订。Skill 可捆绑 assets、scripts 等支持文件，路径规则严格禁止绝对路径和目录穿越。引用 OpenClaw：Agent 应学习重复工作，但非静默改写未来运行；Skill Workshop 将可复用经验变成可审查提案。

ginobefun@hongming731 · 6月4日58

http://x.com/i/article/2062309781994704896 # BestBlogs 早报 · 06-04｜微软 AI 平台战略、Kimi Work、超级个体团队在线阅读和收听：https://www.bestblogs.dev/explore/brief/2026-06-04 ## 导语今天是 2026 年 6 月 4 日，欢迎收听 BestBlogs 早报 EP77。今日早报围绕三个各有侧重却指向同一命题的主题展开：微软 CEO 纳德拉在 Build 大会上罕见深度开麦，把「Frontier Intelligence Platform」战略逐层讲透，是企业 AI 转型少见的一手信源；月之暗面 Kimi Work Beta 正式落地桌面端，92% 代码由 AI 自主完成，Vibe Working 时代的序幕正式拉开；腾讯研究院历时一年的 3 万字报告，以量化公式拆解超级个体如何聚合成高效组织。三篇内容方向各异，共同指向同一个问题：人与 AI 协作的边界，正在以肉眼可见的速度重新划定。 ## 精讲一：⚡️萨提亚·纳德拉：Microsoft Build 上的 No Priors x Latent Space 特别跨界对话 Latent.Space · 评分 93 · 阅读全文背景：一次罕见的深度访谈微软 CEO 萨提亚·纳德拉在 Build 2026 大会上参加了 No Priors 与 Latent Space 联合直播访谈——这种跨越两档顶级 AI 播客的对话本身就是一件值得记录的事。纳德拉以「平台」思维成名，每次公开发言都会带出几个高密度的战略判断，而这次访谈尤为难得，因为他将平台转型战略、AI ROI 争议和工程师职能重塑三条主线同时打开，难得一见地把微软的内部逻辑讲得足够具体。三项核心判断一、「Frontier Intelligence Platform」：生态系统而非单一模型纳德拉明确指出，微软正转型为「Frontier Intelligence Platform」，其核心命题源于比尔·盖茨时代就奠定的平台哲学：一个真正的平台，应当能让用户从中创造出远超平台本身所能捕获的价值。落到 2026 年的具体实现上，这意味着每家企业——无论是 AI 原生公司还是传统大企业——都应能以「第一等参与者」的身份接入微软生态：在 OpenClaw 和 Scout 这样的多模型框架上构建自己的 Agent，依托 Work IQ 暴露出的企业上下文层调取组织知识，并把私有评测集（private eval）和运行轨迹数据作为一种新型的「Token IP」积累起来。这套逻辑的背后是一个重要判断：未来企业 AI 竞争壁垒，来自于自己积累的私有评测集和真实轨迹数据，而不是员工人数或采购了哪家模型供应商的服务。纳德拉用一个具体案例佐证：Azure 网络团队通过 Agent 系统 Miles，将 500 余名光纤运维人员的知识系统性地自动化——这不是「AI 辅助人工」，而是将人类专业知识转化为可持续运行的 Agent 系统。二、AI ROI 的双重对话：裁员焦虑与 SaaS 终结访谈触及了当前企业 AI 落地中最敏感的两条线：一方面，企业内部正在进行有关「Tokenmaxxing」与裁员的艰难对话——如何在效率提升中平衡员工关系；另一方面，「SaaS 终结」的判断开始被严肃讨论，因为 Build vs. Buy 的方程式已经发生根本性改变。在纳德拉的框架里，这两个议题都指向同一件事：当 AI 可以将大量脑力工作自动化时，传统 SaaS 的差异化优势（功能差异化）正在被侵蚀，企业自建 Agent 系统的边际成本已经低到不可忽视。他对这个话题的态度是坦然而非防御的——毕竟微软本身就是全球最大的 SaaS 供应商之一，能以这种开放态度讨论 SaaS 终结，本身就说明他对微软在下一轮竞争格局中的位置有足够的信心。三、「让不可能成为可能」：AI 的社会价值 Kevin Scott 在访谈中提出了一个更宏观的框架：AI 最大的价值不在于效率提升 30% 还是 50%，而在于让以前根本不可能发生的事变成可能——特别是教育和社会影响力领域。这个视角为整个访谈奠定了一个高于商业竞争的叙事基调。纳德拉的「平台哲学」与当前 AI 格局的关系值得特别注意的是纳德拉谈及「Token IP」的那段——他认为，企业真正的竞争壁垒不在于采购了哪家模型，而在于积累了多少私有评测集和真实运行轨迹数据。这与 Salesforce 的「数据护城河」论，与 Snowflake 的「数据共享」生态有异曲同工之处，但落到 AI 时代有了新的含义：谁的内部数据飞轮转得快，谁的 Agent 系统就能越来越准、越来越贵。微软的这套战略，把自己从单纯的工具供应商升级为「基础设施 + 生态平台」的双重角色——这是 Windows 时代的老路，但放在 AI 时代重走，有了截然不同的竞争纵深。为什么值得深读这篇访谈是目前质量最高的企业 AI 战略一手信源之一。纳德拉不是在讲 PPT 要点，而是在回应真实的尖锐问题——比如「微软自己最大的 SaaS 收入来自 Office 365，那 SaaS 终结论出来了你怎么看？」这类刁钻问题，他给出的答案既坦诚又有战略纵深。如果你在做企业 AI 转型决策，或者正在思考未来 SaaS 产品的护城河在哪里，这篇值得逐字阅读。原文是英文，访谈笔录格式，篇幅较长，建议先读 Latent Space 的编者按摘要，再选感兴趣的段落精读。 ## 精讲二：Kimi Work Beta 版邀你体验：你的工作，分我一半月之暗面 Kimi · 评分 92 · 阅读全文背景：从 Coding Agent 到 Working Agent 在 AI 工具的普及史上，「会写代码的 Agent」先于「会干活的 Agent」成熟——这并不令人意外，因为代码的正确性可以被自动验证，而知识工作的交付物往往边界模糊。Kimi Code 在工程场景中经过大量真实用户检验，已经建立起足够的信任基线；现在，月之暗面把这套 Agent 能力从终端（TUI）迁移到了普通知识工作者熟悉的桌面 GUI，并将用例从「写代码」扩展到了「做工作」。这就是 Kimi Work Beta 的起点：不是凭空发明，而是用已验证的 Agent 能力换一个受众群体。核心能力拆解架构层面：三源合一 Kimi Work 的内核是三层叠加的能力：底层是 Kimi Code 提供的本地 Agent 基础能力（安装和使用技能、运行定时任务）；中间层是在线版 Kimi Agent 的专业 Skill（建站、PPT、金融数据库、科研数据库、法律数据库）；顶层是 Kimi WebBridge——一个可以像真人一样操作浏览器的方案。这三层能力叠加，理论上覆盖了大多数知识工作者日常任务的全谱系。规模层面：最高 300 个子 Agent 复杂任务的真正瓶颈不是 AI 能不能干，而是单个 Agent 的上下文窗口和注意力有限。Kimi Work 的解法是 Agent 集群：系统可根据任务复杂度自动创建最多 300 个子 Agent 并行协作，底层模型 Kimi K2.6 支持 13 小时连续编码和 4000 余次自主工具调用。这不只是参数上的数字游戏——在办公场景案例中，Kimi Work 能读取本地文件夹里的产品方案、调用浏览器登录订阅数据库、分析 2400 余条用户评论，最终生成 128 页报告并一键转化为 PPT，整个流程无需人工接管。「以己为证」：AI 完成了 92% 的代码 Kimi Work 本身的开发过程是最好的演示。月之暗面工程团队使用 Kimi Code 等 Coding Agent 工具，在一周内完成了 Beta 版的 Mac 和 Windows 双端客户端。开发累计产出超过 5 万行有效代码，其中 92% 由 AI 自主生成。这是一个强信号：不是「AI 辅助人类写代码」，而是「人类监督 AI 完成代码」，角色主次已经发生了反转。三个典型场景月之暗面在发布文章中给出了三个不同领域的具体场景示范，值得逐一了解： - 金融场景：调研巴菲特近 10 年持仓 → 总结投资策略 → 生成并安装专用 Skill → 接入专业金融数据源分析个人持仓，整个链路全自动。 - 科研场景：清洗本地仿真数据集 → 总结特征规律 → 绘制学术图表 → 辅助完成论文，适合数据分析背景薄弱的研究者。 - 办公场景：读取本地文件 → 浏览器登录订阅数据库 → 深度调研 → 生成 128 页市场分析报告 → 一键转为 PPT，全程无需脱离一个入口。挑战与未知当然，Beta 版就是 Beta 版。Kimi Work 当前公开测试的重点，是在任务拆解、多 Agent 并行、工具调用、浏览器操作、本地文件处理和长交付物生成等方面验证能力边界——官方的表述是「以一天 N 版的速度迭代」，这既是坦诚，也是提醒：执行稳定性、交付质量和使用体验还在持续优化中。真正值得追问的问题是：对于不写代码的知识工作者，「任务拆解」和「结果验证」的门槛究竟有多低？Agent 执行 300 个子任务的过程，用户需要多少监督？这些问题的答案，将决定 Kimi Work 是成为下一个 Notion（所有知识工作者都用），还是更像 Cursor（技术人员的高端武器）。Beta 测试期正是回答这些问题的关键窗口。为什么值得关注从 Vibe Coding 到 Vibe Working，这一步跨越的不只是功能边界，而是 AI 工具潜在用户的数量级。全球程序员大约有 3000 万人，而知识工作者的数量在十亿级以上。如果 Kimi Work 能验证「非程序员知识工作者也能流畅使用 Agent 工作流」，那这是一个量级完全不同的市场入口。与此同时，92% 代码由 AI 完成这一数据，也让 Kimi Work 的发布本身成为一个值得研究的元案例：一款 AI 产品，正在用它自己的核心能力完成自身的构建。 ## 精讲三：超级个体时代｜腾讯研究院 3 万字报告腾讯研究院 · 评分 93 · 阅读全文背景：一份基于田野调研的量化报告腾讯研究院 AI 原生小组历时一年，通过内外部调研写成这份 3 万字报告——区别于大多数咨询报告从顶层框架往下推演，这份报告从底层涌现出发：关注的不是「组织应该怎么变」，而是「组织正在怎么生长」。这个出发点决定了报告的气质更接近人类学田野记录，而非管理学方法论手册。斯坦福 HAI《2026 人工智能指数报告》数据显示，全球 88% 的组织已在至少一项业务中采用 AI，但仅有 1% 的公司自认达到了「AI 成熟」状态——能把 AI 深度嵌入核心业务并产生系统性价值的企业，百中无一。这个 1% 与 88% 之间的巨大鸿沟，是整份报告想要破解的谜题。核心公式：组织竞争力的量化方程报告的分析框架浓缩为一个公式：组织竞争力 = 人才密度 × AI 杠杆 / 组织摩擦这不是修辞，而是一个有操作意义的分析工具。三个变量分别对应三个可独立改进的方向： - 人才密度：单位团队中具备独立闭环能力的人占比——不是最聪明的人，而是能自主从「想法」走到「交付」的人。 - AI 杠杆：AI 实际嵌入工作流的深度和覆盖面——不是「买了多少工具」，而是工具真正进入了多少核心业务流程。 - 组织摩擦：一个想法从产生到变成可交付成果之间经过的等待、审批、对齐和信息衰减总量。三者关系是乘除而非加减：分子翻倍但分母不动，净效果打折；分母减半的效果等价于分子翻倍。这意味着减少组织摩擦（分母）的价值，与提升人才密度或 AI 杠杆同等重要，甚至往往回报更高——但这正是大多数 AI 转型项目忽视的部分。超级个体：四个结构性特征报告给出了超级个体的精确定义：借助 AI，一个人能够达到过去需要一个小团队才能达到的产出规模和影响半径。拆开来看，有四个结构性特征缺一不可： 1. AI First 的工作动线：AI 是工作的默认起点，而非遇到困难时的工具。「我先让 AI 跑，然后在 AI 的产出上做判断」——这个顺序上的差异，决定了 AI 杠杆能放大到什么程度。 1. 能力边界的量级跃迁：产出从提升百分之几十变为提升十倍甚至数十倍；同时，单人可以独立跑通过去需要产品、设计、研发、运营多角色接力的整条链路。 1. 主动性极强：天然的边界探索者，持续寻找 AI 能力的极限，不等待组织安排。 1. 影响力溢出：这是判定超级个体的关键阈值——高效个体只让自己变快，超级个体让团队变快。变革的种子是当同事「看到」你一晚上做出了他们一个月的产出时自然种下的。三种超级团队形态个体觉醒之后，下一步是团队涌现。报告梳理了三种超级团队形态：节点辐射（一个超级个体带动周围人改变工作方式）、网络协作（多个超级个体之间形成横向协作网，绕过层级）、AI 中枢（以共享的 AI 系统作为团队协作的核心基础设施）。三种形态并非互斥，成熟的 AI 原生团队往往同时具备多种特征。数据支撑：超级个体并非传说报告援引的量化证据值得记录：AI 可将任务时间减少约 80%；Cursor 约 60 人在约 3 亿美元 ARR 阶段，人效远超传统同规模 SaaS 公司。麦肯锡 2026 年调查显示，AI 已成为头部企业的战略性优势，而非运营工具。与今日其他内容的联系这份报告与今日另外两篇精讲形成了一个完整的叙事弧线：纳德拉描述的是平台层如何为超级个体提供工具；Kimi Work 展示的是工具层如何降低知识工作者的操作门槛；而腾讯研究院的报告，则试图回答当这些工具和平台都就位之后，组织层面会发生什么。三篇合读，会对「AI 时代的工作重构」有更立体的理解。报告的更深层主张：AI 转型与 AI 原生是同一命题报告有一个颇具洞见的统一命题，值得单独提炼：外界常常把「AI 转型」（存量大公司自我改造）和「AI 原生」（白纸起步的新创团队）视为两个截然不同的命题，认为传统企业想真正推进 AI 变革，最好的方式是另起炉灶、重组 AI 原生团队。但报告给出了一个反论：两者其实遵循同一底层逻辑—— - AI 转型 = 存量组织内部，超级个体逐步涌现，能力溢出带动团队进化 - AI 原生 = 超级个体从第一天就按新方式聚合两者的核心命题是同一个：超级个体如何聚合为超级团队。区别只在路径和约束不同，而非要解决的根本问题不同。这个视角对大公司中的 AI 推动者有很强的实操意义：你不必说服管理层「我们要重新造一个 AI 原生团队」，而是可以问「这家公司有没有在培育超级个体，有没有为超级团队的生长创造土壤」——这是一个更容易对话、也更有行动抓手的切入点。阅读建议全文 3 万字，建议分两阶段阅读：先读摘要、核心公式和超级个体四特征部分（约 30 分钟），获得核心分析框架；再按照兴趣选择章节深读——「三种超级团队形态」和「组织启示」两章最具实操价值。完整 PDF 可在腾讯研究院公众号后台回复「超级个体 2026」获取精致排版版本。 ## 速览今日另有 7 篇精选文章，快速了解行业动态： 1. 重新思考研发基础设施：当 Agent 成为第一公民阿里巴巴研发基础设施负责人晓斌以周报自动化为切入点，提出核心框架：Agent 只是把「意图→代码」循环从月/周级压缩至分钟级，软件本质未变。文章以配置推送、身份鉴权等内部案例拆解 Infra 与 Agent 的摩擦点，提炼出四层设计原则（可理解、可操作、可感知、可追溯）。核心结论一针见血：「Agent 自主程度是 Infra 安全能力的函数」，而非模型智能。构建 Agent 系统的工程团队必读。阅读全文 → 2. 将 Gemma 4 12B 带到你的笔记本电脑：利用 Google AI Edge 解锁本地智能体工作流 Google DeepMind 最新开源模型 Gemma 4 12B 与 Google AI Edge 技术栈集成，使得在普通笔记本电脑上运行完全本地的智能体工作流成为可能。新增 macOS 版本的 Google AI Edge Gallery 和 Eloquent 语音听写应用，LiteRT-LM 现可通过 CLI 的 serve 命令直接提供兼容 OpenAI API 的本地端点，适合希望在本地部署 Agent 工具链的开发者。阅读全文 → 3. 一文读懂微软 Build 2026 开发者大会："Agent 优先"时代到来，一口气发七款自研模型微软 Build 2026 大会发布七款自研 MAI 模型（包括旗舰推理模型 MAI-Thinking-1、编程模型 MAI-Code-1-Flash、文生图模型 MAI-Image-2.5、转录模型 MAI-Transcribe-1.5 等）、Scout 智能体、MXC 系统级安全沙箱及 Project Solara 等产品，宣告「Agent 优先」战略全面落地。七款模型均从零训练、零蒸馏，将通过 Azure Foundry 及 Open Router 等平台向开发者开放。阅读全文 → 4. OpenAI 和 Anthropic 共同看好的 FDE：AI 时代的新岗位出现，旧分工松动｜对谈 Rolling AI 对话 Rolling AI 两位合伙人，深度剖析 FDE（Field Deployment Engineer，现场部署工程师）这一新岗位如何将 AI 从「能用」推进到「上岗」。FDE 角色横跨销售工程、解决方案架构和产品实施，是把 AI 产品真正嵌入客户业务流程的关键角色。访谈还通过「AI 副店长」等实际案例，拆解 Agent 如何重构企业组织与商业价值。关注 AI 应用落地的读者不要错过。阅读全文 → 5. Alphabet 超额认购股权融资约 850 亿美元，其中伯克希尔·哈撒韦投资 100 亿美元 Sundar Pichai 在推文中宣布，Alphabet 此次股权融资获得超额认购，总额约 850 亿美元，伯克希尔·哈撒韦出资 100 亿美元。资金将用于 AI 基础设施投资。巴菲特旗下基金押注 Alphabet AI 基础设施，是本周资本市场对 AI 算力需求表态最明确的信号之一。阅读全文 → 6. OpenAI 如何构建其数据智能体 OpenAI 数据平台团队为管理 1.5 EB、9 万个数据集、服务 4000 内部用户的数据平台，构建了一个他们自己形容为「相当朴素」的数据 Agent：单个 LLM + 六层上下文组装 + 缓存层 + 校验步骤。核心洞察：在强大数据基础设施支撑下，简单架构就足够可靠。同样是这套 Codex 驱动的能力，让他们在两个月内完成了 9 万张表、60 PB 数据的跨云迁移。阅读全文 → 7. Cisco CX 如何从聊天机器人走向 AI 原生企业智能体队友 Cisco CX 首席架构师 Carlos 在 Interrupt 26 大会上，讲述了 Cisco 如何把最初的续约聊天机器人，演进为基于 LangGraph 的 AI 原生智能体队友，服务覆盖 18000-20000 人的大型 CX 组织、管理数十亿美元的年度续约业务。重点分享了架构演进决策、组织推广策略和关键经验教训，是企业级 AI 落地的高质量实践案例。 📷阅读全文 → ## 补充阅读以下 6 篇内容延伸今日主题，按各自亮点简评：「悲观者正确，乐观者成功」，和好友亚婷聊聊 AI 行业的种种资深投资人庄明浩从 VC 底层逻辑出发，深度拆解 AI 浪潮下的创业范式、模型竞争终局及人类职业价值的终极拷问。「悲观者正确，乐观者成功」这一命题在 AI 时代有了新的涵义。适合想从投资人视角理解 AI 行业走势的读者。阅读全文 → S9E3 鲁豫对话蔡皋 | 我本布衣，种花种草种春天鲁豫与绘本画家蔡皋探讨在时代局限与个人困境中，如何凭借对艺术与生活的热爱，践行「我喜欢，我选择」的强大主体性，最终活出如岩石中开花般的倔强生命。今日 AI 话题密集，这一篇是难得的「离线」选项，适合需要换换频道的读者在一天结束时听。阅读全文 → Harmonic 如何基于 Deep Agents 重建 Scout，并通过 LangSmith 实现 4 倍留存提升 Harmonic 使用 LangChain 的 Deep Agents 和 LangSmith 重建了 Scout AI 智能体，将产品迭代周期从数月压缩到数天，第 1 周到第 4 周留存率提升 4 倍、平均会话时长提升 10 倍。对正在构建或重构 AI 产品的团队来说，这是一个兼具架构细节和产品指标的好案例。阅读全文 → 在 Codex 中构建和分享应用程序 OpenAI 在 Codex 中推出 Sites 新功能，用户可通过自然语言提示即时构建并部署 Web 应用，支持细粒度访问控制。对于关注「从提示词到上线应用」这一极简部署范式的开发者，这是值得一看的功能演示。阅读全文 → 我花了一个月评估不同的 OCR 引擎作者对 14 个 OCR 引擎在 93 份难度各异文档上进行了实际基准测试，结论是「OCR 是一个路由问题，没有单一最佳引擎」——Mistral OCR、LlamaParse 和 Claude Sonnet 在综合表现上超过传统引擎，成本也更具竞争力。做文档处理产品或数据管道的工程师必读。阅读全文 → 超越聊天机器人的直接偏好优化 DharmaOCR 团队展示：在监督微调（SFT）之后应用直接偏好优化（DPO），使用模型自身的退化输出作为拒绝配对，能在所有测试的模型家族中持续减少结构化 OCR 任务中的文本退化问题，平均降低 59.4%，最优降低 87.6%。适合关注 LLM 微调和生产部署质量的工程师。阅读全文 → ## 今日阅读路径如果你的时间有限，以下是今日三条最高价值阅读路径：路径一（30 分钟）：企业 AI 战略决策者先读精讲三（腾讯研究院报告）获得分析框架，再读精讲一（纳德拉访谈）了解平台层战略，最后速览「微软 Build 2026 综述」补充产品细节。三篇合读，形成「组织理论 → 平台工具 → 产品落地」的完整视角。路径二（15 分钟）：AI 产品与工具用户直接从精讲二（Kimi Work Beta）入手，了解知识工作 Agent 的最新产品形态，再看速览中的「FDE 岗位剖析」，思考 AI 工具如何真正在企业内落地。如果时间还有富余，补充阅读「Harmonic Scout 重建案例」看产品指标。路径三（10 分钟）：工程师与技术决策者优先阅读速览中的「阿里 Agent Infra 四层原则」和「OpenAI 数据 Agent 架构」，两篇都是把 Agent 工程化落地讲得最具体的一手资料。再看补充阅读里的「OCR 引擎基准测试」，实用性极强。以上就是 BestBlogs 今天早报的全部内容。感谢阅读，明天见。

译微软CEO纳德拉在Build 2026阐述「Frontier Intelligence Platform」战略，主张企业AI竞争壁垒来自私有评测集与运行轨迹数据，而非模型采购；Azure网络团队通过Agent系统Miles自动化500余名运维人员知识。月之暗面发布Kimi Work Beta桌面端，基于Kimi K2.6模型，支持最高300个子Agent并行、13小时编码、4000余次工具调用，能自主完成金融调研、科研数据分析和128页报告生成；开发中92%代码由AI生成。腾讯研究院3万字报告量化超级个体与组织效率的关系。三篇内容指向人机协作边界重塑。

Orange AI@oran_ge · 6月4日39

ColaOS 正在招聘 Agent OS 的交互设计师和 Agent QA 岗位这两个岗位都会很有趣，OS 设计师几乎是把一切推翻重来，可以主导一个系统的交互定义 Agent QA 则是要把 Agent 用到极致，才能跟上今天工程师的节奏，甚至能以评估的方式推动他们工作工作地点北京海淀，交互设计师支持远程，QA必须本地图片是 JD，感兴趣的朋友欢迎来聊聊另外其实也在招聘 Agent 产品但是这个岗位的要求和以前的产品完全不一样首先需要具备定义问题的能力所以没有 JD，可以自行定义：究竟什么是 Agent 产品？答案就是最好的介绍信。联系邮箱 k@marswave.ai

译ColaOS 正在招聘 Agent OS 交互设计师和 Agent QA 岗位，工作地点北京海淀。交互设计师支持远程，QA 必须本地。设计师需推翻旧定义、主导系统交互；Agent QA 需极致使用 Agent 才能跟上工程师节奏。同时招聘 Agent 产品岗位，要求具备定义问题的能力，无固定 JD，需自行回答“什么是 Agent 产品”，答案即最好的介绍信。联系邮箱 k@marswave.ai。

OpenClaw🦞@openclaw · 6月4日64

OpenClaw 2026.6.1 is live 🦞 🪟 native Windows node host 🛠️ Skill Workshop for self-learning agents 📋 Workboard orchestration 🧠 MiniMax M3 support Windows joins the cluster. No penguin costume required. https://github.com/openclaw/openclaw/releases/tag/v2026.6.1

译OpenClaw 2026.6.1 已上线 🦞 🪟 原生 Windows 节点主机 🛠️ 用于自主学习型智能体的技能工坊（Skill Workshop） 📋 工作板（Workboard）编排 🧠 支持 MiniMax M3 Windows 加入集群。无需企鹅服。 https://github.com/openclaw/openclaw/releases/tag/v2026.6.1

OpenClaw🦞@openclaw · 6月4日59

Agents should learn repeated work, but not by silently rewriting future runs. Skill Workshop turns reusable agent lessons into reviewable proposals you can tweak, apply, or reject before they become live skills. https://openclaw.ai/blog/openclaw-agent-skill-workshop

译Agent应当学习重复工作，但不能通过静默重写未来运行来实现。 Skill Workshop将可重用的Agent经验转化为可审查的提案，你可以在它们成为实时技能之前进行调整、应用或拒绝。 https://openclaw.ai/blog/openclaw-agent-skill-workshop

MiniMax (official)@MiniMax_AI · 6月4日78

Mem0 is an official launch partner for MiniMax M3! M3's 1M token context window + @mem0ai 's memory layer = AI apps that truly remember. Build personalized AI agents with persistent memory, now with 50% off M3 during launch week. Get started with Minimax → https://platform.minimax.io/docs/guides/models-intro Sign up with mem0 → http://app.mem0.ai/?utm_source=minimax_x_post

译Mem0 是 MiniMax M3 的官方启动合作伙伴！ M3 的 1M token 上下文窗口 + @mem0ai 的记忆层 = 真正记住的 AI 应用。构建具有持久记忆的个性化 AI 智能体，现在启动周内 M3 享五折优惠。开始使用 Minimax → https://platform.minimax.io/docs/guides/models-intro 注册 mem0 → http://app.mem0.ai/?utm_source=minimax_x_post

Greg Brockman@gdb · 6月4日71

Major upgrade to GPT-Rosalind, with much better intelligence for drug discovery, analysis, design, and experimental workflows:

译GPT-Rosalind 重大升级，药物发现、分析、设计和实验工作流的智能大幅提升：

swyx@swyx · 6月4日64

Town is the Devin for Everything Else i was talking about at AIE Europe i brought it into our company one day and a few weeks later was shocked to hear that it had just organically spread to @liamcbride and the rest of our team with no further hyping or enablement from me. this never happens! sadly i was not smart enough to ask to invest, so just genuinely a daily active user sitting on the sidelines like a chump

译TownAI 结束 beta 正式发布，同时宣布完成 5500 万美元 A 轮融资，由 a16z 领投，Forerunner Ventures 等跟投。该 AI 助手可连接用户的邮箱、日历、Slack、文档等，在理解个人工作习惯后自动执行草稿、排程、项目跟踪、跟进等多步任务，且仅当用户授权时才行动。swyx 称其为“Everything Else 的 Devin”，他在公司引入后，团队自然采用，无需额外推广，自己虽未能投资但已成为日常活跃用户。

ClaudeDevs@ClaudeDevs · 6月4日79

How do we automate business analytics with Claude? New blog post covering our best practices for skills, data foundations, and evaluations when building agents to perform data analysis: https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

译我们如何用 Claude 自动化商业分析？新博客文章，涵盖构建数据智能体时在技能、数据基础和评估方面的最佳实践： https://claude.com/blog/how-anthropic-enables-self-service-data-analytics-with-claude

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 6月4日42

Drones enforcing traffic rules in Shenzen

译深圳无人机正在执行交通规则。

MiniMax (official)@MiniMax_AI · 6月4日65

@mem0ai is an official launch partner for MiniMax M3! M3's 1M token context window + @mem0ai 's memory layer = AI apps that truly remember. Build personalized AI agents with persistent memory, now with 50% off M3 during launch week. Get started with Minimax → https://platform.minimax.io/docs/guides/models-intro Sign up with mem0 → http://app.mem0.ai/?utm_source=minimax_x_post

译@mem0ai 是 MiniMax M3 的官方发布合作伙伴！ M3 的百万 token 上下文窗口 + @mem0ai 的记忆层 = 真正能记住的 AI 应用。构建带有持久记忆的个性化 AI 智能体，发布周期间 M3 可享 5 折优惠。开始使用 Minimax → https://platform.minimax.io/docs/guides/models-intro 注册 mem0 → http://app.mem0.ai/?utm_source=minimax_x_post

Rohan Paul@rohanpaul_ai · 6月4日53

In the world of finance the biggest challenge with AI isn't intelligence. It's trust. Investment teams are still losing too much time turning messy deal files & excels into reports they can actually trust. These guys just launched Leni, a multi-agent system for serious work in real estate, private equity, and investment finance. Claims 80% faster reports, beats GPT/Claude on investment tasks, and full source-traceable outputs. It is designed to run longer tasks, cross-check itself, and return finished deliverables like underwriting workbooks, market studies, IC memos, and reporting

译Leni是一个面向房地产、私募股权和投资金融的多智能体系统，声称报告生成速度提升80%，在投资任务上超越GPT/Claude，输出全源可追溯。它可同时分析数百个文件，自行推理、交叉验证并输出承销工作簿、市场研究、IC备忘录等成品。据称已被机构用于管理超$80B资产，处理超1亿行数据。创始人强调，大额投资场景下“大致正确”毫无意义，Leni的核心目标是实现可验证、可信任的投资级AI决策。

xAI@xai · 6月4日45

Meet Go by Gopuff and SpaceXAI: your personal shopping assistant that knows what you want and delivers in minutes. Powered by Grok text, audio, and image models.

译认识由Gopuff和SpaceXAI推出的Go：你的个人购物助手，它知道你想要什么，并在几分钟内送达。由Grok文本、音频和图像模型驱动。

Satya Nadella@satyanadella · 6月4日40

Thanks for joining us at Build, Jensen! Grateful for the deep partnership with NVIDIA across cloud and edge.

译感谢你加入我们的Build大会，黄仁勋！感谢与NVIDIA在云和边缘领域的深度合作。

Ethan Mollick@emollick · 6月4日68

In early May, the best superforecasters predicted that, by the end of the year, the longest METR 80% task horizons would reach 3-4 hours. In late May, Claude Mythos achieved that number.

译5月初，顶级超级预测者预计2026年底前最长METR 80%任务时间范围可达3-4小时。然而5月底，Anthropic的Claude Mythos模型在METR基准预览中即以80%成功率达到3小时6分钟，直接落在专家和超级预测者对2026年底的中位数预测范围内（3-4小时）。此前基线为1.5小时。此次突破表明AI能力进展速度远超预期。

Perplexity@perplexity_ai · 6月4日56

Perplexity Computer is for growing businesses. Computer connects to 400+ tools for every type of company, including Intuit QuickBooks, Vercel, Shopify, Canva, and more. Learn more about how people are using Computer for their business: https://www.perplexity.ai/enterprise/use-cases/growing-businesses

译Perplexity Computer 适用于成长型企业。它可连接超过400种工具，涵盖各类公司需求，包括Intuit QuickBooks、Vercel、Shopify、Canva等。了解更多关于企业如何使用Computer进行业务操作： https://www.perplexity.ai/enterprise/use-cases/growing-businesses

Rohan Paul@rohanpaul_ai · 6月4日59

This feels like the natural next step for AI agents. One prompt for the whole email workflow with MCP-backed Claude controlling it. Nitrosend just launched an AI-native email platform that lets Claude build, design, segment, and send complete email campaigns from a single prompt. It connects through MCP, so Claude can act on the email system directly instead of only writing copy that a human must paste into Mailchimp, Klaviyo, or another builder. The key point is agency: Claude is not producing a draft, it is controlling the workflow across design, logic, contact targeting, and delivery. Some example - a user can ask for a newsletter, onboarding flow, or transactional email set, and Nitrosend generates responsive, dark-mode-ready, editable email markup with the sending stack already attached.

译Nitrosend 推出 AI 原生邮件平台，通过 MCP 协议与 Claude 连接。用户只需一条提示词，Claude 即可完成构建、设计、受众分组和发送完整邮件活动，而非仅生成草稿。该平台无传统仪表盘，Claude 直接控制系统工作流，包括设计、逻辑、目标定位和投递。引用推文显示，已有用户通过一条提示词成功向 10,000 人发送发布公告。

elvis@omarsar0 · 6月4日66

This SkillOpt paper from Microsoft is a must-read! (bookmark it) I was a bit skeptical of the results reported in the paper when I shared it a few days ago. However, I managed to integrate it into my agent orchestrator and ran a few experiments. The results are mindblowing. Essentially, all my agent skills now have a proper testing framework and a way to self-evolve. I have started to improve all my agent skills with this. One exciting result was when I applied it to my paper-figure-extraction skill, which requires an agent to do multimodal analysis. In particular, it improved quality by +20 points (0.73 → 0.93). I went to see the extracted tables and figures, and I was absolutely stunned by how much better my skill got at the task. Self-improving AI is in the early days, but I think this work is a clear example of the current ability of agents to self-improve. In this case, it was skills, but it's not hard to imagine how this scales to optimizing agent patterns, tool use, context engineering efforts, agentic search, workflows, evals, and even the harness itself. I already started with a few of these ideas inspired by SkillOpt. Stay tuned!

译DAIR.AI的Elvis Saravia将微软SkillOpt论文集成到智能体编排器中后，所有智能体技能获得测试框架与自我演化机制。应用于多模态论文图表提取技能时，质量评分从0.73提升至0.93（+20点），提取结果显著改善。Saravia认为这是自我改进AI的早期范例，该思路可扩展至智能体模式优化、工具使用、上下文工程、智能体搜索及工作流评估等环节。他已基于SkillOpt启动多项后续实验。

eric zakariasson@ericzakariasson · 6月4日74

http://x.com/i/article/2061967596568875008 # Don't let your agent guess, give it runtime context If you've ever watched an agent try to fix a bug, you've watched it guess. It reads the code, comes up with a theory, makes an edit, and hopes. Sometimes it's right. A lot of the time you get a fix that looks confident and quietly hides the real bug. Debug Mode is what we built for that. Instead of sitting there reasoning about the code, the agent goes and gets evidence about what the code does when it runs. Here's the loop 1. Agent comes up with multiple hypotheses, and starts to work on the most plausible first 1. Then, logging is added to test one hypothesis (without touching implementation) 1. A little debug server collects the runtime output to .cursor/debug.log while your program runs. 1. You reproduce the bug, and agent can now read the logs and understand what happened instead of having to guess 1. Cursor finds the root cause in the logs, makes the fix, and pulls out the logging it added. Here it is on a real bug, sped up to about a minute: ## How the team uses it Some interesting things that we've solved internally with debug mode: - A race condition that hit 1 in 20 runs. It was corrupting git metadata in our best-of-N runs. Debug Mode pinned it down in under an hour - A memory leak, traced in one pass. It came down to a misuse of our frontend framework. The fix was a single line. - A native crash deep in C++. An Electron crash people would normally route around. The logs made it findable. - An SSR flicker that had been given up on. A rendering bug nobody wanted to touch, fixed once the agent could see what the page was doing at runtime. Try it with Shift+Tab (it's in the CLI too, via /debug). I'm sure people are using it in ways I haven't thought of, so let me know!

译Cursor 发布 Debug Mode，解决 AI 智能体靠猜测修 Bug 的问题。工作流程：Agent 先生成多个假设，为最可能的假设添加日志（不修改代码）；调试服务器在程序运行时收集输出到 `.cursor/debug.log`；用户重现 Bug 后，Agent 读取日志而非猜测；最后 Cursor 从日志找到根因并修复，自动移除添加的日志。内部案例：追踪 1/20 概率出现的 git 元数据竞争条件（1 小时内定位）；一次单趟追踪内存泄漏（修复仅一行）；定位 Electron 中 C++ 原生崩溃；修复此前无人敢碰的 SSR 闪烁问题。用户可通过 Shift+Tab 或在 CLI 中使用 `/debug` 触发。

Perplexity@perplexity_ai · 6月3日61

Personal Computer is coming to Windows. Personal Computer for Windows runs on your machine and orchestrates across the apps and files you use every day. We'll roll out first to paying Max and Enterprise Max subscribers on the waitlist.

译Personal Computer 即将登陆 Windows。面向 Windows 的 Personal Computer 在你的机器上运行，并协调你每天使用的应用和文件。我们将首先向等候名单上的付费 Max 和 Enterprise Max 订阅用户推送。

Google Gemini@GeminiApp · 6月3日67

Join @GoogleDeepMind Principal Engineer @__apf__ to walk through how Gemini Spark helps simplify your daily workflows. Powered by Gemini 3.5 Flash, Spark builds upon Gemini's ability to connect with @GoogleWorkspace apps like Docs and Gmail to execute complex tasks.

译参加 @GoogleDeepMind 首席工程师 @__apf__ 的演示，了解 Gemini Spark 如何帮助简化您的日常工作流程。由 Gemini 3.5 Flash 驱动，Spark 建立在 Gemini 与 @GoogleWorkspace 应用（如 Docs 和 Gmail）连接的能力之上，以执行复杂任务。

elvis@omarsar0 · 6月3日72

New research from Google. Just shows the impressive results you can get from custom agent harnesses. LEAP wraps a general-purpose LLM in an agentic scaffold that grounds every step in the Lean compiler and iterates against verifier feedback. The same general model solves all 12 Putnam 2025 problems and lifts Lean-IMO-Bench one-shot solve rate from under 10% to 70%, beating a specialized gold-medal system that scores 48%. Paper: https://arxiv.org/abs/2606.03303 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Google 新研究 LEAP 将通用大语言模型封装在智能体框架中，每个步骤基于 Lean 编译器，并依赖验证器反馈进行迭代。同一通用模型解决了全部 12 道 Putnam 2025 问题，并将 Lean-IMO-Bench 一次性解决率从不到 10% 提升至 70%，击败了得分 48% 的专业金牌系统。论文链接：https://arxiv.org/abs/2606.03303。

Alibaba Cloud@alibaba_cloud · 6月3日37

Dr. Feifei Li, CTO of Alibaba Cloud & Tommy Eastman @yeahfortommy , Head of Strategy, @NousResearch As we orchestrate intelligence at scale, reshaping knowledge work, giving agents autonomy requires reproducible actions—the core secret behind Hermes agent's success.

译阿里巴巴集团首席技术官李飞飞博士与NousResearch战略主管Tommy Eastman 我们大规模编排智能，重塑知识工作，赋予智能体自主性需要可复现的行动——这就是Hermes智能体成功的核心秘诀。

向阳乔木@vista8 · 6月3日63

GPT 5.5 Pro 调研生成了一份关于 Codex 的Goal指令如何用的文档。仔细阅读学到了两个技巧： 1. 觉得写不好goal时，先用plan模式，让AI反问自己一些问题，让AI帮收敛写Goal指令。提示词模板： /plan Help me turn this vague task into a strong Codex goal. Interview me for missing success criteria, verification commands, constraints, boundaries, iteration policy, and blocked stop conditions. Then draft a final `/goal ...` command. 2. 写好Goal的六要素：结果、验证、约束、边界、迭代和阻塞条件官方标准模板如下： /goal [Outcome]. Verification: [commands/artifacts/evidence]. Constraints: [what must not change]. Boundaries: [allowed writes / forbidden paths]. Iteration policy: [one focused change, rerun checks, log progress]. Stop when: [evidence proves completion]. Pause if: [blocked conditions / human decisions / budget cap]. 详细调研报告见评论区，有不少模板可直接用。

译GPT 5.5 Pro 调研生成了一份 Codex 的 Goal 指令使用文档，分享两个技巧：1. 写不好 Goal 时先用 /plan 模式，让 AI 反问用户来完善命令，提示词模板为 `/plan Help me turn this vague task into a strong Codex goal...`；2. 写好 Goal 的六要素：结果、验证、约束、边界、迭代策略、阻塞条件。官方标准模板为 `/goal [Outcome]. Verification: [...] Constraints: [...] Boundaries: [...] Iteration policy: [...] Stop when: [...] Pause if: [...]`。详细报告含多个可直接使用的模板。

🚨 AI News | TestingCatalog@testingcatalog · 6月3日72

Capafy has released 5 pre-made e-commerce Skills, each built by an operator who has spent years on the store-side front line, with their hands-on playbook packaged into an agent that anyone can now run. The set covers 👀 > Commerce Video Ad Maker > Amazon Listing Image Generator > Paid Ads Diagnose > Amazon Listing Fix Kit > Amazon/TikTok/eBay SOP Generator

译Capafy 推出 5 个预制电商技能，每个均由一线运营者将实践手册打包成 AI 智能体。包括：Commerce Video Ad Maker（上传 1-3 张产品图生成适配 TikTok Shop、Amazon、Meta 等平台的广告视频）；Amazon Listing Image Generator（按买家疑虑顺序生成主图到画廊，用 GPT Image 2 检查合规性）；Paid Ads Diagnose（分析 ROAS 下降或 CPA 飙升原因，给出扩量或暂停建议）；Amazon Listing Fix Kit（逐行检查详情，提供重写文案、7 图计划、A+ 内容和索赔安全标识）；Amazon/TikTok Shop SOP Generator（生成逐条执行的 SOP 并标注违规风险）。Capafy 定位为技能智能体市场，支持上传技能并按次收费。