🚨 AI News | TestingCatalog@testingcatalog · 2天前35

Bloome launched its instant messaging platform for agentic teams! Agents can draft, push back on one another, cross-check details, and refine the output until it is ready. Models like Claude, ChatGPT, and DeepSeek can run side by side with coding agents as well as custom agents built in @Bloome_im

译Bloome 推出了面向智能体团队的即时通讯平台！智能体可以互相起草、反驳、交叉核对细节，并不断完善输出，直到准备就绪。Claude、ChatGPT 和 DeepSeek 等模型可以与编码智能体以及 @Bloome_im 中构建的自定义智能体并排运行。

🚨 AI News | TestingCatalog@testingcatalog · 2天前79

Meituan released LongCat-2.0, a new 1.6T parameter model with 1M context window! > Both the full training run and the large-scale deployment are built entirely on AI ASIC superpods. It is also available for testing on OpenRouter under the Owl Alpha name.

译美团推出LongCat-2.0，总参数1.6T（MoE架构，活跃参数约48B），支持1M上下文窗口。训练与部署完全基于AI ASIC超算集群，已以Owl Alpha名称在OpenRouter上线测试。模型专为智能体编码设计：LongCat Sparse Attention（LSA）高效处理百万级token；Zero-Compute Experts每个token动态激活33B–56B参数，零浪费计算；MOPD机制含三种任务门控专家组（Agent/Reasoning/Interaction）。基准测试：Terminal-Bench 2.1得70.8，SWE-bench Pro 59.5（同期GPT-5.5为58.6），SWE-bench Multilingual 77.3，FORTE 73.2，RWSearch 78.8，BrowseComp 79.9。

小互@xiaohu · 2天前62

OpenClaw 推出了自己的手机客户端 • 通过二维码或设置码与你的小龙虾配对 • 在手机上和 A小龙虾聊天 • 支持实时和后台语音对话模式 • Agent执行操作前，先在手机上向你确认审批 • 直接把文字、链接、图片从其他 App 分享进来 • 可授权摄像头、定位、照片、通讯录、日历、提醒事项等设备权限 • 接收推送通知和节点状态更新

译OpenClaw 推出手机客户端，可通过二维码或设置码与 AI 助手“小龙虾”配对。支持在手机端实时及后台语音对话；Agent 执行操作前需在手机上确认审批；可跨 App 分享文字、链接、图片；授权摄像头、定位、照片、通讯录、日历等设备权限；接收推送通知与节点状态更新。

SiliconFlow@SiliconFlowAI · 2天前67

The full model behind "Owl Alpha" on @OpenRouter is here🦉 Let's meet @Meituan_LongCat 's latest flagship model, LongCat-2.0 Now Day 0 live on SiliconFlow 🔥 💰 Input Cache/Input/Output: $ 0.015/0.75/2.95 per 1M tokens ⚙️ 1.6T-param MoE (~48B active) · Native 1M context window 🧠 Built for agentic coding from the ground up: ◆ LSA: sparse attention that scales efficiently to 1M ◆ Zero-Compute Experts: dynamic 33B–56B active/token, no wasted compute ◆ MOPD: three specialized expert groups (Agent / Reasoning / Interaction), gate-routed per task 🏆 59.5 SWE-bench Pro: performance on par with mainstream close-sourced models Start building with 🐱👇

译美团 LongCat 推出旗舰模型 LongCat-2.0，采用 1.6T 参数 MoE 架构（约 48B 活跃参数），原生支持 1M 上下文窗口。定价为 Input Cache $0.015/1M tokens、Input $0.75/1M tokens、Output $2.95/1M tokens。模型专为 Agentic Coding 设计，包含三大技术：LSA 稀疏注意力实现高效 1M 扩展；Zero-Compute Experts 动态激活 33B–56B 参数/token，无算力浪费；MOPD 将专家分为 Agent / Reasoning / Interaction 三组，按任务门控路由。在 SWE-bench Pro 上取得 59.5 分，性能接近主流闭源模型。现已上线 SiliconFlow Day 0 服务。

歸藏(guizang.ai)@op7418 · 2天前75

Twitter 终于有 MCP 了，这个非常有用！如果你像我一样依赖 Twitter 信息的话，就可以让 AI 帮你自动整理、总结和对你的数据进行分析不过依然需要你注册 Twitter 的 API，然后按量付费。我今天早上配置了一下，它针对个人信息（就是你自己的信息）其实有一个比较大的优惠：调用一次是 0.01 美元，也就是 1 美元可以调用 1000 次。我拉取了一下最近三天的书签，只花了 0.1 美元。我大致做了几张图，简单写一下如何配置： 1. 创建 APP 与充值：去 Twitter 开发者后台创建一个 APP。注意，充钱是必须的。 2. 获取配置 ID (a) 创建完 APP 后，从侧边栏点进你创建的这个 APP。 (b) 在设置里填写并修改相关内容。 (c) 修改完成后，系统会弹窗显示两个 ID，这两个 ID 是需要在 MCP 里填写的，一定要记好。 3. 辅助配置 (a) 我的那张图片发给 Codex 或者 Claude，让他们帮你配置。 (b) 配置完后，让他们打开配置文件，你把那两个 ID 替换掉就可以了。 4. 授权启动在启动时，第一次需要打开网页进行授权。如果你的 AI 没有自动打开网页，可以提醒它一下。

译X（Twitter）官方推出 hosted X MCP，AI 智能体可通过 MCP 协议直接调用 X API 获取实时信息，支持 Grok、Cursor 等工具。用户需注册 X API 并按量付费，个人优惠价每次调用 0.01 美元（1 美元 1000 次）。有用户实测拉取近三天书签仅花 0.1 美元。配置步骤：创建 APP 并充值、获取配置 ID、辅助配置（可交给 Codex/Claude）、授权启动。

AYi@AYi_AInotes · 2天前66

Hermes独霸移动端的日子要结束了，OpenClaw直接把私有云AI助手搬进了你的手机，数据完全隔离不进训练集。这款工具现已原生支持iOS与安卓双端，所有运行在私有云容器中，文件存储在个人云工作空间，全程不会将你的数据用于LLM训练。免费套餐每天提供20条由Gemini驱动的AI消息，每月20美元的订阅即可解锁无限使用权限。过去几个月Hermes占据了移动端Agent的大部分注意力，主打隐私隔离的OpenClaw，相当于给用户多了一个完全不同取向的选择。你选AI助手时，会把数据隐私放在第一位吗。

译OpenClaw推出原生iOS和Android应用，将私有云AI助手搬进手机。所有Agent运行在私有云容器中，文件存储于个人云工作空间，数据完全隔离不进LLM训练集。免费套餐每天提供20条由Gemini驱动的AI消息，每月20美元订阅可解锁无限使用权限。与移动端Agent Hermes相比，OpenClaw提供隐私优先的差异化选择。

meng shao@shao__meng · 2天前75

美团发布 LongCat-2.0 了，1.6T 参数 MoE 架构，激活参数 48B，上下文窗口 1M（最大输出 128K），采用 5-6 万张中国国产加速卡训练，训练推理全程零英伟达依赖。三项关键技术 1. N-gram Embedding：参数前移 embedding 层，减 MoE 路由与通信开销 2. 稀疏注意力 + 跨层索引：支撑 1M 上下文，控制计算成本 3. 底层算子自研：确定性 FAG、Scatter 重写等，弥补国产芯片生态短板能力定位 Agent + Coding 优先，非通用对话。Preview 在 OpenRouter 开发者调用量居前，Claude Code / Hermes 生态采用度高。与 DeepSeek V4 的差异参数量级相近（1.6T / ~48B / 1M），路径不同：DeepSeek 开源 + 双栈适配；LongCat 强调训推全链路国产化。

译美团发布LongCat-2.0，1.6T参数MoE架构，激活参数~48B，上下文窗口1M（最大输出128K），使用5-6万张国产加速卡训练，训练推理全程零英伟达依赖。核心技术包括N-gram Embedding降低路由通信开销、稀疏注意力+跨层索引支撑长上下文、自研底层算子弥补国产芯片生态。定位Agent+Coding优先，非通用对话。Benchmark：Terminal-Bench 2.1 70.8，SWE-bench Pro 59.5（超GPT-5.5的58.6），SWE-bench Multilingual 77.3，FORTE 73.2等。与DeepSeek V4参数规模相近但路径不同：DeepSeek开源+双栈，LongCat强调全链路国产化。

Orange AI@oran_ge · 2天前41

5月的某天，36氪的记者 Jessy 到我们公司访谈，大家很投机，不知不觉地就聊了很久。在超过 10 个小时的录音里，最终梳理出了这篇文章。这是一篇真实的 AI Native 公司转型实录，我们过去一年多的真实挣扎和决策都在里面了。怎么在梦想和赚钱之间平衡，怎么带团队穿过没有答案的阶段，怎么在AI时代重建一家公司的工作方式。对我们来说，这是时代剧变中的一个对自身的观测点，回头看来，我们所做的事情有对有错。对读者来说，它的对错并不重要，重要的是其中真实的取舍和挣扎，也许对大家有一定的参考价值。 https://mp.weixin.qq.com/s/mDKgfmyJpML2VeyBTw20Pw

译36氪记者 Jessy 到 Oran Ge 所在公司访谈，超过 10 小时录音梳理成文。文章记录了该公司过去一年多真实挣扎与决策：如何在梦想与盈利间平衡，带领团队穿越缺少答案的阶段，以及重构 AI 时代的工作方式。作者将其视为时代剧变下的自身观测点，对读者而言，其中的取舍与挣扎具有参考价值。

小互@xiaohu · 2天前81

http://x.com/i/article/2071795831028826112 # 一个人，管理开发5款产品，而且80% 时间不在写代码，靠这一步... Every 单人团队运营 5 款产品，核心是每次完成功能后多做的一步：把解法存进系统，让 AI 下次自动避坑。 > ⚑ 立场提示：本文是 Every 团队自述其「复利工程」方法论与自家开源插件的实践，文中的并发规模、时间分配、产品数量都是官方口径。下面只讲它怎么运作、每个数字代表什么。 > ▸ 先认识下 Every：Every（every.to）是一家 2020 年成立的媒体 + 软件公司，CEO 兼联合创始人是 Dan Shipper。它每天发一份讲「科技下一步」的付费 newsletter，同时自己动手做软件产品——文中的 Cora、Monologue、Sparkle、Spiral 都出自它，另外还做 AI 课程和咨询。所以「复利工程」不是纸上谈兵，是一家又写又做、天天泡在 AI 里的公司，从自家实战里攒出来的方法。 ## 速览 - Every 用「复利工程」（Compound Engineering），以基本单人的工程团队维护旗下 5 款产品，核心是 Plan → Work → Review → Compound 四步循环。 - 传统工程走到 Review 就停了，第四步 Compound 把每次解决的问题变成系统知识，让 AI 下次自动避开同类错误，效率差距就来自这里。 - 这套方法主张工程师 80% 的时间花在 Plan 和 Review，只有 20% 用来实际写代码。 - 配套插件已开源，支持 Claude Code / OpenCode / Codex，含 26 个专项 agent、23 条工作流命令、13 项技能，零配置即用。 - /workflows:review 一次调用并发 14 个专项 agent 审查代码，/workflows:plan 开 ultrathink 模式可并发 40 多个研究 agent。 ## 一个人撑五款产品，怎么做到的 Every 团队最近公开了一套叫「复利工程」（Compound Engineering）的方法论，外加一个配套的开源插件，讲他们怎么用基本是单人配置的工程团队，同时维护旗下五款产品。五款产品 Cora、Monologue、Sparkle、Spiral，加上官网 Every.to，每个产品的工程团队基本只有一个人。撑住这套规模的不是更长的工时，而是一个四步循环里被大多数团队省掉的最后一步。 > ◆ 为什么值得看：Every 把平时只在内部跑的东西开源了，包括 14 个 AI 同时审一段代码、计划阶段并发 40 多个研究 agent，外加 26 个专项 agent。这是目前公开的多 agent 并行工程实践里，数字最具体的开源参考之一。 ## 代码越写越难碰，根子在哪大多数代码库随时间越来越难维护，原因不复杂：每加一个功能，就往系统里注入一份新的复杂度，新功能要和所有旧功能「谈判」。十年下来，团队花在跟历史代码较劲上的时间，比花在造新东西上的还多，代码变得越来越难懂、难改、难信任。复利工程把这条曲线反过来。功能不再是往系统里加负担，而是教会系统一项新本领；修一个 bug，顺手消掉未来一整类同类 bug；一个解法被固化下来，就变成下次能直接复用的工具。迭代越多，系统越好用。 ## 四步循环：80% 的时间根本不是在写代码支撑这套规模的，是一个四步循环：Plan（计划）、Work（执行）、Review（审查）、Compound（固化），然后重复。不管你是花五分钟修个 bug，还是花几天做个功能，走的都是这四步，只是每步花的时间多少不同。前三步任何开发者都熟，第四步 Compound 才是复利工程和普通工程的分界线。跳过它，你做的就只是「有 AI 助手的传统工程」。传统工程到 Review 收手，复利工程多走 Compound 一步，把这一轮学到的东西留给下一轮。反直觉的地方：写代码只占两成时间。 Plan 和 Review 加起来占工程师 80% 的时间，真正动手写（Work）加上固化（Compound）只占 20%。大部分思考发生在代码被写出来之前和之后。四步各自在做什么： - Plan 计划：把想法变成蓝图。弄清需求和约束、研究代码库里同类功能怎么实现、查框架文档和最佳实践、设计方案、再校验方案是否站得住。 - Work 执行：先用 git worktree（仓库的隔离沙盒副本，多任务可各开一份并行跑、互不干扰）开出隔离环境，agent 按计划逐步实现，每改一处就跑测试、linting 和类型检查。 - Review 审查：多个专项 agent 并行审，把问题标成 P1（必须修）/ P2（应该修）/ P3（可以修），修完再校验，并记录这次出了什么问题。 - Compound 固化：把解法抽成可复用的知识写回系统——下面一节专门讲。几个 Every 建议丢掉的旧观念： - ✕「代码必须手写」你的职责是产出可维护、解决对问题的好代码，谁敲键盘不重要。 - ✕「第一版就该写好」他们的经验里第一版 95% 是垃圾、第二版还有 50%，这是过程，目标是迭代够快让第三版落地比第一版还省时。 - ✕「不亲手敲就学不到」今天理解比肌肉记忆重要，审 10 个 AI 实现比手敲 2 个学到的模式更多。 - ✕「代码是自我表达」代码从来不属于你个人，它属于团队、产品和用户。 ## 第四步具体怎么做：把解法变成系统的记忆前三步产出的是「一个功能」。第四步 Compound 产出的是「一个每次都能把功能做得更好的系统」。它落到地上是四个动作： 1. 记录解法——什么管用、什么没用、可复用的点是哪个。 1. 加元数据——用 YAML frontmatter 打标签，方便日后检索。 1. 更新 CLAUDE.md——把新模式写进 agent 每次启动都读的文件。 1. 验证学到了——下次它能自动接住同类问题吗。 > 复利的来源：传统开发停在第三步审查，复利工程多走这一步——把刚解决的问题写进系统。这一步不产出代码，产出的是「系统下次自动避开同类问题」的能力。效率差距就来自这里。 > 打个比方：CLAUDE.md 就是放在项目根目录的「AI 操作手册」，agent 每次启动都会先读它。它像新员工入职必读的 SOP：每当有人解决了一个之前没遇到的问题，就往里加一条规则，下一个人来就自动懂了，不用再踩一遍同样的坑。下面这个对照，能直观看到这条规则攒下来之后的差别： - ✕ 没有积累：agent 不知道这个坑，你和它一起调试、定位、修好。修完，Compound 把「为什么会出、怎么避开」写进 CLAUDE.md，并存一份带 YAML 标签的文档进 docs/solutions/。这一次多花了点时间记录。 - ✓ 系统已经记住了：agent 一启动就读到那条规则，docs/solutions/ 里也能搜到上次那份解法。于是在 Plan 阶段它就主动绕开了同类问题，根本走不到出 bug 那一步。前面那次记录的时间，在这里连本带利赚回来。每完成一次 Compound，CLAUDE.md 就多一条知识：迭代 1 → 1 条，迭代 3 → 3 条，迭代 5 → 8 条，系统越用越聪明。docs/solutions/ 就这样攒成一座机构知识库——Every 用 /workflows:compound 跑这一步，并发派出六个子 agent（理解问题、抽取解法、找相关旧文档互链、写「怎么避免复发」、做分类标签、排版成文档），日后任何一次会话都能自动翻到过去的解法。 ## 14 个 AI 同时帮你审代码一条 PR 进来，/workflows:review 会一次性派出 14 个专项 agent，同时开跑，每个只盯一个维度，最后合并成一份按 P1 / P2 / P3 排好优先级的清单。 1. security-sentinel（安全）— 扫 OWASP Top 10、注入攻击、认证与越权。 1. performance-oracle（性能）— 揪 N+1 查询、缺索引、可缓存点、算法瓶颈。 1. architecture-strategist（架构）— 评估系统设计、组件边界、依赖方向。 1. pattern-recognition-specialist（架构）— 识别设计模式、反模式、代码坏味道。 1. data-integrity-guardian（数据）— 校验数据库迁移、事务边界、引用完整性。 1. data-migration-expert（数据）— 检查 ID 映射、回滚安全、生产数据校验。 1. code-simplicity-reviewer（质量）— 执行 YAGNI，揪多余复杂度。 1. kieran-rails-reviewer（质量）— Rails 规范、模型与控制器职责。 1. kieran-python-reviewer（质量）— PEP 8、类型注解、Pythonic 写法。 1. kieran-typescript-reviewer（质量）— 类型安全、现代 ES、整洁架构。 1. dhh-rails-reviewer（质量）— 37signals 风格：简单优先于抽象。 1. deployment-verification-agent（部署）— 上线前检查单、上线后验证、回滚预案。 1. julik-frontend-races-reviewer（前端）— 揪 JS 和 Stimulus 里的竞态。 1. agent-native-reviewer（Agent-native）— 确保功能不只人能用，agent 也能用。 > 顺带科普 · N+1 查询：查一张 100 条的列表，写法不对就变成每条再单独查一次，一共 101 次请求。像去超市买 10 样东西却跑了 11 趟——先去看看有什么（1 趟），再每样单独取一次（10 趟）。合并去重后归到一份带优先级的清单，大致长这样： - P1 必须修：搜索查询有 SQL 注入漏洞（security-sentinel）／创建用户缺少事务包裹（data-integrity-guardian） - P2 应该修：评论加载有 N+1 查询（performance-oracle）／控制器里塞了业务逻辑（kieran-rails-reviewer） - P3 可以修：有一个未使用的变量（code-simplicity-reviewer） /resolve_pr_parallel 自动处理全部问题，先修 P1 再 P2、各自隔离跑、最后你人工过一遍；想先筛再修就用 /triage 逐条决定。 ## 插件里有什么，装上怎么用整套流程打包成一个插件，零配置装上就能用，支持 Claude Code，也实验性支持 OpenCode 和 Codex。 - 26 个专项 agent：每个只精一件事——14 个 review 专家，外加研究型、设计型、自动化、文档型。 - 23 条工作流命令：主循环 plan / work / review / compound，加一批实用工具命令。 - 13 项技能：即取即用的领域知识，比如 agent-native 架构技能、风格指南技能。四个目录各管一摊：CLAUDE.md（agent 每次启动必读的操作手册）、docs/solutions/（每个解决过的问题存成可搜索文档）、docs/plans/ 与 brainstorms/（计划产出）、todos/（review 查出的问题带优先级）。 Claude Code 两行装好： > claude /plugin marketplace add https://github.com/EveryInc/every-marketplace claude /plugin install compound-engineering 还有个一键到底的 /lfg：你只描述功能，它把计划 → 深化计划 → 执行 → 审查 → 修问题 → 浏览器测试 → 录功能演示 → 固化整条流水线串起来自动跑，全程派出 50 多个 agent，最后交你一个能直接合并的 PR，中途只在计划批准处停一下。 ## 关键数字：并发规模到底有多大 - 5 款——Every 用这套方法维护的产品数量，工程团队基本为单人配置。 - 80 / 20——计划＋审查占工程师 80% 时间，执行＋固化只占 20%。 - 14 个——/workflows:review 一次调用同时运行的专项审查 agent 数量。 - 40+ 个——/workflows:plan 开 ultrathink 模式后派出的研究 agent 数量。 - 26 / 23 / 13——插件包含的专项 agent 数 / 工作流命令数 / 技能数。 > 每一份工程工作，都应该让后续的工作更容易，而不是更难。 —— Every《Compound Engineering》本文为 Every 团队自述其「复利工程」方法论与开源插件实践，文中并发规模、时间分配、产品数量均为其官方口径。原文：Every《Compound Engineering》，every.to/guides/compound-engineering。插件开源地址：github.com/EveryInc/compound-engineering-plugin。

译媒体软件公司Every公开「复利工程」方法论，以单人工程团队维护5款产品。核心是四步循环：Plan→Work→Review→Compound，其中Compound将每次解决问题的解法写入CLAUDE.md和docs/solutions/，使AI下次自动避坑。工程师80%时间花在Plan和Review，仅20%用于写代码。配套开源插件支持Claude Code等，含26个专项agent、23条工作流命令、13项技能，可零配置使用。/workflows:review一次并发14个agent审查代码，/workflows:plan在ultrathink模式下可并发40多个研究agent。

StepFun@StepFun_ai · 2天前33

Been great seeing Step 3.7 Flash get real use in Nous Portal: people testing, building, and running all kinds of agent workflows with it. We’re keeping free access going with the @NousResearch! Try it out and send us what you make.

译很高兴看到 Step 3.7 Flash 在 Nous Portal 中被真正使用：人们用它测试、构建和运行各种智能体工作流。我们正与 @NousResearch 一起保持免费访问！试试看，并把你的作品发给我们。

Meituan LongCat@Meituan_LongCat · 2天前83

Introducing LongCat-2.0 🐱 1.6T parameters · MoE with ~48B active · 1M context The full model behind Owl Alpha on @OpenRouter — now available. Built for agentic coding from the ground up: ◆ LongCat Sparse Attention (LSA) — scales efficiently for 1M-context tokens ◆ Zero-Compute Experts — dynamic activation 33B–56B per token, zero wasted compute ◆ MOPD — three specialized expert groups (Agent / Reasoning / Interaction), gate-routed per task How it stacks up: → Terminal-Bench 2.1: 70.8 → SWE-bench Pro: 59.5 (GPT-5.5: 58.6) → SWE-bench Multilingual: 77.3 → FORTE: 73.2 · RWSearch: 78.8 · BrowseComp: 79.9 📖 Tech Blog: https://longcat.chat/blog/longcat-2.0/ Try it across different scenarios 🧵👇

译美团 LongCat 推出 LongCat-2.0，基于 MoE 架构，总参数 1.6T，激活参数约 48B，支持 1M 上下文。模型专为智能体编码设计，包含 LongCat 稀疏注意力（LSA）、零计算专家（33B–56B 动态激活）及 MOPD（三组任务路由专家）。基准测试：Terminal-Bench 2.1 达 70.8，SWE-bench Pro 59.5（超 GPT-5.5 的 58.6），SWE-bench Multilingual 77.3，FORTE 73.2，RWSearch 78.8，BrowseComp 79.9。目前已通过 OpenRouter 的 Owl Alpha 开放使用。

elvis@omarsar0 · 3天前73

Qwen publishes new work on RL coding agents. (bookmark it) The idea is to continually build a verification system that co-evolves with AI agents. LLMs suffer from all sorts of reward hacking issues. This work studies coding-agent reward signals, test pass rates, LLM judges, and execution traces, and shows each one has a horizon beyond which it stops tracking real correctness and starts getting hacked. They report that reward design for long-horizon coding is really a horizon problem. The metric you pick matters less than how long it keeps tracking correctness, and the paper finds where each signal crosses that line. Paper: https://arxiv.org/abs/2606.26300 Learn to build effective AI agents in our academy: https://academy.dair.ai/

译Qwen 发布关于强化学习编码智能体的新工作，指出 LLM 的奖励黑客问题。他们系统研究了编码智能体中的各种奖励信号——测试通过率、LLM 评判器和执行轨迹，发现每种信号都存在一个“地平线”：超出该界限后，信号不再跟踪真实正确性，而是被奖励黑客利用。论文认为长周期编码的奖励设计本质上是地平线问题，指标的选择不如它能持续跟踪正确性的时长重要。

ginobefun@hongming731 · 3天前55

http://x.com/i/article/2071738413074771968 # BestBlogs 早报 · 06-30｜智能体落地卡在验证回路与组织成熟度，Spotify、Block、Spring AI 各给一种解法在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天几篇都绕着同一个问题：当智能体真正进入大型工程组织，卡点究竟在哪里。 Spotify 架构师复盘他们在 2000 万行后端 monorepo 里跑 Claude Code 的经验，给出一个很务实的判断——关键不在模型本身，而在配套的工程基建。内部平台 Honk 在 Kubernetes 里运行 Claude agent SDK，把 CI、构建、测试自动化、组件归属和自动合并接进智能体的验证回路。他的核心提醒是：标准化的代码库和可靠的验证体系，先帮到了人，现在同样帮智能体。 Block 的工程负责人则把「采用」和「影响」拆开看。约九成工程师在用 Goose 和 Claude Code，token 在烧，但功能并没有更快交付。她给出了成熟度六阶段模型、AI champions 项目和写进 AGENTS.md 的仓库约定，三个月内把 AI 生成代码的占比提升了 69%，结尾反问自动化成功后裁员的社会代价，没有给出确定答案。 Spring I/O 2026 那场更适合 Java 工程师。它梳理 Spring AI 从简单的 LLM 调用走向生产级智能体生态的脉络——有用的系统需要围绕模型搭一层 harness，处理状态、领域知识、结构化输出、安全和可观测。从 advisor 拦截模式、RAG、guardrails，到工具调用与 MCP 标准化集成，再到按需加载工具和子智能体的上下文优化，路线图指向 Spring AI 2.0 与 MCP GA。其余几篇各有看点：腾讯研究院讲「Token 不经济」、小红书 RedKnot 重做 KV Cache、LangChain 推动态子智能体、autoresearch 让智能体自己跑训练实验，以及世界模型是否到了 GPT 时刻的讨论。 ## ★ 精讲一：Spotify 如何让智能体在 2000 万行代码库中运行：Claude Code、Honk 与工程验证体系如果你还没有关注这家公司在工程基建上的动作，可以先这样理解背景：Spotify 的后端代码量超过 2000 万行，长期以 monorepo 形式组织，组件数量庞大、归属分散。架构师 Niklas Gustavsson 在这场分享里回顾，他们最早进入「自动化代码改动」领域不是因为智能体，而是因为代码库增长的速度远快于工程师编制——团队很早就做了一套 fleet management，用确定性脚本去批量推进 Java 升级、依赖更新、API 变更这类跨数千组件的迁移。确定性脚本在简单场景下管用，但随着 API 表面和边界情况变多，会撞到天花板。正是这层压力把他们推向了一连串 LLM 实验（包括 LLM-as-judge 循环），最终走向内部平台 Honk。 Honk 现在在 Kubernetes 里运行 Claude agent SDK，并把内部工具交给智能体，尤其是验证工具。Gustavsson 反复强调的一点是：智能体能不能跑得快，取决于周围的工程系统够不够强——CI、Linux 与 macOS 构建、模拟器工作流、组件归属、测试自动化、自动合并实践、可靠的部署基建，缺一环智能体就不敢放手做改动。Spotify 报出了一些 AI 归因的生产力信号，比如更高的 PR 频率和大量 AI 作者的 PR，但他们也在持续把这些信号和工作项、A/B 测试、灰度、用户价值、收入挂钩，避免把「PR 变多」直接读成「价值变多」。这件事为什么值得认真看？因为它把一个被反复讨论的问题落到了具体动作上：智能体落地的瓶颈是「验证回路」，而不是模型参数。Honk 的价值不在于它跑了一个 agent SDK，而在于它把 CI、测试、组件归属、自动合并这些原本给人用的基建，重新组织成了智能体可以调用的工具。换句话说，是工程系统先升级到了「可被自动化验证驱动」的形态，智能体才能在 2000 万行代码里真正动手。它和今天另外两篇的关系也很清楚。Block 谈的是组织层面怎么让 3500 名工程师走向智能体协作，关注的是人和流程；Spotify 谈的是技术层面怎么让智能体在巨大代码库里安全动手，关注的是验证基建；Spring AI 谈的是框架层面怎么把这种「围绕模型搭 harness」的能力产品化，给 Java 工程师一套可复用的 advisor、guardrail、MCP 抽象。三篇合起来，恰好是智能体进入大型系统的三个切面：组织、基建、框架。给读者的建议：如果你是工程负责人或平台团队，重点看他对「验证回路」的拆解，以及他给领导者的提醒——不要跳过基本功，标准化的代码库、统一的框架、对齐的工具链、测试和验证，这些过去帮到人的东西，现在同样帮智能体。如果你是一线工程师，他个人的转变也值得读：他原本以为自己会怀念那种实现密度很高的旧工作方式，结果发现智能体反而让他能在不熟悉的代码库里贡献价值，把更多精力花在问题定义上。详见 ## ★ 精讲二：构建自主工程组织：Block 如何让 3500 名工程师走向智能体协作要理解这场分享，先看背景：Block（前身 Square）是一个 3500 人的工程组织，旗下覆盖 Square、Cash App、Afterpay、Tidal 等多条业务线，横跨前端、后端、移动、数据、基础设施、monorepo 与小服务、遗留系统。工程负责人 Angie Jones 复盘的是，他们怎么把这个组织从「大家都在用 AI 工具」推进到「智能体可以作为主要生产手段交付可上线结果」。她给出的是一份既实用、又带警示意味的组织剧本——分享结尾反问：当自动化真的成功，人会怎样。她最尖锐的判断是把「采用」和「影响」分开。Block 在语言模型还支持工具调用之前就开始做 Goose，并在 Model Context Protocol 最初发布前后与 Anthropic 合作，Goose 也成了 MCP 客户端的参考实现，让一批好奇的工程师很早就接触到编程智能体。几个月内，她说约九成工程师在常态化使用 Goose、Claude Code 或类似工具，token 账单证明工具确实在跑——但面向用户的功能并没有更快交付。问题出在整合：工程师把 AI 用在提问、补全、写样板代码上，却没有把它接进完整的交付系统。她把赋能拆成 experimentation、adoption、impact 三个阶段，高采用还没有转化为高影响。为了定义「目的地」，她给出一个成熟度六阶段模型：阶段 0 工作流里没有 AI；阶段 1 有补全但没有 agent 模式；阶段 2 能和智能体对话，但没有智能体产出的 PR；阶段 3 可以把任务委派给智能体并 review 其产出；阶段 4 并行跑多个智能体；阶段 5 把完整任务委派出去、无需持续人工引导就拿到可上线结果。当时大多数工程师停在阶段 1 和 2。把几千人推向阶段 5 很难，因为实践每周都在变、员工有 AI 疲劳、领导层压力又容易把赋能变成「AI or die」的强制命令。她的几个具体抓手值得记住。第一是 AI champions 项目，借鉴线上社区的 1-9-90 规则——少数人创造、稍大一群人互动、大多数人只是消费，要求每个个体都去独立发现最佳实践是没法 scale 的。她从关键团队和仓库里挑了约 50 名 champion，每个 champion 投入大约 30% 的时间，要能容忍「开箱即坏」的非确定性工具，并能代表公司的重要系统。第二是把可复用知识写进仓库，做 stage-three delegation 的前提：用 AGENTS.md 或 CLAUDE.md 解释仓库结构和期望，用 rules 提供护栏，用 slash command 和后续的 skills 固化可重复的工作；同一套配置并不适配所有仓库，monorepo 适合根级共享上下文加服务级分层，Web 和移动端不同，Android 有时也和 iOS 不同。她强调这是真正的杠杆点——一旦知识沉淀进仓库，每个贡献者和智能体都能复用 champion 学到的东西。报告里提到的信号是：三个月内 AI 生成代码占比提升 69%。这件事和今天其他几篇的呼应：它和 Spotify 互为表里——Spotify 在讲「验证回路」这种技术基建，Block 在讲「AGENTS.md、champion、成熟度模型」这种组织基建，两者缺一不可。而腾讯研究院那篇「Token 不经济」恰好给 Block 的故事提供了反面注脚：当采用率高达九成、token 在大量消耗却看不到功能更快交付时，正是 Jones 所说的「高采用、低影响」的典型症状，也是组织需要从「鼓励使用」转向「把智能体接进交付系统」的信号。给读者的建议：如果你在推动团队或公司的 AI 采用，重点看她的成熟度六阶段和 champion 机制，这两个工具可以直接拿来评估自己组织停在哪一档、以及怎么用少数人去撬动多数人。如果你关心自动化对人的影响，分享结尾那段关于「自动化成功后裁员的代价」的反问，比任何确定性的结论都更值得想。详见 ## ★ 精讲三：2026 年 Spring AI 生态全景：从 LLM 基础到智能体架构如果你是 Java 或 Spring 工程师，对智能体的印象还停留在「调一个 chat 接口」，这场 Spring I/O 2026 的分享会把整条脉络理清楚。它的核心观点很直接：一个真正有用的系统不能只有模型，还需要围绕模型搭一层 harness，去处理状态、领域知识、结构化输出、安全、可观测和工具访问。分享沿着这条主线，从最基础的 chat pipeline 一路讲到智能体协议。第一层是 advisor 模式。Advisor 像是模型调用周围的拦截器，让应用可以加上对话记忆、检索外部上下文、检查输入、转换输出、收集指标和 trace。Chat memory advisor 解决无状态模型的问题，在请求前追加对话历史、响应后保存；检索和 RAG 用同样的拦截思路，从文件、数据库、倒排索引、embedding 搜索或向量库里把相关领域上下文带进来。第二层是 guardrails 和结构化输出。因为 LLM 是非确定性的、天然是 text-in/text-out，Spring AI 可以用 schema、输出校验、确定性检查和反馈循环来提升可靠性——一个 guardrail 可以拦掉敏感输入、校验 JSON 输出，或者把错误回喂给模型再试一次；更复杂的循环可以用 judge 模型或 reflection 风格的 advisor 去评估答案是否真的满足原始请求。从上下文走向动作是分享的后半段。工具调用让模型拥有受控的能力，比如查天气或调一个外部 API，把应用从「聊天交互」变成「能和环境交互的系统」。Model Context Protocol 则把这个集成问题一般化，标准化 AI 客户端如何连接既有系统。分享覆盖了 MCP 的工具、资源、prompts、completions、logging、roots、sampling、elicitation、progress、cancellation，以及 stdio transport、streamable HTTP、无状态部署、Spring 注解、安全集成，还有可以展示 UI、让模型通过它行动的 MCP apps。最后一部分是上下文优化和智能体协议。Progressive tool disclosure 避免一开始就把几百个工具定义全塞进上下文，而是暴露一个「工具搜索」工具，让模型按需请求相关工具；agent skills 用类似方式做延迟加载的上下文，subagents 则隔离较小的任务，让主智能体的上下文保持干净。分享还提到 Spring AI 对 A2A 集成的支持，并介绍了 Agent Client Protocol 作为 IDE 和编程智能体之间的标准接口——把它类比成 LSP，给出了 Java SDK 和 Spring Boot starter，以及一个叫 Bud 的 Spring Boot 开发智能体如何捕捉用户意图并生成或修改应用。路线图指向 Spring AI 2.0 基础、MCP GA 支持，以及面向智能体应用的新抽象。为什么值得看：它把「围绕模型搭 harness」这件抽象的事，落成了 Java 工程师可以直接对照的组件——advisor、guardrail、tool calling、MCP、subagent。这恰好是 Spotify 和 Block 两篇里反复出现的「验证回路」「AGENTS.md 约定」在框架层面的对应物。当 Block 用 AGENTS.md 写仓库约定、Spotify 用 Honk 接验证回路时，Spring AI 这套 advisor 和 MCP 抽象，给的是把这些约定和回路产品化、可复用的工程骨架。三篇读下来，你能看到同一个趋势在组织、基建、框架三个层面的不同投影。给读者的建议：如果你是 Spring 工程师，重点看 advisor 模式和 MCP 集成这两段，它们是最能立刻用到现有项目里的部分；如果你在评估智能体框架的选型，分享里关于 progressive tool disclosure 和 subagent 上下文优化的内容，能帮你理解框架在「上下文管理」这件事上走到了哪一步。 roadmap 里 Spring AI 2.0 和 MCP GA 的时间点，适合放进技术选型的观察清单。详见 ## 速览 Token 不经济（腾讯研究院）这篇文章回应的正是 Block 那个「九成人在用、功能没更快交付」的症状。它把现象拆成几层：模型分层定价让同一档产品的调用价格悄悄抬升，Anthropic 凭编码能力建立了行业最强的定价权，OpenAI 和 Google 在追赶但短期仍需以价换量；下游则是企业内部管控不力、token 使用回报有限、Agent 架构本身的损耗（比如 skill 重复调用、长程任务内耗、多智能体协同成本）相互叠加。文章引用了一个分析：在 ChatDev 框架里，代码审查阶段消耗的 token 平均占到总消耗的 39.5%，意味着近四成花费在智能体之间反复传递已有信息上，而不是生成新内容。它的结论是：要让 token 净收益转正，供给端优化成本还不够，还得从需求端解决 token 在广泛产业场景里如何产生实际价值的问题。适合关心 AI 商业化和成本结构的读者。详见让 KV Cache「按头分家」：小红书 RedKnot 如何重做长文本推理新引擎（小红书技术 REDtech）解决的是长文本推理的工程瓶颈。RAG 拼大量检索片段、编程 agent 积累工具调用历史、长会话系统塞进记忆和状态，都会让 KV Cache 变大、首字延迟（TTFT）变长、并发被拖住。RedKnot 换了个视角：KV Cache 的价值不是按 token 均匀分布的，而是强烈按注意力头分化，有些 head 要看完整上下文，有些主要只看局部。它沿「注意力头」这个维度把 KV Cache 拆开，配合稀疏 FFN 和段页存储，论文实验显示最高带来 1.6–3.54 倍 TTFT 加速、4.7–7.8 倍单卡并发提升，预填充阶段算力削减 67%–79.5%。适合做推理服务和 infra 的工程师。详见 Deep Agents 中动态子智能体的引入（LangChain Blog）讲的是智能体编排的下一步。普通 subagent 是主模型一次调一个，小规模可以，但要 spawn 几百个子智能体、或者编排逻辑带条件和多阶段时就崩了。动态子智能体的做法是让智能体写一段简短的脚本去编排和调用子agents，在一个轻量解释器里跑，把循环、分支、并发这些模型本来就擅长的代码模式用上。典型例子是 300 页文档每页一个 subagent——不是调 300 次工具，而是写一个循环。它解锁了基于工具调用的编排难以可靠交付的两件事：大规模和复杂多阶段工作流。适合在搭 agent pipeline 的工程师。详见如何构建一个能自主运行 LLM 实验的 AI 智能体：autoresearch 实践指南（freeCodeCamp）解析的是 Karpathy 的开源工具 autoresearch。它把一个小而真实的 LLM 训练设置放进单个 Python 文件，让 AI 智能体去编辑这个文件、训练、读 loss、做判断、再循环。Karpathy 在 depth-12 的 nanochat baseline 上跑了大约两天，700 个实验里找到约 20 个真正改进模型的改动，且这些改动可以叠加。文章特别强调衡量成功的指标是关键——用 val_bpb（validation bits per byte）而不是 loss，因为它对不同 token 化方案更鲁棒。适合想动手让智能体跑自己 GPU 实验的读者，文末有完整 step-by-step。详见 World Model-世界模型也有 Scaling Law 吗？（屠龙之术）是一期适合想理清「世界模型」这个热词的播客。主播庄明浩系统对比了世界模型和大语言模型在数据、成本、安全等维度的根本差异，并以即将上市的自动驾驶公司 Momenta 为样本，论证物理世界 AI 的「GPT 时刻」尚未到来。他的终局判断包括：三线合一（视频、3D、具身、自动驾驶会收敛）、不会赢家通吃、GPT 时刻没到。如果你被各种「做世界模型」的说法绕晕了，这期给了一个相对冷静的分类框架。详见 Claude Tag：AI 交互范式的第三次重新设计？（宝玉 @dotey）整合了 Karpathy 和 Gergely Orosz 的观点，分析 Anthropic 新发布的 Claude Tag（在 Slack 里 @Claude 执行任务）。文章指出，真正的突破不是 Slack bot 本身，而是云端 AI 接入了公司内部系统——云端执行环境、持久记忆、工具集成、权限控制，Slack 只是入口。受益人群主要是新员工、非工程师和不熟悉代码库的开发者，而集成难度是产品成败的关键。这篇没有配图，但观点密度够高，适合关注 AI 产品形态和企业落地的读者。详见 3Blue1Brown 创始人：成为二手思考者的高昂代价（跨国串门儿计划）是一期数学科普频道 3Blue1Brown 创始人 Grant Sanderson 的深度对谈。核心是「源头思维」与「传声筒思维」的区分——你是源头，还是传声筒？他坦诚分享了对新颖性的祛魅、对算法的祛魅，以及为什么认为「行动先于动力」。在 YouTube 创作者普遍陷入倦怠和算法焦虑的当下，他靠专注常青内容、不追热点、不做团队，保持了十年的创作热情。这不是教做爆款的内容，而是关于如何在噪声时代做出经得起时间考验的作品的思辨。详见 ## 补充阅读 - 提示词工程悄然出错——提示词回归正是原因所在（Towards Data Science）：指出一种「虚假改进」模式——整体准确率上升时关键类别却全面崩溃（v4 整体准确率 67.5% 看似最好，但否定句分类暴跌 66.7%）。文章给出一个零外部依赖、纯 Python、两秒内跑完的回归测试套件，用 40 条 golden queries 跨四个 prompt 版本做确定性校验。适合所有在生产里改 prompt 的人。详见 - AI 智能体如何管理记忆并避免遗忘（ByteByteGo Newsletter）：系统讲清智能体记忆这件事的工程本质——模型本身每次都从空白开始，所谓「记住」是平台在每次调用前把上下文塞回去。文章覆盖无状态模型、分层记忆架构、四种功能记忆类型，以及成本、延迟、准确性之间的权衡，还提到 long context 里的「lost in the middle」问题。适合想从零搭记忆系统的工程师。详见 - 把前沿模型效果带到端侧：从大模型原型到小模型生产（AI Engineer）：给出一套面向生产的做法——prototype big, deploy small。Rachel Lee Neighbors 论证把不必要的前沿模型调用换成本地或更小的模型，理由不只是 API 花费，还有敏感数据暴露、延迟破坏交互感、断网失效、能耗。关键是先定义黄金数据集和评测，再用 Phoenix 这类工具比较小模型候选直到达到产品门槛。适合在做模型选型和成本优化的团队。详见 - 收购仅一年即「决裂」！创始人贾扬清出走英伟达（AI 前线）：剖析英伟达收购 LeptonAI 一年后贾扬清出走事件，揭示两个信号——GPU 可以靠稀缺性卖断货，但 AI Infra 无法复制这种垄断；当 AI 已经能自己写代码、管集群，以「降低工程门槛」为卖点的中间件平台正面临价值危机。文章细节丰富，适合关心 AI 基础设施行业格局的读者。详见 - 架构模式：从云原生迈向本地优先——Adam Wiggins 的见解（InfoQ）：Heroku 联合创始人、Ink & Switch 创始人 Adam Wiggins 主张一种「local-first」架构，用 CRDT 兼顾云端的协作能力和本地软件的性能与数据所有权，并探讨混合 AI 未来里小型本地模型在核心生产力任务上的角色，反思对集中式云计算的过度依赖。适合关心架构范式演进的读者。详见 - 第一批一人公司，现在怎么样了？（量子位）：通过采访多位独立开发者、创业者和投资人，报道 AI 时代「一人公司」（OPC）的现状、组织形态和上限。文章没有停留在概念炒作，而是落到独立开发者超级峰做 MotiClaw（帮人搭建「AI 员工」）这类具体案例，揭示一个人加一群 Agent 能不能像一家公司那样运转。适合关心 AI 时代个体创业的读者。详见 ## 今日阅读路径如果你今天时间有限，建议按这个顺序读三篇： 1. Spotify × Honk——它最直接地回答了「智能体落地的卡点在哪」，把抽象的「验证回路」落成了 CI、测试、自动合并这些具体基建，是今天最值得工程负责人和平台团队花时间的一篇。 1. Block × 成熟度六阶段——它给了你一个可以立刻拿来评估自己组织停在哪一档的工具，以及用 champion 撬动多数人的具体打法，和 Spotify 互为表里。 1. Spring AI 生态全景——如果你是 Java 工程师，这篇能把 advisor、guardrail、MCP 这些抽象对应到你现有项目里，是前两篇「验证回路」和「仓库约定」在框架层面的落地。时间更紧的话，至少把 Spotify 那篇对「验证回路」的拆解读完——它是今天几篇文章共同指向的那个核心问题。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译智能体进入大型工程组织面临验证回路与组织成熟度两大瓶颈。Spotify 架构师分享在2000万行monorepo中运行Claude Code的经验，强调标准化代码库与可靠的CI、测试、自动合并等验证基建是前提，内部平台Honk整合这些工具。Block 工程负责人指出九成工程师在用Goose和Claude Code但功能交付未加速，提出六阶段成熟度模型与AI champions项目（约50名champion各投入30%时间），通过AGENTS.md沉淀知识，三个月内AI生成代码占比提升69%。Spring I/O 2026则梳理Spring AI从LLM调用到生产级智能体生态的演进。三篇从技术基建、组织流程、框架产品化给出解法。

Rohan Paul@rohanpaul_ai · 3天前65

Big new paper release of Google for external agentic verification for science. Science now needs AI review agents because AI is making papers faster than humans can check them. The problem is that AI can help produce more research, but the slow part is still checking whether the work is actually correct. The paper frames this as verification debt, where every faster research workflow creates more claims, proofs, experiments, and comparisons that someone still has to inspect. Its main proposal is agentic verification, where AI agents help review papers by splitting them into parts, checking difficult sections deeply, and combining the findings into a review. Google’s Paper Assistant Tool is the example system, and it focuses on objective checks like proof errors, experimental gaps, missing comparisons, and unclear claims rather than final accept or reject decisions. The authors tested it on known math and computer science paper errors and in author-facing pilots at STOC and ICML, where authors used it before submission. The striking result is that Paper Assistant Tool found far more known proof errors than a single model call, and many authors said it led them to fix serious theory gaps or run new experiments. The big deal is that scientific review may need its own AI stack, with review agents, clear roles, and human oversight, because paper generation is becoming partly automated too. ---- Link – arxiv. org/abs/2606.28277 Title: "Towards Automating Scientific Review with Google's Paper Assistant Tool"

译Google 新论文提出“验证债务”概念：AI 加快论文产出，但人工核查成为瓶颈。为此推出智能体验证（agentic verification）方案，并开发 Paper Assistant Tool 原型系统。该系统将论文拆解为多个部分，深入检查难点并汇总审稿意见，聚焦证明错误、实验漏洞、缺失对比等客观错误，而非直接给出接收/拒稿决策。在数学与计算机科学已知错误测试中，该工具比单次模型调用发现更多证明错误；在 STOC 和 ICML 的面向作者试点中，许多作者据此修复了严重理论缺陷或补充了实验。论文指出科学审稿可能需要独立 AI 栈以应对日益自动化的论文生成。

🚨 AI News | TestingCatalog@testingcatalog · 3天前62

OpenClaw released its own mobile apps for iOS and Android. Seems like it would cover loads of features and follow the UI design of the web version. Gotta try that 👀

译OpenClaw 正式发布 iOS 与 Android 原生移动应用，支持智能体（Agents）、频道、任务和回复等核心功能，采用与网页版一致的 UI 设计。用户可在手机上随时随地运行 AI 智能体。

Microsoft Research@MSFTResearch · 3天前46

AI agents can't remember past conversations. They must constantly reload or retrieve context, which grows less efficient as tasks get longer and more complex. Memora solves this with a scalable memory system separating what’s stored from how it's retrieved: https://msft.it/6018vs3gC

译AI智能体无法记住过去的对话。它们必须不断加载或检索上下文，随着任务变得更长更复杂，效率越来越低。 Memora通过一个可扩展的记忆系统解决了这个问题，该系统将存储的内容与检索方式分离开来：https://msft.it/6018vs3gC

Emad@EMostaque · 3天前23

This week's Moonshots podcast with @PeterDiamandis, @alexwg & @DaveBlundin was one of the more interesting discussions we have had Really take off time even if this is the slowest it'll ever be Some changes coming & big decisions we all need to make https://youtu.be/-H7J_-zr7pA

译本周的Moonshots播客与@PeterDiamandis、@alexwg和@DaveBlundin的讨论是我们进行过的最有趣的讨论之一真的值得花时间，即使这是最慢的时候一些变化即将到来，我们需要做出重大决定 https://youtu.be/-H7J_-zr7pA

OpenClaw🦞@openclaw · 3天前71

OpenClaw is now on iOS + Android 🦞 📱 Native mobile apps, finally 💬 Agents in your pocket 🔔 Channels, tasks, replies on the go Run agents from wherever your thumbs are. iOS: https://apps.apple.com/us/app/openclaw-ai-that-does-things/id6780396132 Android: https://play.google.com/store/apps/details?id=ai.openclaw.app

译OpenClaw 现已登陆 iOS 和 Android 🦞 📱 原生移动应用，终于来了 💬 智能体装进口袋 🔔 频道、任务、回复，随时处理用你的大拇指，在任何地方运行智能体。 iOS: https://apps.apple.com/us/app/openclaw-ai-that-does-things/id6780396132 Android: https://play.google.com/store/apps/details?id=ai.openclaw.app

Chubby♨️@kimmonismus · 3天前37

Really excited for the next version of Claude Code. Keep it coming Boris!

译下个版本的 Claude Code 中，子智能体将默认在后台运行，让你在子智能体工作时仍可继续与 Claude 对话。若想让智能体前台运行，只需告诉 Claude。Kim 对此表示非常期待，并喊话 Boris 继续发力。

Chubby♨️@kimmonismus · 3天前67

This is the first "AI company" product I've seen that doesn't feel like pure cosplay. Two interesting points: Matrix treats the company idea seriously. You are not just creating agents and hoping they coordinate. Matrix beat both Codex and Claude Code on GDPval-Bench, with 95.45% against 84.9% and 80.3% respectively. That gap seems to matter most on longer tasks, where planning and coordination actually decide the outcome rather than raw model capability. Which is maybe the point. A lot of "AI companies" are really just prompt orchestrators with a nice UI. Matrix looks like it's building something closer to an actual operating layer. Whether that holds up beyond benchmarks, I don't know yet. But it really makes me want to find out.

译Matrix 被 Kim 称为首个「不像 cosplay」的 AI 公司产品。它在 GDPval-Bench 上以 95.45% 的得分击败 Codex (84.9%) 和 Claude Code (80.3%)，长任务差距说明规划和协调比原始模型能力更关键。Matrix 定位为运行「零员工公司」的运行时，而非简单提示编排器。上周有限 beta 期间用户已创建数万个零员工公司并开展真实业务，即日起向所有人开放公测。

Berryxia.AI@berryxia · 3天前19

卧槽！我终于特么弄懂你们天天吹的循环工程了！！！

译卧槽！我终于特么弄懂你们天天吹的循环工程了！！！ [引用 @berryxia]：开始让美女助教卖课了😂 丝滑～

Boris Cherny@bcherny · 3天前30

In the next version of Claude Code: subagents run in the background by default, so you can keep talking to Claude while your subagents work If you want your agent to run in the foreground, just tell Claude

译下一版 Claude Code 中：子智能体默认在后台运行，因此你可以在子智能体工作时继续与 Claude 对话。如想让智能体在前台运行，只需告诉 Claude 即可。

🚨 AI News | TestingCatalog@testingcatalog · 3天前74

Cursor released an iOS app 🔥 > Users will be able to check live activities and follow up on ongoing tasks. > PR reviews with diff viewer will be supported as well. Looks like it is not available in the EU though.

译Cursor 发布了 iOS 应用 🔥 > 用户将能够查看实时活动，并跟进正在进行的任务。 > 还将支持带有差异查看器的 PR 审查。不过看起来在欧盟地区无法使用。

Chubby♨️@kimmonismus · 3天前71

No composer 3, but Cursor for iOS. dont know...

译Cursor for iOS 正式发布。用户可通过启动始终在线的云智能体在任何地方构建，或从应用远程控制电脑上的智能体。此外，Composer 2.5 在应用内享受75%折扣，持续至7月5日。主推文回应：没有 Composer 3，但有 Cursor for iOS，表示不确定。

eric zakariasson@ericzakariasson · 3天前63

i've been using cursor mobile on the go for the last weeks, and having access to all cloud agents from everywhere is really nice go on a walk, get an idea, dictate it in the app come back from walk to a finished agent where you can jump into it try it today!

译过去几周我一直在路上使用 Cursor Mobile，能随时随地访问所有云端智能体，真的太棒了。出去走走，有了想法，在应用中口述下来。走回来时智能体已经完成，可以直接进入其中。今天就试试吧！

Meituan LongCat@Meituan_LongCat · 3天前45

Some of you guessed right. 👀 Owl Alpha on @OpenRouter — that's us. Since going live, it has reached Top 3 globally by daily volume — and #1 on Hermes Agent, #2 on Claude Code, #3 on OpenClaw by monthly volume. Thank you to everyone who tested and used Owl Alpha during stealth — you helped shape what's coming next. Owl Alpha will be retiring soon. But this isn't an ending — stay tuned!

译你们有些人猜对了。👀 OpenRouter上的Owl Alpha——就是我们。自上线以来，其日活量已进入全球前三——并在 Hermes Agent 上排名第一、Claude Code 上第二、OpenClaw 上第三（月活量）。感谢所有在秘密阶段测试和使用 Owl Alpha 的人——你们帮助塑造了接下来即将到来的东西。 Owl Alpha 即将退役。但这并非终点——敬请期待！

Rohan Paul@rohanpaul_ai · 3天前49

AI agents to automatically improve business-critical KPIs. Giga just launched Scout, moves AI support from scripted replies toward measured business outcomes. Once you define the business KPI, AI agents create the agents, learn from real conversations, test each update, and keep improving toward that single goal.

译Giga 发布 Scout，一种以业务 KPI 为目标的 AI 智能体工具。用户用自然语言设定目标，Scout 自动构建智能体，从真实对话中学习（尤其是人工客服介入时），测试每次更改并保留有效部分。小型文案和策略修复可自动推送；涉及资金或系统的操作会带证据路由给团队审批。例如，金融科技公司将“资金存款”设为 KPI，Scout 智能体能自动触达未存款客户并促成存款，恢复流失收入。Scout 还能自行检测并修复自身集成故障，所有变更需用户批准后才生效。

StepFun@StepFun_ai · 3天前41

Step 3.7 Flash hits #2 on Claw-Eval General for autonomous agents. We’re seeing strong performance across multi-step execution and robustness in long-horizon tasks, ranking just behind Claude Opus 4.6. Promising signals for real-world agent workloads.

译Step 3.7 Flash 在 Claw-Eval General 自主智能体评测中排名第二。我们在多步执行和长周期任务鲁棒性方面表现强劲，排名仅次于 Claude Opus 4.6。这是面向真实世界智能体工作负载的有前景的信号。

Berryxia.AI@berryxia · 3天前61

睡前来一发，这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。核心观点是：我们很少从零写提示词，大部分时间都在调试和维护已有的生产提示词。最好的起点永远是评估（Eval），而不是直接改提示词。她用两个真实场景演示了最佳实践： 1. 维护已有提示词**（客服机器人） - 先做通用清理：用XML标签结构化（角色/政策/语气/指南分开）、移除冗余补丁、明确输出格式。 - 常见陷阱：以前为旧模型加的“禁止列表”指令，在新模型上会过度拟合，导致模型隐瞒它其实能提供的信息。 - 当模型需要做精确计算时，指令没用，要给它工具。 - 升级/转人工的决策，要把代价和收益两面都说清楚，否则模型会过度优化某一边。 2. 从零构建新Agent（零售排班） - 单一复杂提示词容易失败。 - 更好的方式是拆成生成-评估-修复循环，让三个简单提示词各司其职。 - 模型选择很重要：更强的推理模型（Opus）+ 自适应思考，往往比小模型+复杂提示词更高效。她反复强调：评估是唯一能告诉你改动是否真正有效的严谨方式。没有评估，就只是在碰运气。

译Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点：维护已有提示词比从零写更常见，最佳起点是评估（Eval）而非直接改提示词。两个场景：客服机器人需用XML标签结构化，移除旧模型冗余指令，为精确计算提供工具；零售排班Agent应拆分成生成-评估-修复循环，使用更强推理模型（Opus）+自适应思考。强调评估是判断改动有效性的唯一严谨方式。

Berryxia.AI@berryxia · 3天前77

Margot Van Laar是Anthropic应用AI团队的工程师。她在Code with Claude大会上做了一场关于提示词工程实战的分享。核心观点只有一个：我们很少从零写提示词，大部分时间都在调试和维护已有的生产提示词。她用两个真实场景演示了这件事。第一个场景是客服机器人的维护。团队接手了一个已经在跑的提示词，第一步不是改内容，而是做结构化清理——用XML标签把角色、政策、语气、指南分开，移除冗余补丁，明确输出格式。然后她发现了一个经典陷阱。团队之前为旧模型加了一条"禁止列表"指令，告诉模型不要提供某些信息。换到新模型后，这条指令导致模型过度拟合——它开始隐瞒自己其实能提供的信息。旧模型需要这条指令是因为能力不够，新模型不需要了，但指令还在。另一个发现是：当模型需要做精确计算时，提示词里的"请仔细计算"没有用。要给它工具。让模型调用计算器，比让它在脑子里算靠谱得多。升级转人工的决策也是个坑。如果提示词只告诉模型"用户不满就转人工"，模型会过度优化这一边，把所有对话都转出去。正确做法是把代价和收益两面都说清楚，转人工的成本是什么，不转的风险是什么，让模型自己权衡。第二个场景是从零构建零售排班Agent。团队最初的方案是写一个复杂提示词，把所有逻辑塞进去。结果频繁失败。更好的方式是拆成三个简单提示词，组成生成-评估-修复循环。第一个负责生成排班方案，第二个负责评估方案是否合规，第三个负责修复问题。每个提示词只做一件事，组合起来比一个大提示词稳定得多。她还提到了模型选择。团队测试发现，用更强的推理模型（Opus）加自适应思考，效果往往比小模型加复杂提示词更好。不是所有场景都需要优化成本，有时候用更好的模型反而是最省事的方案。她反复强调一句话：评估是唯一能告诉你改动是否真正有效的严谨方式。没有评估，就只是在碰运气。这句话适用于所有做AI应用的人。大部分人改提示词的方式是"感觉这样写更好"，然后上线看效果。但"感觉"不是评估。你需要一个可量化的基准，每次改动后跑一遍，才能确定到底是变好了还是变差了。

译An anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战，核心观点：大部分时间在调试和维护已有生产提示词而非从零编写。两个场景：客服机器人维护中，用XML标签结构化清理，移除旧模型遗留的“禁止列表”指令（新模型会过度拟合），精确计算应调用工具，转人工决策需明确代价与收益；零售排班Agent从零构建时，拆成生成-评估-修复三个简单提示词更稳定，选用更强推理模型（Opus）。她反复强调：评估（Eval）是唯一严谨方式，没有评估就是碰运气。

Berryxia.AI@berryxia · 3天前64

睡前来一发，这个视频还是挺完美的。 Anthropic的应用AI工程师Margot Van Laar在Code with Claude分享了提示词工程的实战手册。核心观点是：我们很少从零写提示词，大部分时间都在调试和维护已有的生产提示词。最好的起点永远是评估（Eval），而不是直接改提示词。她用两个真实场景演示了最佳实践： 1. 维护已有提示词（客服机器人） - 先做通用清理：用XML标签结构化（角色/政策/语气/指南分开）、移除冗余补丁、明确输出格式。 - 常见陷阱：以前为旧模型加的“禁止列表”指令，在新模型上会过度拟合，导致模型隐瞒它其实能提供的信息。 - 当模型需要做精确计算时，指令没用，要给它工具。 - 升级/转人工的决策，要把代价和收益两面都说清楚，否则模型会过度优化某一边。 2. 从零构建新Agent（零售排班） - 单一复杂提示词容易失败。 - 更好的方式是拆成生成-评估-修复循环，让三个简单提示词各司其职。 - 模型选择很重要：更强的推理模型（Opus）+ 自适应思考，往往比小模型+复杂提示词更高效。她反复强调：评估是唯一能告诉你改动是否真正有效的严谨方式。没有评估，就只是在碰运气。

译Anthropic应用AI工程师Margot Van Laar在Code with Claude分享提示词工程实战手册。核心观点：生产提示词大多时间在调试维护，最好起点是评估而非直接修改。维护客服机器人提示词时，需用XML标签结构化，移除冗余补丁，明确输出格式；避免旧模型“禁止列表”指令在新模型上过度拟合；精确计算应赋予工具；升级决策需说明代价与收益。从零构建零售排班Agent，应拆分为生成-评估-修复循环，三个简单提示词各司其职；更强推理模型+自适应思考更高效。评估是唯一验证改动的严谨方式。

Berryxia.AI@berryxia · 3天前45

兄弟们，终于跑通了~ 爆肝完成，现在做项目介绍太方便了！这套视频讲解的Skills 差不多跑通了，只需提供网站、内容、视频地址等就可以直接给你剪基础这样的讲解视频。还挺方便的，需要的人多吗？感兴趣的朋友多么？评论区告诉我

译Berry Xia 宣布成功完成了一套“视频讲解的Skills”开发与测试。用户只需提供网站、内容、视频地址等信息，该技能就能自动生成基础的讲解视频。作者询问社区兴趣度，表示如果需求多可能会进一步分享。目前未披露具体使用的模型或平台名称。

fofr@fofrAI · 3天前71

I'm using this skill for everything an agent writes now. Huge quality of life improvement.

译我现在用这个技能来处理 agent 写的所有内容。生活质量大幅提升。

Alibaba Cloud@alibaba_cloud · 3天前42

Ready to join the Qwen Global AI Hackathon? 🚀 Kickstart your journey in 3 easy steps: ➡️ Register on Devpost ➡️ Build your Agent across one of five tracks with API access. ➡️ Submit to win your share of the $70,000+ prize pool. 🔗 Click and join the global arena now: https://click.qwencloud.com/m/20000000281/

译准备好参加 Qwen 全球 AI 黑客马拉松了吗？ 🚀 只需三步即可开启你的征程： ➡️ 在 Devpost 上注册 ➡️ 通过 API 访问，在五个赛道之一构建你的 Agent ➡️ 提交作品，赢取 7 万美元以上的奖池份额 🔗 立即点击加入全球竞技场：https://click.qwencloud.com/m/20000000281/

Berryxia.AI@berryxia · 3天前62

开始让美女助教卖课了😂 丝滑～

译开源项目OpenMontage单日获3000 Star，将视频生产拆为12条pipeline，内置52工具和500+ agent skills。用户用自然语言描述需求，agent完成从调研到剪辑全流程，支持AI与真实素材混合工作流，具备预合成验证、后渲染自检等质量把控，渲染引擎Remotion+HyperFrames，普通人对话可产出专业级视频。

fofr@fofrAI · 3天前70

I am loving this process for skill making: - setup subagents that can do deep research - ask for X research runs covering different angles of a thing - distill the research reports into a single SKILL.md - include research alongside skill for reference

译我非常喜欢这个技能制作流程： - 设置能进行深度研究的子智能体 - 针对某事物不同角度要求进行X次研究运行 - 将研究报告蒸馏成一份SKILL.md文件 - 将研究内容与技能一同包含以供参考

MiniMax (official)@MiniMax_AI · 3天前39

This is a glimpse of where local AI is heading and we are glad to be part of it. Really impressive work by all the teams involved @Gradient_HQ, @tryParallax, and @GA_agent_ai

译MiniMax官方转发了Gradient、Parallax和GenericAgent团队的演示结果。他们在本地运行了MiniMax M3（428B参数模型），通过Parallax工具部署在3台Mac上，再由GenericAgent驱动一个约3000行代码的自主智能体，完成了创建5只股票投资组合并写入磁盘的任务。整个过程完全在本地进行，无云端调用、无API费用，数据未离开机器。MiniMax表示这是本地AI未来发展的一个缩影。

Alibaba Cloud@alibaba_cloud · 3天前47

The transition to Agentic Cloud has begun. Dr. Feifei Li, CTO and President of International Business at Alibaba Cloud, shared his perspective on what lies ahead: the next three years will be defined by the rise of the Agentic Cloud, where agents can leverage products and infrastructure to carry out sophisticated tasks. 🔗: https://int.alibabacloud.com/m/1000407809/

译智能体云的转型已经开始。阿里云CTO兼国际业务总裁李飞飞博士分享了他对未来的看法：未来三年将由智能体云的崛起所定义，智能体可以利用产品和基础设施来执行复杂任务。 🔗: https://int.alibabacloud.com/m/1000407809/

karminski-牙医@karminski3 · 3天前61

给大家带来 Flash 系列模型横评! 各个厂商除了旗舰级别模型, 也都有Flash级别的模型, 而这些模型的定位主要都是多智能体系统的驱动模型和RAG系统的驱动模型. 那么现有这些Flash模型应该怎么选? 给大家带来本篇评测! 本次主要从 Agent Loop 迭代能力, Agent 能力, 前端, 后端, 空间理解, 美学, 性价比等多个角度评测了 Gemini-3.5-Flash, Step-3.7-Flash, DeepSeek-V4-Flash 这三个模型. 从测试来看, Gemini-3.5-Flash 更适合干"漂亮活", 比如前端页面, 建模等. 而 Step-3.7-Flash 则极具性价比, 在Agent测试中取得了比旗舰模型还要高的Token效率(用最少的token干最多的事情). 所以特别适合用在Agent框架中(比如OpenClaw或者Hermes), 或者复杂的Agent系统中用来做驱动模型. DeepSeek-V4-Flash 则后端能力很不错, 很适合用来写脚本, 甚至给服务器安装一个 DeepSeek-V4-Flash 驱动的 ClaudeCode, 用来 AI-Ops. #flash模型 #step37flash #deepseekv4flash #gemini35flash #AgentLoop

译推文对三款Flash级模型（Gemini-3.5-Flash、Step-3.7-Flash、DeepSeek-V4-Flash）进行横评。这些模型定位为多智能体系统和RAG系统的驱动模型。评测维度包括Agent Loop迭代能力、Agent能力、前端/后端、空间理解、美学、性价比等。Gemini-3.5-Flash更适合前端页面、建模等“漂亮活”。Step-3.7-Flash极具性价比，在Agent测试中Token效率极高（用最少Token完成最多任务），适合作为OpenClaw、Hermes等Agent框架的驱动模型。DeepSeek-V4-Flash后端能力出色，适合写脚本或驱动ClaudeCode用于AI-Ops。

数字生命卡兹克@Khazix0918 · 3天前64

http://x.com/i/article/2071459685358792704 # 分享2个Vibe Coding必备的超实用Prompt。周末跟几个之前的老朋友吃饭。大家也都不由自主的聊到了AI，然后也聊到了Vibe Coding。因为几乎都不是专业的程序员，都是各个其他职业的，有基金经理、设计师、老师、产品经理、媒体人等等等等，所以大家也都说了蛮多自己使用Vibe Coding的心得，也聊了不少过程中遇到的坑。然后他们就问我，你几乎每天都在Coding，也写了那么多的教程和分享，问我说如果让你给大家安利几个Vibe Coding中最实用的小技巧，你觉得是什么。我当时还真的想了半天。最后，我想到了两个技巧，同时也是两个神级Prompt，是我觉得上至巨佬，下至萌新都有用的超级好用的东西： 1. 第一性原理。 2. 对抗式审查。可以说，我自己在这将近1年的Vibe Coding时间里，这两个词，绝对是我如今每天跟AI说的最高频词汇。前者管生成，后者管验证，基本能保证你在Vie Coding的时候，写出来的代码和最后的运行，有质的飞跃。其他的技巧当然也有用，比如我自己一直在说的约束先行、洁癖skill做文档迭代等等，这些也都是好东西。但如果你只能选两个，那我就选这两个，它们加在一起构成了一个完整的闭环，是我当今心目中Vibe Coding的两大基石，并肩站在一起的那种。然后给大家在饭桌上解释了一下，大家说，你不如写成文章吧，他们觉得还挺有用。所以，这篇文章就来了。也强烈给给大家安利一下这两个技巧。 1. 第一性原理这个技巧有多简单呢，就是你平时咋说就咋说，但是最后加一句“从第一性原理出发”就行。你相信我，加了这一句话后，你会发现Agent写方案的能力、找BUG的能力，都进化了一大截。举个我周末的例子。我自己做的AIHOT周五出了一个很严重的事故，就是我们的精选消息飞书推送出了BUG，导致周六凌晨，像OpenAI发布GPT-5.6这种大新闻，在飞书群里居然没有被推送。然后用户直接反馈，有的甚至都在别的消息卡片下面评论，我周六中午一醒，飞书的反馈提醒直接炸了，二十多条用户反馈。我就赶紧让Agent去修，他查了下跟我说，是因为之前测试一个国产模型的时候，OpenAI的抓取被那个国产模型给瞎改改坏了，所以断了三天，OpenAI的官网信源其实就一直没有抓取到，只不过今天才发现，让我修好就行。但是我当时有一种直觉，我寻思，这不对啊，这个背后，感觉有更严重的问题，这个修复，好像治标不治本。于是又补了一句，根据第一性原理来找一下原因。这一次，瞬间就不一样了。细节我就不太好说了，不过它找到了我们抓取海外信源的规则中的一个巨大的隐患，而且这个隐患非常的底层非常的深，是流量路由层面的，这个代码甚至都是今年4月中写的，只是因为那个国产模型瞎改代码，在表层上面做错了一个小点，然后把整个底层的流量路由问题都暴露出来了。我们当然可以非常简单的把OpenAI的抓取给单独修复一下，但是未来因为这个底层机制，未来你保不齐又有什么信源会出问题，你倒是可以再修再补，但是那就跟一艘破船一样，缝缝补补，最后堆成一座屎山，到时候再暴雷，那就真的会爆个天大的了。于是我花了半天时间，把这个底层的路由问题直接重构了，目前从机制上看，未来大概率就可以安心了。你看，一个是治表，一个是治本，这个差异，还是巨大的。这就是第一性原理的力量。在跟AI对话时，更是格外好用。社区里更是有朋友，把它称为神之Prompt之一。坦率的讲，现在的AI，很多都还是在做类比推理，跟人类一样，你跟它说写一个过滤函数，它会在训练数据里找到几万个类似的过滤函数，然后给你写一个符合你项目的看起来差不多的出来。这个过程很快，结果也能用，但它跳过了一个我认为最最最最最关键的步骤。就是，这个问题真的应该这么解吗？ “从第一性原理出发”这七个字，做的事情就是强制打断AI的类比推理，逼它回到问题的本质去思考，不要参考别人的方案，从最基本的事实出发，重新推导。这个道理亚里士多德两千多年前就说过了。然后马斯克把这套思维用在了SpaceX上。当时行业里所有人都说火箭发射就是得花几个亿，这就是所谓的行业共识。马斯克我觉得你在放屁，我们重新材料成本开始算起，铝合金、碳纤维、航空级燃料，这些原材料加起来才多少钱，你告诉我几个亿？然后SpaceX从这个数字出发重新设计整个制造流程，最后发射成本降了90%。 GitHub上甚至已经有人做了专门的skill，就叫first-principles。不过我觉得，你也没必要装什么Skill，不需要写什么System Prompt，你就在需要的时候，比如解决问题、修BUG、让AI帮你设计架构的时候，在你的Prompt后面加一句“从第一性原理出发”，相信我，这就够了。只要你的任务稍微复杂一点，这个Prompt几乎是万能的。神级Prompt，我觉得，当之无愧。 2. 对抗式审查这是我之前发现的，超级有用的一个审查Prompt。我现在只要做开发，最后的测试流程，几乎都必然是对抗式审查这句话了。第一性原理可以保证帮你找到好的方案、帮你找到BUG的真正的最本质的解法，但是他们没办法保证，开发完了以后，能稳定的上线。而这，就是这个Prompt去解决的试了，怎么保证AI写的代码确实没啥毛病。今年6月初的时候，也就是Claude Opus 4.8和动态工作流上线之后，我对AIHOT做了一次比较大的对抗式审查，就是纯找BUG。当时我印象中，开启了近40个Agent，跑了很久，然后找出了N个可能的风险。比如有一个叫OOM的死循环问题，就是后台worker如果处理一个特别大的任务时内存爆了，就会被系统杀掉，然后会自动重试，然后结果必然是又爆，又被杀，无限循环。对抗式审查从“如果我是一个恶意用户，我会提交一个50MB的HTML来搞崩你的worker”这个角度，把整条路径从入口到崩溃全走了一遍，找出了这个缺口，避免了后续一系列的风险，因为我后面信源加多了之后，还真的看到过100M的HTML。。。最搞笑的是还有一个未来时间污染的BUG。就是如果某个信源发布了一篇文章，但这篇文章的发布时间因为时区错误或者别的原因，显示的是未来的某个时间，比如明天，那这篇文章就会排到整个精选信息流的最前面，因为它的时间戳最新。它甚至还可能会被推送给用户，进入飞书群PUSH，进入RSS订阅，日报也会把它排在最前面。一篇来自未来的文章，就会把整个信息流都污染了。这种BUG你自己写代码的时候根本不会想到。但当你让AI站在我要用各种奇怪的数据来搞崩掉你的系统这个角度来审查的时候，它就会问，如果发布时间是未来怎么办？然后还有一堆乱七八糟的，比如因为HTML清洗模块的性能炸弹、翻译模块的同类隐患、部署探活的缓存穿透假阳性的各种奇奇怪怪的BUG。提前发现问题，提前解决，考虑到所有的情况，尽可能不让你的真实项目出现问题。毕竟我也不懂代码，我就是个废物，我只能依赖AI来帮我进行Vibe Coding，而大家也懂，Vibe Coding出来的东西，漏洞也是真的多，如果你不提前把这些问题全都考虑到，直接扔到线上，那伤害的，就是你的用户了，那就是真正的事故了。而对抗式审查，我强烈建议是，多开Agent进行对抗式审查。比如Claude Code我现在就很喜欢说：“开启Ultracode（也就是动态工作流，会有N个Agent进行并发）来对之前开发的功能进行对抗式审查。” Codex也可以，直接就说开启多Agent帮我进行对抗性审查就可以了，它会自动开好几个Agent的。极致且纯粹的攻防战。自从用了对抗式审查之后，我对自己代码和项目的信心反而变的很强了。写在最后我现在除了日常的开发外，我也几乎现在是每2到3周，定期对整个项目进行全局性的从第一性原理出发的对抗式审查。让Agent从最底层原理出发，去并发去审查架构、依赖关系、代码质量、文档对应等等，正好也可以用来去测试新模型的能力，也能整体review一下这两三周开发的功能，最好玩的是，每次都能挑出来之前没注意到的技术债和潜在风险。特别有意思。而且这些问题说实话，如果不主动去找，它们就会一直潜伏在那里，等到某天突然爆发。作为一个纯粹的不懂代码的小白，这个纯粹用Vibe Coding方式做出来的AIHOT，最近一周的请求量就超过千万，Skill的调用量也远远超乎我的预期，是网页端的10倍以上，虽然偶尔出一些小BUG，但是能稳定的为这么多用户提供服务，我心里还是很自豪的。而这两个Prompt，第一性原理和对抗性审查，居功甚伟。而且说实话，我觉得这两个东西的应用范围，也真的远不止Vibe Coding，远不止代码。它甚至是我们对待世界的处世哲学。你写完一篇文章，可以让AI帮你对抗式审查，它可能会从逻辑漏洞、事实准确性、论证力度多个维度来挑毛病，比帮我看看这篇文章怎么样有用太多了。你做完一个商业方案，让AI从第一性原理出发审视这个方案，它会剥掉你的所有假设，直接质问你的核心逻辑是否成立。你甚至可以在做人生决策的时候用这两套思路。比如，我要不要换工作，先从第一性原理想清楚自己到底想要什么，再用对抗式审查让AI专门找你思考中的盲点和你下意识回避的风险。因为这两个Prompt的核心逻辑，从本质上来说，跟具体领域无关，只是在Vibe Coding领域格外好用。第一性原理的核心就一句话，回到最根本的事实重新推导。对抗式审查的核心也就一句话，你永远需要一个站在你对面的力量来告诉你，你可能是错的。想想还挺浪漫的。相信我。这两种思维习惯一旦内化。你用AI的水平，会有一个质的飞跃。

译卡兹克分享Vibe Coding两个必备技巧：①“从第一性原理出发”——强制AI回归问题本质，曾助其发现AIHOT海外信源抓取底层路由隐患并重构；②“对抗式审查”——让AI从恶意用户角度测试，曾找出OOM死循环、未来时间污染等隐蔽BUG。作者建议每2-3周全局对抗式审查。当前AIHOT每周请求量超千万，Skill调用量为网页端10倍以上。两个技巧适用于任何需要验证与创新的场景。