Just had a great discussion on dynamic workflows. Rough notes: - applies to a very small set of use cases - think of it as a new paradigm of (test-time compute) TTC - strong for hill-climbing research experiments - careful planning leads to better results - you can often get better results by just increasing the reasoning level - /goal + /loop is a subset of dynamic workflows - verifiers/judges are crucial to get good results - combine/fuse different coding agents for even better results - great for when you need different perspectives from agents (llm council) - frontier models are not equipped for optimally generating harnesses on the fly - newer models like Mythos are probably better trained to do more optimal agent orchestration - benchmarks on TTC are lacking, but we need them to measure how effective dynamic workflows are - meta prompt dynamic workflows are a lot of fun; even opus 4.8 might surprise you - dynamic workflows can be packaged as skills for further optimization of them Longer post coming soon.

译动态工作流仅适用于少量用例，可视为测试时计算（TTC）新范式，对爬山式研究实验有效。仔细规划及提升推理级别均可改善效果。/goal + /loop 是其子集，验证者/评判者至关重要。结合不同编码智能体能获更好结果，适合需要多智能体视角的 LLM 评审团场景。前沿模型不擅即时生成 harnesses，但 Mythos 等新模型可能更优地处理智能体编排。TTC 基准尚缺，需建立。元提示动态工作流很有趣，Opus 4.8 也可能带来惊喜。动态工作流可打包为技能以便进一步优化。

Thariq@trq212 · 7天前33

I'll be talking more about Claude Tag with @petergyang and at AIE with @_catwu. Let me know if there's anything you'd like us to dive into more!

译我将与 @petergyang 以及在 AIE 上与 @_catwu 进一步讨论 Claude Tag。如果你们有任何希望我们深入探讨的内容，请告诉我！

ClaudeDevs@ClaudeDevs · 7天前72

Claude Tag is the next evolution of agents. It's a proactive, multiplayer agent with memory and identity, built on top of Claude Code. Learn more about how Claude Tag works and best practices for using it in this deep dive.

译Claude Tag 是智能体的下一代进化。它是一个主动的、多玩家智能体，具有记忆和身份，构建在 Claude Code 之上。了解更多关于 Claude Tag 的工作原理以及使用它的最佳实践，请看这篇深度解析。

Rohan Paul@rohanpaul_ai · 7天前80

OpenAI just released a paper showing how they are now seeing the first version of office work where agents do most of the execution. Codex has become its main work AI, producing 99.8% of internal output tokens after sitting below 10% a year earlier. The striking part is not engineering use, because Codex began as a coding tool, but the fast rise in Legal, Finance, Recruiting, Support, and business teams. Non-developer use rose 137x for individuals and 189x for organizations since Aug-25, which means agents are spreading wherever work has repeatable steps, files, rules, and messy follow-through. Top internal users now run about 71 hours of agent work per day by managing parallel tasks, turning AI from a chat box into a pool of delegated labor. Users are changing the work unit itself, since 70.2% of sampled individuals sent a request above 1 hour of human work and 25.6% sent one above 8 hours. Heavy users no longer wait for one answer, because 28.6% of OpenAI users managed 5+ concurrent agents and the 99th percentile ran about 71 hours of agent work per day.

译OpenAI 发布内部论文，显示 Codex 已成为公司主力 AI，产出 99.8% 内部输出 tokens，而一年前这一比例低于 10%。除工程部门外，法务、财务、招聘、支持及业务团队使用量快速增长。自 Aug-25 以来，非开发者个人使用增长 137 倍，组织使用增长 189 倍。重度用户日均运行约 71 小时代理任务，28.6% 的用户管理 5 个以上并发 agent，25.6% 的个体提交过超过 8 小时人工等价的任务。OpenAI 称，Agent 正使工作更复杂、更长期、更跨职能。

Rohan Paul@rohanpaul_ai · 7天前50

i10X just introduced Superagent, an AI Chief of Staff built to turn business goals into finished work. By giving an AI agent access to 100+ tools, cloud execution, research, writing, prospecting, decks, SEO, and human approval gates. Most AI tools still depend on you to break work into pieces, move files between apps, copy outputs, check quality, and decide what happens next. A Superagent tries to absorb that coordination layer. It plans the steps, gathers information, uses connected tools, produces the asset, and keeps running in the cloud even when you are not sitting there babysitting the process. The important design choice is the approval gate. For low-risk work, it can execute quietly; for consequential actions, such as sending an email or publishing a page, it asks first, which turns autonomy into supervised autonomy rather than blind delegation.

译i10X推出Superagent，号称世界首个AI首席幕僚。用户输入业务目标，即可部署智能体团队端到端处理销售、内容创作和SEO。Superagent的核心设计是吸收协调层：自动规划步骤、收集信息、调用100+工具、云端产出成果，无需人工持续监督。关键创新在于审批门控——低风险任务静默执行，涉及发邮件或发布页面等高后果操作时先请求批准，将自主变为受监督的自主，避免盲目委托。

Runway@runwayml · 7天前53

Introducing Agent 2.0 Go from a simple prompt to fully realized marketing briefs and campaign assets right inside of Runway Agent. You can also easily analyze your performance data to improve your creative and scale it across platforms, formats and markets. Agent is being built to become the most capable autonomous agent for real-world work.

译推出 Agent 2.0 从简单的提示词到完整生成的营销简报和活动素材，全都在 Runway Agent 内完成。你还可以轻松分析你的表现数据，以改善你的创意，并跨平台、格式和市场进行扩展。 Agent 正在被打造成为最强大的自主智能体，用于真实世界的工作。

Replit ⠕@Replit · 7天前54

Replit now supports 450+ integrations. No matter what you're building, Replit Agent can wire it up to the tools you already use: payments, messaging, data, CRMs, design tools, analytics, and hundreds more. Just describe what you want. We'll handle the connection.

译Replit 现已支持 450 多项集成。无论你在构建什么，Replit Agent 都能将它与你已使用的工具连接起来：支付、消息、数据、CRM、设计工具、分析工具，以及数百种其他工具。只需描述你的需求，我们来处理连接。

Rohan Paul@rohanpaul_ai · 7天前41

Code is automated, debugging still stayed mostly manual. @sazabi is trying to close that gap with an AI observability system that detects issues, investigates failures, and helps prepare fixes. logs are all you need: Its bet is that logs can become the source of truth, with AI deriving metrics, traces, and possible fixes from the raw events teams already collect.

译AI 可观测性初创公司 sazabi 获得 800 万美元融资，其平台将日志（logs）作为唯一事实来源，让 AI 自动检测问题、调查故障并协助准备修复方案。该平台从团队已有的原始日志中推导指标、追踪和可能修复，旨在替代传统手动监控。sazabi 定位为下一代通用可观测性方案，适用于任何工作负载（包括 AI 智能体），而非另一款 AI SRE 或 LLM 可观测性工具。2026 年软件更新速度极快，该平台希望通过 AI 最大化自动化和速度，实现自我修复软件。

Rohan Paul@rohanpaul_ai · 7天前53

Mckinsey report - AI agents are quietly taking over the retail shopping cart and could mediate $3 Tn to $5 tn of global consumer commerce by 2030. Instead of just suggesting a product, an AI agent can now scan multiple stores, check inventory, and build a ready-to-buy shopping cart. This shift is happening across 6 different levels of automation. - At the lowest level, the AI just compares prices and features so a human can make the final choice. - At the highest level, your personal AI agent negotiates directly with a store's AI agent to get the best price and shipping terms. Brands will increasingly compete to win over algorithms rather than just human shoppers. For this to work, retail stores must make their product catalogs and return policies machine-readable by software via API If a brand only focuses on looking good to humans but hides its inventory data, the AI agents will simply ignore it. Stores that expose their pricing and stock data through clear software connections will dominate this new landscape, while those relying purely on flashy marketing will lose out as machines make the actual purchasing choices. Automation ranges from simple product comparisons to full machine-to-machine negotiation.

译麦肯锡报告指出，AI智能体可跨多家商店扫描库存、比对价格并构建可立即购买的购物车，预计到2030年将调解3万亿至5万亿美元全球消费商务。自动化分为6个层级：最低级仅比较价格与功能，最高级由个人AI智能体直接与商店AI智能体谈判价格和运输条款。品牌将更多竞争以赢得算法而非人类消费者。零售商店需通过API使产品目录和退货政策机器可读；隐藏数据的品牌会被AI忽略，而开放定价和库存的商店将主导市场。

Tibo@thsottiaux · 7天前38

Codex for everything at OpenAI

译在 OpenAI，Codex 用于一切。

Greg Brockman@gdb · 7天前43

Agents are being adopted very quickly and accelerating work. How this looks across OpenAI itself:

译智能体正在被迅速采用，并加速工作进程。这在 OpenAI 内部的表现如下：

🚨 AI News | TestingCatalog@testingcatalog · 7天前41

GOOGLE 🔥: Gemini app for macOS will get Computer Use support and will be able to operate other desktop devices remotely. Users will have an option to "Connect another Mac" from the attachment menu on the prompt bar. Closing feature gaps 🤖

译GOOGLE 🔥: macOS 版 Gemini 应用将获得 Computer Use 支持，并能远程操控其他桌面设备。用户可从提示栏的附件菜单中选择“连接另一台 Mac”。缩小功能差距 🤖

elvis@omarsar0 · 7天前47

I guess MCP won. Jokes aside, this is super cool from OpenRouter. Just making it easier for devs to run their long-running agents with the right level of intelligence. More of this, please.

译我猜 MCP 赢了。玩笑归玩笑，OpenRouter 这波操作太酷了。让开发者能更轻松地用合适的智能层级运行他们的长期 Agent。请多来点这样的。

OpenAI@OpenAI · 7天前30

Work at OpenAI is being transformed by agents, in every department. Across our entire company, people are using Codex to do work that is more complex, longer-running, and increasingly cross-functional. Our internal usage offers an early look at how agentic tools may reshape work as they become more capable and broadly available.

译OpenAI 的工作正在被智能体改变，在每个部门。整个公司里，人们正在使用 Codex

jason@jxnlco · 7天前47

tldr:

译Codex 在 OpenAI 的使用为我们预览了未来智能体工作的可能面貌。在一篇新论文中，OpenAI 经济研究团队着眼于从聊天到委托的更广泛转变：人们使用 AI 智能体不仅为了获取答案，还要委托更长时间、更复杂的工作。 https://openai.com/index/how-agents-are-transforming-work

Rohan Paul@rohanpaul_ai · 7天前38

The model alone is no longer the product. The value is the system that turns a model into reliable action, the harness around the model. Utility per watt. The big lab may own the model, but @viktor__com is betting that the company closest to the workflow owns the user. Viktor is making a workflow layer for Slack and Microsoft Teams that connects into 3,000+ tools that Viktor can read and write to. 2 platforms, one AI employee.

译模型本身不再是产品。价值在于将模型转化为可靠行动的系统，即模型周围的“缰绳”。每瓦特效用。大型实验室或许拥有模型，但 @viktor__com 正押注：最贴近工作流的公司才能拥有用户。 Viktor 正在为 Slack 和 Microsoft Teams 构建一个工作流层，可连接 3000 多个工具，Viktor 能对这些工具进行读写。两个平台，一名 AI 员工。

Google DeepMind@GoogleDeepMind · 7天前63

Gemini 3.5 Flash now supports native computer use. This built-in tool lets developers build custom agents that can see and take action across browser, mobile, and desktop interfaces. Find out more → https://goo.gle/4f4sNQA

译Gemini 3.5 Flash 现支持原生计算机使用。这一内置工具让开发者能够构建可跨浏览器、移动和桌面界面进行观察和操作的自定义 AI 智能体。了解更多 → https://goo.gle/4f4sNQA

AK@_akhaliq · 7天前24

Are We Ready For An Agent-Native Memory System?

译我们准备好迎接智能体原生记忆系统了吗？

Berryxia.AI@berryxia · 7天前76

卧槽！最近开源大模型太卷了啊！这不又一个专注agentic coding的开源模型家族来了，叫Ornith-1.0。它覆盖了从9B到397B MoE的全尺寸，在Terminal-Bench、SWE-Bench等agent coding benchmark上达到了当前开源模型里的顶尖水平。最有意思的是它的训练方式：不是只让模型生成答案，是用RL同时优化“任务脚手架（scaffold）”和最终解决方案，让模型自己学会怎么搭建更好的执行框架。这个思路挺有意思的，很多agent失败不是因为不会写代码，恰恰是因为不会组织执行流程。 Ornith直接把“怎么搭框架”也变成了可学习的信号。模型全系列MIT开源，还提供了GGUF版本，能在Ollama、Unsloth等工具里直接跑。本地党又多了一个强力选择。地址见评论区👇

译Ornith-1.0 开源模型家族发布，专注智能体编程（Agentic Coding），覆盖 9B Dense、31B Dense、35B MoE 及 397B MoE 全参数规模。在 Agent Coding 基准上达开源顶尖：SWE-Bench Verified 82.4、SWE-Bench Pro 62.2、Terminal-Bench 2.1 77.5、NL2Repo 48.2、SWE Atlas 41.2 QnA、ClawEval 77.1。基于 gemma4 和 qwen3.5 后训练，采用强化学习联合优化任务脚手架（scaffold）与最终解决方案，让模型自主改进执行框架。全系列 MIT 开源，提供 GGUF 版本，支持 Ollama、Unsloth 等本地运行。

Google AI Developers@googleaidevs · 7天前73

The Computer Use tool is now available for Gemini 3.5 Flash 🛠️ Build agents that see and take action across browser, mobile, and desktop environments to seamlessly handle long-horizon tasks. Here’s what’s new: - Built-in support for mobile and desktop operating systems - Intent arguments for all function calls - Customizable client-side functions to easily support human-in-the-loop (HITL) takeover - Prompt injection detection and configurable action-level safety policies to fit your app’s needs Learn how you can use 3.5 Flash to automate QA testing, business processes, and more in the blog: https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/

译Google AI 宣布 Gemini 3.5 Flash 的 Computer Use 工具正式可用，支持构建能观察并操作浏览器、移动端和桌面环境的 AI 智能体，可处理长期任务。新特性包括：内置移动与桌面操作系统支持；所有函数调用配备 intent arguments；可定制的客户端函数实现人工接管（HITL）；提示词注入检测及可配置的 action-level 安全策略。可用于自动化 QA 测试、业务流程等场景。

Rohan Paul@rohanpaul_ai · 7天前43

"If you really want to make money, found an agentic AI company. I mean, build an agent to do something. This is the agentic period in AI. Everyone's going to build agents. The agents are all going to compete." ~ Eric Schmidt, Ex Google CEO.

译"如果你真的想赚钱，就创办一家智能体AI公司。我的意思是，构建一个能做某事的智能体。现在是AI的智能体时期。每个人都将构建智能体。所有智能体都将互相竞争。" ~ Eric Schmidt，前谷歌CEO

Rohan Paul@rohanpaul_ai · 7天前72

Another fantastic open source release. DeepReinforce just dropped Ornith-1.0, an MIT-licensed open-source family of agentic coding LLMs. The flagship Ornith-1.0-397B MoE (17B-active) is the most powerful model in the release, reporting 82.4 on SWE-Bench Verified and 77.5 on Terminal-Bench 2.1 - surpassing Claude Opus 4.7 on both benchmarks. Built on top of pretrained Gemma 4 and Qwen 3.5 Employs a novel self-improving training strategy. With this Ornith changes the training target by asking the model to improve both the answer and the task scaffold, meaning the plan, memory pattern, tool rhythm, error handling, and search process that shape the answer. During RL, the model proposes a better scaffold first, then uses it to produce solution rollouts, and the reward updates both stages together. That makes the model less like a coder following one rigid checklist and more like a coder learning which checklist works for each type of bug, repo, or terminal task. The most interesting result is the 9B model reaching 69.4 on SWE-Bench Verified

译DeepReinforce 发布 Ornith-1.0，一个 MIT 许可的开源智能体编码大语言模型家族，涵盖 9B Dense、31B Dense、35B MoE 及旗舰 397B MoE（17B 活跃参数）。旗舰模型在 SWE-Bench Verified 上取得 82.4，Terminal-Bench 2.1 上取得 77.5，均超越 Claude Opus 4.7；并在 SWE-Bench Pro（62.2）、Multilingual（78.9）等基准上达到开源同尺寸最佳。模型基于 Gemma 4 和 Qwen 3.5 后训练，采用新型自我改进策略：强化学习不仅生成解决方案，还联合优化任务特定的 scaffold（包含计划、记忆模式、工具节奏、错误处理等）。最小的 9B 模型也在 SWE-Bench Verified 上达到 69.4。全部模型以 MIT 许可证发布，支持商用与研究。

elvis@omarsar0 · 7天前20

Running agents these days shouldn't be too hard. But local agents are tricky to operate. @hyperagentapp gives every agent its own dedicated cloud machine. Handles infra for you so it runs whether your laptop is on or not.

译Hyperagent 为每个 AI 智能体提供专用云端机器，托管基础设施，无需笔记本常开也能持续运行。针对 OpenClaw 等本地框架常见的问题（每日崩溃、泄露秘密、频繁监控），Hyperagent 提供稳定安全替代方案。限时优惠：注册即获 $100 推理积分，迁移首个智能体再获 $500。

meng shao@shao__meng · 7天前48

家里最累的，往往是那个一直在记事、提醒、安排、照顾所有人的人。 SuperNori 这个方向挺有意思：一个 Proactive Family AI Agent，会先注意到堵车、冰箱快空了、孩子这周在学什么、纪念日有没有撞期，然后再来问你要不要处理。希望家庭 AI 以后真的能多照顾一下那个总在照顾全家的人。加入候补名单： https://supernori.heynori.com 你希望家庭 AI 帮你做什么？欢迎转发或留言给 @Nori_FamilyAI #partner

译SuperNori 是一个专为家庭照顾者设计的 Proactive Family AI Agent。与现有AI专注于工作场景不同，它能主动感知堵车、冰箱快空、孩子学习进度、纪念日冲突等家庭事务，再询问用户是否处理。旨在减轻家中“一直记事、提醒、安排、照顾所有人”的成员的负担。目前开放候补名单。

OpenRouter@OpenRouter · 7天前72

Introducing the OpenRouter MCP, live model intelligence right inside your agent Your agent builds and ships, but when it comes to choosing the right model for the right job, it guesses from 6 month old training data Watch it pick, price, and test the right model:

译推出 OpenRouter MCP，将实时模型智能直接嵌入你的智能体你的智能体负责构建和交付，但在为具体任务选择合适模型时，它只能依据 6 个月前的训练数据来猜测看它如何挑选、定价并测试合适的模型：

Chubby♨️@kimmonismus · 7天前25

We spent two years calling things agents that fall over the second nobody's watching. A setup tied to one laptop, one wifi, and one person awake at 1am to restart it when it breaks is closer to a pager than to autonomy. Hyperagent gives every agent its own cloud machine that runs whether you're at the keyboard or asleep, with a real browser and real code execution. Built by the Airtable team. Incredible!

译Hyperagent（由Airtable团队构建）回应了当前智能体依赖单台笔记本、单WiFi及人工守夜重启的脆弱性，为每个Agent分配独立云机器，提供真实浏览器与代码执行环境，确保Agent在离线和无监督状态下持续运行。引用推文对比OpenClaw的频繁崩溃、秘密泄露和持续监控问题，推广Hyperagent：限时注册获$100推理积分，迁移首个Agent再得$500。

Chubby♨️@kimmonismus · 7天前43

Everyone's teaching AI agents to shop. Almost nobody is solving the boring part: letting them move the money, pay across borders, keep the books, stay compliant. That's the gap Airwallex is going after, with Airi (faster agent checkout today, a real wallet in the works) and T:0 (an AI-native platform for the finance back office, still in beta). The interface gets all the attention. The money layer is what decides whether agents can do the work, and Airwallex already owns the rails for it. It’s great that the important aspects are now also being addressed with the help of AI agents.

译Airwallex 正在解决 AI 智能体金融中资金转移、跨境支付、记账与合规等“无聊部分”。他们推出 Airi（当前提供更快的智能体结账，正在开发真实钱包）和 T:0（AI 原生财务后台平台，仍处于测试版）。Airwallex 已拥有支付轨道，现在此基础上构建智能层。此前，Airwallex 宣布完成 3.2 亿美元融资，估值 110 亿美元，由 Addition 领投。公司指出团队更小、全球化、更多使用智能体是趋势，并用 10 年建设了适配这一世界的金融基础设施。

向阳乔木@vista8 · 7天前62

腾讯出了专门给Agent用的邮箱，快去抢注你的邮箱名... 注册以后，会有一段提示词，发给Codex或你的其他Agent来完成cli设置。地址见评论区

AYi@AYi_AInotes · 7天前61

说个反常识的判断， 80% 的 Agent 生产崩溃，跟模型智商没半毛钱关系，基本都死在上下文溢出、工具调错、子代理失控上， 2026 年真正的分水岭在 Harness 和 Loop，不是模型啊，兄弟@wizardly_ai 这篇工程笔记写得很肝，但把这件事拆透了。 Harness 是什么，是给 Agent 配的办公室制度、安保系统和质检流程，让它不至于一激动就把公司搞砸。独立验证节点是命脉，分层记忆不是全塞进 prompt，延迟绑定工具只给目录、用的时候再拉完整 schema。 Loop 是什么？是让它自己发现该干什么、分派任务、验证结果、记录状态，你不再是坐在电脑前一遍遍打 prompt 的人，你变成设计循环的人。以前我们学怎么写 Prompt，后来学怎么编排 Agent，现在学怎么给 Agent 加运行时，下一步是学怎么让运行时自己跑。 Google 的 Addy Osmani 和 Anthropic Claude Code 的 Boris Cherny，现在写的是循环，不是 prompt。最朴素的那个叫 Ralph Loops 的 bash 循环反复被验证有效，好模型配差循环出昂贵垃圾，普通模型配好循环加验证反而能稳定出货。模型是可替换的引擎， Harness 是让你不翻车的底盘和安全系统， Loop 是让你不用 24 小时盯着方向盘的自动驾驶。这三样加起来，才是能积累、能传承的 Agent 工程能力。这才是 2026 年真正该卷的东西吧 hhh

译推文指出80%的Agent生产崩溃与模型智商无关，根源在上下文溢出、工具调错、子代理失控。2026年分水岭是Harness（办公室制度、安保系统、质检流程，含独立验证节点、分层记忆、延迟绑定工具）和Loop（自我发现、任务分派、验证结果、状态记录）。好模型配差循环产生昂贵垃圾，普通模型配好循环加验证反而稳定出货。模型是可替换引擎，Harness是底盘安全系统，Loop是自动驾驶。引用@wizardly_ai的工程笔记拆解了该论点。

Rohan Paul@rohanpaul_ai · 7天前66

Goldman Sachs Research: "Token use by AI agents is expected to multiply 24 times by 2030" AI agents are now creating the first serious cost test for the AI boom. As was reported this week, Uber and Microsoft are already rethinking expensive agent usage. A chatbot may answer once, but an agent plans, calls tools, checks results, edits mistakes, and repeats the loop. That loop can make one user request consume 10x, 50x, or even far more tokens than a normal answer. Goldman’s bullish case is that monthly token use could reach 120 quadrillion by 2030, while inference cost per token keeps falling 60%-70% per year. The fight is now between agent productivity and token waste. Earlier this month, Microsoft began revoking developer access to Claude Code, with plans to move them to its in-house Copilot Command Line Interface tool by June 30. The company has framed this as consolidating teams around its own tools, but the timing at the fiscal year’s end hints it may also be about lowering costs.

译高盛研究预测，到2030年AI智能体token使用量将增长24倍。单个智能体任务可能消耗正常回答10倍、50倍甚至更多token。乐观情景下月token使用量可达120 quadrillion，推理成本每年下降60%-70%。Uber和Microsoft已开始重新考虑昂贵的智能体使用。Microsoft本月撤销开发者对Claude Code的访问权限，计划6月30日前迁移至自研Copilot CLI工具，此举被解读为降低成本。

meng shao@shao__meng · 7天前58

火山引擎发布的「ArkClaw 安全白皮书」- 53 页各位关注和在负责企业级 Agent 研发、部署和安全的朋友们，推荐阅读！白皮书将 AI Agent 安全归纳抽象为三层问题：OpenClaw 原生风险、云 SaaS 通用风险和企业治理新痛点。还详细列出了 OpenClaw 六大原生风险： · Gateway/CDP 绑定 0.0.0.0、无认证 · 外部内容操纵 LLM，污染 HEARTBEAT.md 等 · ClawHub 恶意 Skill 伪装合法工具 · IM 机器人开放群聊 · Agent 继承宿主进程权限 · 明文存 creds、日志未脱敏还有： · ArkClaw 额外风险与企业治理痛点 · 安全责任共担模型 · 七项架构设计原则 · 四层安全保障体系以及：企业最佳实践（统一鉴权网关、网络边界管控、持续安全运营这三个模块）在这下载： https://developer.volcengine.com/resource/7655230670813610030

译火山引擎发布53页白皮书，将AI Agent安全归纳为OpenClaw原生风险、云SaaS通用风险、企业治理三大类，列出六大原生风险（如Gateway绑定0.0.0.0无认证等），并涵盖责任共担模型、七项架构设计原则、四层安全保障及企业最佳实践。

fofr@fofrAI · 7天前20

I love this

译这个 Chrome 扩展让你在浏览器中录制操作，再由 Gemini 3.1 Flash Lite 自动将这些任务转换为 Skills。DOM 中的动作会补充视频，从而获得非常精细的指令。我喜爱这个。

Alibaba Cloud@alibaba_cloud · 7天前37

Securing AI Agents on Alibaba Cloud: The Constraint Infra ️ Solve Agent chaos with a robust governance layer: ✅ Dynamic Control: Hot-update Prompts/rules via Nacos. ✅ Granular Governance: Token limits & multi-agent security. ✅ Proven in Prod: StarOps SRE Agent runs high-risk tasks safely within these boundaries. ✅ Self-Evolving: Rules iterate via AgentLoop data flywheel. Build safer, smarter Agents! 🚀 https://int.alibabacloud.com/m/1000414834/ #AI #AlibabaCloud #Nacos #Higress #StarOps #AgentLoop

译阿里云发布面向AI智能体的约束基础设施（Constraint Infra），提供治理层解决Agent混乱问题。核心能力包括：通过Nacos热更新提示词与规则实现动态控制；支持token限制及多智能体安全的细粒度治理；已在生产环境验证，StarOps SRE智能体在该边界内安全运行高风险任务；通过AgentLoop数据飞轮驱动规则自我进化。

数字生命卡兹克@Khazix0918 · 7天前52

http://x.com/i/article/2070014478029103104 # 盘点16个把自己蒸馏成Skills的国民级App。最近看到越来越多的一些国民级产品，开始把自己的一些能力，给封装称Skill或者MCP，来向大家开放，我觉得这个大家逐渐为Agent来做能力的趋势，越来越明显了。特别是前段时间瑞幸咖啡上线了AI开放平台，支持MCP、CLI、Skill三种接入方式。能够实现用AI点咖啡、查门店、搜商品等等等等。我当时发了条小红书，甚至还在微博上贡献了一条热搜。最近发现群里的很多朋友，对国产产品Skill和MCP化还挺感兴趣的。所以我专门花了一些时间，把能找到的国产Skill、MCP和CLI都梳理了一遍，虽然平时这些动态我也都有在关注，但一直是零零散散地看到，没有来得及系统地整理过，正好借这次机会，我自己也盘一盘。然后发现，这个名单比我以为的要长得多。餐饮、出行、地图、办公、金融、娱乐，几乎每个领域都有人在做了。真的很有意思，这些主流的服务，可以让你自己的Agent，也能实现与真实世界的交互。当然，可能大多数读者都已经非常了解Skill了，对MCP和CLI还不是特别了解，不过如果不懂得，其实也不用特别了解，直接就当做更高级能做更多事的Skill就行了，反正对于大家来说，其实都是把网址扔过去然后说给我安装其实就行了。。。接下来，盘点开始。 # 1. 瑞幸咖啡Skill 先从餐饮开始，因为我觉得瑞幸就是这波浪潮里最出圈的那个。。。他们网址在此：open.lkcoffee.com 支持Skill、MCP、CLI三种方式。安装命令跟所有的Agent其实都一个样，说一句话就搞定了。装好了后，你就能够在自己的agent上面点咖啡啦。我跟它说，帮我点杯瑞幸，但我最近心脏不舒服，不想喝带咖啡因的，让他帮我进行推荐。它会先确定你的位置，找最近的门店。选好门店之后，它推荐了几个这家店里无咖啡因的饮品。大杯、特大杯、超大杯。唯独没有中杯。罗老师看了估计都得沉默。选择之后，还会再问你是否确认下单。确认之后，需要你打开网页的二维码，扫码支付。不过，瑞幸的 skill 目前只支持到店自取，不支持外卖。下单后会给你取餐码，你就可以去门店扫码取咖啡了。 # 2. 麦当劳MCP 接着餐饮往下聊。麦当劳，之前也上线了MCP。网址在此：https://open.mcd.cn/mcp 我试了一下。它能够查活动日历看最近有什么优惠。还能领券。不过，点餐到最后一步还是需要去app里面完成支付。付钱这件事，感觉大家都不敢打通最后一公里。。。 # 3. 飞猪Skill 说完餐饮，然后还有出行这块。飞猪之前上线了flyai skill，底层接的是自己的MCP服务。网站在此：https://flyai.open.fliggy.com/ 能够帮助你完成机票、酒店、门票、用车等等的咨询、规划和预定，而且不需要API Key就能试用。我让它帮我规划一个周五出发的杭州周末游。直接拉出了去程和回程的航班表，航司、出发时间、到达时间、时长、价格全列好了，还标了首选、备选和性价比。酒店也是，位置和价格都有。如果想要预定，可以点击链接进行购买。体验版本的数据会缺一些。如果你需要完整的能力的能力，申请个API Key就可以了。 # 4. 滴滴Skill 滴滴出行在去年九月上线MCP服务，在今年四月上线skill。网站在此：https://mcp.didichuxing.com/ 能够实现实时叫车、预约出行、订单查询、查看司机位置等等等等。而且它有一个挺有意思的设计，就是能直接提醒司机的状态。组合玩法就可以实现，司机已到达的时候，直接用hook触发一个飞书电话，啪的一下，一个电话就打过来了。。。 # 5. 高德地图Skill 出行这块那自然绕不过地图。高德在去年七月份，推出了MCP服务。在今年四月份上又线了skill市场，涵盖位置服务、地图开发、Android Agent、iOS Agent及RTOS地图方面，给的东西还挺多的。高德开放平台链接在此：https://lbs.amap.com/ 我装好以后，让它帮我搜索一下杭州余杭区的酒店。然后生成了一个5公里范围内的酒店搜索链接。酒店名称、评分、地址、图片全都列出来了。还是挺有意思的。 # 6. 腾讯地图Skill 除了高德之外，腾讯地图也推出了Skill和MCP。网址在此：https://lbs.qq.com Skill提供了搜索、规划、天气查询、模型展示等等等等功能。这两家功能上高度重叠，但细看还是有差异的。主要是开发层面，腾讯地图多了一个前端地图开发Skill，支持3D地图、Three.js集成、GLTF模型。其他的日常对话式的用法，两家差不多。 # 7. 美团跑腿Skill 美团跑腿在上个月发布了Skill。 GitHub链接在此：github.com/meituan/MT-Paotui-For-Client 在选择地址的时候，会优先匹配你的地址簿，不用每次重新输。每次下单前也会展示完整的订单预览卡片，等你确认后才会提交。支付同样是需要打开app来操作。大家逃不过的难题。 # 8. 飞书Skill 然后就是办公协作，这块几乎就是大家开放的最猛的真正的主战场。一马当先的就是飞书了，也是我们公司自己天天在用的工具。 Skill、CLI、MCP三种形态都有。网站在此：https://open.feishu.cn/?lang=zh-CN CLI在三月份开源的时候，我还写了一篇文章，想要了解更多的朋友可以看这一篇。 # 9. 钉钉Skill 钉钉同样也推出了Skill、CLI和MCP。网站在此：https://open.dingtalk.com/ 覆盖面也很广，消息、待办、日程、审批流这些都能通过Agent直接操作。对于用钉钉的团队来说，该有的都有。飞书能干的事，钉钉这边基本也都能干，选哪个就看你平时公司用的是哪家。 # 10. 企业微信Skill 企业微信有CLI和Skill和MCP。 GitHub网站在此：github.com/WecomTeam/wecom-cli 核心能力像消息收发、通讯录管理这些日常操作也都覆盖了。几家反正几乎就是能开放的全都开了。 # 11. 腾讯文档Skill 腾讯文档也推出了Skill和MCP。网站在此：https://docs.qq.com/open/document/ 能够创建和编辑在线文档、进行知识库管理以及AI PPT生成。你要是不用那几家在线办公产品，平时只用云文档啥的，那用Agent+腾讯文档也是可以的。 # 12. 支付宝Skill 支付宝在去年四月推出国内首个支付MCP。开发平台在此：https://open.alipay.com/ 覆盖手机支付、网页支付、订单查询、退款、退款查询五项能力。后面又推出了支付集成skill。这两个其实都是给收钱的人用的，面向开发者。可以让AI帮你快速把支付宝的支付能力接入到你的产品或者Agent里，比如自动生成收款链接、创建订单、查订单状态、发起退款，完整的收款闭环都能搞定，甚至没有企业资质的个人开发者也能用。 # 13. 微信支付Skill 微信支付在去年开放了MCP，只能在腾讯自己家的腾讯元器上用。在今年四月份，上线了skill，这个也是让开发者用AI接入支付的功能，并不是给普通用户用的。网站在此：https://github.com/wechatpay-apiv3/wechatpay-skills 能帮你判断该用哪种支付产品、直接给你示例代码，同时帮你检查写好的代码有没有安全问题，还能专门搞商品券，发券、核销、查询、退券。 # 14. 微信读书Skill 在五月，微信读书推出Skill。官方页面：weread.qq.com/r/weread-skills 能查书架、看阅读进度、统计你读了多久读了多少天、检索笔记划线、搜索书籍、查看书籍详情，甚至还能根据你的偏好推荐相似的书。 # 15. 网易云音乐Skill 网易云音乐在今年三月推出了Skill和CLI。 GitHub网站在此：github.com/NetEase/skills 支持搜索、播放音乐、歌单管理、红心歌单偏好画像分析等等。 # 16. 美图Skill 美图推出CLI，并同步上线skill。网站在此：https://www.miraclevision.com/open-claw 功能还是非常全的，支持图片编辑、文生图、文生视频、AI写真、换脸、虚拟换装、背景替换等等。 # 写在最后除了这些独立发布Skill的，还有一类是直接在自家AI产品里集成第三方服务的。千问在1月接入淘宝、支付宝、淘宝闪购、飞猪、高德等阿里生态。 6月开放第三方Skill，肯德基、蜜雪冰城、东方航空首批接入。豆包也在6月22日上线打车服务，接的是曹操出行，正在灰测中。 WorkBuddy作为腾讯的产品，也内置了大量的Skill和MCP。像微信支付AI专属卡，以及QQ邮箱、腾讯文档、腾讯ima、腾讯问卷、微云这些腾讯系的能力都已经集成在里面了。我们正在向一个逐渐全面Agent化的时代过度。然后有一个细节特别有意思，就是支付。你会发现，几乎所有涉及付钱的环节，大家都选择了让用户跳出去自己完成，瑞幸是扫码支付，麦当劳是跳app，美团跑腿也是打开app操作。没有人敢让Agent直接替你把钱付了。技术上肯定轻轻松松就能做到，但，整个社会的信任上，还没到那一步。。。这个信任不是靠一两个产品能建起来的，需要整个生态慢慢磨。反正我觉得，现在这个阶段很像2017年小程序刚出来的时候。当时大家也觉得这玩意有啥用，结果三年后很多的品牌都在做，特别是跟现实时间交互多的。 Skill和MCP这种Agent的基建，现在也处于这个窗口期，先做的人在探路，大量的品牌还在观望。但趋势已经不可逆了。当你的Agent能够点咖啡、叫出租车、查航班、发飞书消息、发邮件、管理文档、搜附近的酒店，最后可以自循环，完成支付那一步。。。它就不再只是一个工具了，它在慢慢变成你在数字世界里的另一个自己。或者说，是我们每个人心中的那个贾维斯。这个名单还会越来越长的。我坚信。

译卡兹克盘点瑞幸、麦当劳、飞猪、滴滴、高德、腾讯地图、美团跑腿、飞书、钉钉、企业微信、腾讯文档、支付宝、微信支付、微信读书、网易云音乐、美图等16款App，均已推出Skill、MCP或CLI服务。覆盖餐饮点单、出行规划、办公协作、支付收款、娱乐编辑等场景。支付环节普遍需跳转App完成。此外，千问、豆包等AI产品也集成第三方服务，Agent化趋势明显。

向阳乔木@vista8 · 7天前82

http://x.com/i/article/2070045816782217216 # 豆包Seed 2.1实测：编程可用，识鱼封神！前天，火山引擎将在年度Force大会上发布了最新基模Seed-2.1系列（Pro、Turbo）。模型特点在这里： > https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 到底如何，我们还是看实际场景表现。乔帮主从常规测试、工作场景和个人爱好出发，带着大家一起测 Seed-2.1-Pro 。一句话总结：Agent 和 Coding 迈过生产级可用线，多模态识别有惊喜！ ## 小汽车测试 Django Web 框架的联合创始人之一 Simon Willison。每次模型发布，他都会做 “鹈鹕骑车” ，来测模型推理和SVG生成能力。最近 Reddit 流行一个新测试，我称之为“小汽车测试”，中文翻译提示词如下 > 用一个单独的 HTML 文件实现全屏画布，不使用任何库。以侧视角模拟一辆行驶中的汽车作为主体。保持汽车在前景中可见，同时背景景观持续滚动，营造出汽车向前行驶的感觉。使用分层场景实现景深效果：近处地面、路边元素、树木、电线杆以及远处的山丘或山脉应以不同速度移动，形成自然的视差效果。真实地动画化车轮旋转，并添加细微的车身运动，使汽车感觉与道路相连。让环境在车后平滑地流过，场景重复但富有变化，使运动感觉真实可信。使用电影级光效和统一的天空（如日落、黄昏或日光）来增强氛围。整体运动应感觉平静、沉浸且真实，具有无缝循环动画效果。这个测试很妙，一次性考察大模型物理建模、无缝循环动画、空间层次、美学和编程能力。如果模型编程能力不强，很难通过测试，因为要求不能用第三方库，只能从头生成原生 JS 代码。 JS 代码一旦出错，很容易白屏加载不出画面。 Seed 2.1 Pro 出来效果如下，感觉有点超预期。虽然背景树木时高时低有点怪，小汽车轮子太靠上，但整体完成很不错。 ## 前端网页开发用大模型，很多时候是为了开发网站，前端网页开发能力多少得测下，提示词如下： > 设计并实现一个面向 CFO 的「AI 财务预测平台」官网首页，要求包含首屏 Hero、可信客户 Logo、3 个核心卖点、一个实时财务预测仪表盘预览、客户证言、价格入口和 CTA。输出可运行的单文件 HTML/CSS/JS 或 React 组件。要求视觉风格接近 Linear/Stripe/Notion 的高级感，但不能照抄任何品牌。界面简洁清晰，提示词遵循也不错，图表展示效果不错，但整体中规中矩，算符合超预期。 https://www.32kw.com/view/ed38b2d ## 后台功能开发身边 AI Coding 厉害的朋友，现在都是用文档驱动开发（Spec开发）。先让 AI 生成需求文档，自己检查没问题后，丢给 AI 开发即可。最常见案例就是开发个 CMS（内容管理系统），大部分网站基础就是这个，复杂点会加上注册登录、用户权限管控、页面SEO页面优化、Rest API 等。试下 Seed 2.1 Pro 是否能完美执行这套工作流： > 读取这个PRD，开发CMS系统：[文档地址] Seed 2.1 Pro 选择了 nextjs 框架、sqlite数据库，还设计了 REST API 接口。 5 分钟左右完成开发，增删改查正常，功能完全符合文档要求，除界面不够 fancy，挑不出别的问题。这么看，一些常规编程任务也可以用 Seed 2.1 Pro 了。 ## 生成炸裂标题不是人人都需要编程，但日常写文章，取个标题，是最常见不过的任务。大聪明（赛博禅心）一直跟我说，做自媒体要研究新智元。喷归喷，但人家起标题真的是一绝。新智元发布了5000多篇文章，让 AI 分析了 2688 篇，提炼了一套新智元标题生成 Skill > npx skills add joeseesun/qiaomu-xinzhiyuan-title 虽然用 Prompt 也能生成标题，但用 Agent 能读取飞书、公众号页面，再参考 Skill 的 Reference 文档，生成标题质量更稳定、更轻松。这里我们继续用开篇文章，提示词也简单： > 用新智元标题Skill生成10个候选标题，读取这里的内容：https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 是不是有那个味道了？😂 没想到老实巴交的豆包 Seed 2.1，也能瞬间变标题党，相当炸裂！ ## 竞品调研报告很多人的日常工作，经常要做一些产品分析调研，把下面提示词发给 Seed 2.1 Pro： > 调研 3 个「AI 会议纪要工具」的官网、价格、核心功能、集成生态、隐私合规表述和用户评价。输出一张竞品矩阵，并给出面向中小企业的 MVP功能优先级、差异化定位和 90 天 Roadmap。生成内容很长，我补了一句：“写入飞书文档”，精准调 lark-doc 写入文档，效果如下：指令遵循不错，各项任务都完成了。直接抓取被拦截时，还会调用 Playwright 读页面获取信息。 ## 生成信息卡图将任意文本或链接一键转化为杂志质感信息卡片，自动截图输出图片，适合分享到 X、小红书、微信。先安装下面乔帮主的 Skill > npx skills add joeseesun/info-card-designer 然后把开篇的微信文章发给 Seed 2.1 Pro，提示词： > 读取 https://mp.weixin.qq.com/s/a-eevQvWVAYwZQeFi1ZomA 用信息卡skill生成卡片默认生成了蓝紫渐变图 😂 ，让它调整生成白色简洁风格信息图。 ## 制作电子书互联网上有些博客写的非常好，很值得做成 epub 电子书，导入微信读书随时看。安装下面的 Skill，一句话生成电子书。 > npx skills add joeseesun/qiaomu-epub-book-generator 比如 Paul Graham 的博客，常读常新。此任务可以测试 Seed 2.1-pro的 Skill 调用和执行能力，提示词很简单： > 抓取 Paul Graham 最新 x 条博客，用乔木 epub 制作 skill 生成epub电子书不仅顺利下载翻译博客文章为中文。还能遵循 Skill 封面设计规范，先设计网页，再调用 Playwright 截图，生成电子书封面。 ## 拍照识鱼乔帮主作为钓鱼佬，最近在开发一款自用 iOS App。产品需求：拍照后 AI 自动读取相片 exif 信息记录钓点，同时识别渔获，什么鱼种，有几条。之前测试 Gemini 3.1 Flash，竟把白条识别成“泥鳅”，非常恼火。听火山发布会说 Seed 2.1 Pro 多模态不错。抱着试试看心态，给了一张没抹去 exif 信息的图片，输入提示词： > 读取这张图片的地理位置信息，并识别图中有几条鱼，什么鱼附件原图：结果让人感动，不仅调用 exif 工具读取了图片地理位置（温榆河），还准确识别了鱼种和数量。连泥水中看不太清楚的两条都识别到了，还给我科普了白条的拉丁名和其他俗名，震惊！ > 鱼种：几乎全是白条鱼（学名䱗，Hemiculter Leucisculus，俗称餐条、青鳞子、游刁子）我的钓点记录 App 终于有救了。 ## 如何体验？虽然豆包专业版-办公模式、TRAE、TRAE WORK、扣子都上线了 Seed-2.1-Pro。但企业和专业用户一般会接 API，在Claude Code等工具中使用。为还原实际能力，避免产品系统提示词影响，上面测试都用是 CC Switch + 火山方舟 API ，终端用的 cmux。 ## 写在后面可能最近牛 X 模型太多了，豆包 Seed 2.1 Pro 感觉稍微有点中规中矩。好消息是 Agent 能力达到可用线，常规编程、调工具、写文档、截图、生成电子书都能搞定，这对依赖 AI 工作流的人来说，体感差异很明显，且价格还不错。最大惊喜来自多模态，至少我测试的场景，明显领先 Gemini 3.1 Flash。等后面有空我再测下自动化视频剪辑，这个更考验多模态实力。上面测试的 Skill 都是开源的，直接 ⁠npx skills add 就能用。如果想在 Claude Code 中调用，直接去火山方舟申请 API 即可，已经全量开放。

译火山引擎发布豆包Seed-2.1系列（Pro、Turbo）。实测Seed-2.1 Pro显示：Agent和Coding能力达到生产级可用线，能完成SVG动画、网页开发、CMS系统等任务；配合开源Skill可生成标题、调研报告、信息卡片及电子书。多模态识别惊喜，拍照识鱼准确识别鱼种和数量，优于Gemini 3.1 Flash。价格实惠，API已通过火山方舟全量开放。

向阳乔木@vista8 · 7天前49

谷歌六月参考AK的LLM wiki思路推出了一个规范：Open Knowledge Format 核心思路：用一组 Markdown ，加 YAML frontmatter，把知识变成可读、可版本控制、可被 Agent 直接消费的文件包。让Codex读取这篇文章，它把codex做过的项目整理成了OKF格式，添加到系统记忆索引中。文章见评论区

译谷歌于六月推出Open Knowledge Format（OKF）规范，参考AK的LLM wiki思路。核心是用Markdown加YAML frontmatter将知识组织为可读、可版本控制、可直接被AI智能体（Agent）消费的文件包。示例中，Codex读取该文章后，将自身做过的项目整理为OKF格式并添加到系统记忆索引中。文章见评论区。

向阳乔木@vista8 · 6月25日39

Agent 是一种新的生产要素，数字化、随时调用、最终趋近免费的劳动力。不要把人力和 Agent 的价差当成商业模式本身。上下文、注意力、信任和品牌，不会因为模型变便宜而贬值。 AI时代，人的技能不重要，积极好奇、灵活性和自驱力才是核心。

译推文提出，Agent 是一种数字化、随时调用、最终趋近免费的劳动力，但不应把人与 Agent 的价差当作商业模式本身。上下文、注意力、信任和品牌的价值不会因模型变便宜而贬值。AI 时代，人的具体技能不再重要，积极好奇、灵活性和自驱力才是核心素质。

meng shao@shao__meng · 6月25日47

165K ✨ 开源 Skills 系列 Skills For Real Engineers 新添一个 Skill「loop-me」：目前还在 in-progress 阶段，在多轮会话里，用当前目录作有状态工作区，通过「拷问」把想法磨成可落地的工作流规格。 https://github.com/mattpocock/skills/tree/main/skills/in-progress/loop-me loop-me 和 grill-me 共用 grilling 纪律，但产出物不同： · grill-me 对齐任意计划 · loop-me 只产出 workflows/*.md # loop-me 核心概念 Loop 透镜 Loop = 生活中可识别的重复模式：职业节奏、每周节奏、早晨例行、某类固定活动。生活可被看成「大 loop 套小 loop」。价值在于：可预测 → 可委托。Agent 应主动帮用户发现「你没意识到但在重复做的事」，而不只写用户已说出的那几项。 Workflow Workflow = 某一个 loop 的规格说明书；loop 的一次运行 = 该 workflow 的一次实例。规格存放在 workflows/*.md，是唯一真相源。会话过程中可创建、编辑、删除这些文件，随拷问推进而收敛。拷问纪律（grilling） · 一次一问：多问并行会让人迷失 · 每问附带推荐答案：降低回答成本，加速收敛 · 走完整棵决策树：分支依赖逐个解决 · 能查代码库就先查：不把本该自己调研的问题抛给用户 · 有状态：跨会话延续，工作区文件承载进度完成标准（Definition of Done）实现 agent 读 spec 后不需要再问任何问题。拷问未消尽疑点 = 未完成。这与 to-prd（从已有对话合成 PRD）不同：loop-me 是主动挖空未知，直到 spec 自洽。设计哲学（精简） 1. 从重复模式出发，而非从「我要一个 AI agent」出发。 2. 规格是唯一交付物；实现是后续步骤。 3. 人类时间最贵——Push right + Brief，把人的角色压缩为「晚到的单次决策」。 4. 反模板化——结构由场景决定，不由 skill 预设。 5. 状态外置到文件，支持跨会话、可版本化、可 diff。在 Skills 生态中的位置 👇

译开源 Skills 系列（165K stars）新增 in-progress 技能「loop-me」。该技能通过“拷问”采访用户，发现其工作、生活中的重复模式（Loop），并将这些模式打磨成 workflows/*.md 规格文件。核心原则包括：一次一问、附带推荐答案、走完整棵决策树、优先查代码库、状态持久化至文件从而支持跨会话和版本化。loop-me 与已有 grill-me 的区别在于：grill-me 对齐任意计划，loop-me 只产出 workflow 规格。设计哲学强调从重复模式出发，而非直接构建 Agent；规格是唯一交付物，实现留作后续步骤；人类时间最珍贵，将其角色压缩为“晚到的单次决策”。完成标准是 Agent 读取 spec 后无需再提问。

meng shao@shao__meng · 6月25日65

The Coming Loop @mitsuhiko 即将到来的 Loop 与我们让渡的判断力！在 Claude Code 构建者 Boris Cherny 和 OpenClaw 构建者 Peter Steinberger 几乎同时提出「Loop Engineering」的概念后，这篇对 Loop 的反思更值得认真阅读。 https://lucumr.pocoo.org/2026/6/23/the-coming-loop/ 把 Loop 区分为两层循环 1. 内层是 agent loop（模型说"完成"即止） 2. 外层是 harness loop——由 harness 判定"完成"是否为真，否则续接 session、注入任务、转交他机，把任务生命延长到模型本会主动停下的点之外。对 loop 的抗拒：循环放大了 LLM 代码的系统性缺陷 LLM 产出的代码本就过度防御、回避强不变量、用 fallback 兜底而非让坏状态不可表达（Karpathy 称其"恐惧异常"）。循环会放大这一倾向：每轮叠加一层局部防御，系统在看似更健壮的同时变得更难理解，越放手越严重。作者甚至判断，当下放手式 harness 产出的代码反而不如去年秋天——因为模型现在能连续无人干预运行数十分钟。 loop 真正有效的领域及共性移植（Bun 从 Zig 到 Rust、MiniJinja 到 Go）、性能探索、安全扫描、研究——共性是要么不产生新代码（只变换已有代码），要么产出无需长寿（POC、机械翻译）。关键在于 harness 续接所需的信号不必客观二元，只需"有用到足以驱动下一轮"。核心隐喻：从"机器"到"有机体" · 传统工程文化追求可剥开理解的确定性机器 · LLM 把我们推向"软件即有机体"——用机器写、用机器诊断施治、生产事故首步已是机器读日志提补丁并被另一机器 review 合入。我们治疗、监控、稳定它，但未必理解它。为何无法退出：安全与竞争的双重夹击即便你不 loop，攻击者与安全研究者会持续对你的软件 loop（curl 维护者已被 AI 报告淹没，防御方也不得不 loop 来分流复现）；竞争上，少数掌握机器编排的团队将以极小规模跑出过去几十人的速度。速度、试错、覆盖率至上的领域，循环几乎无可阻挡。最深的隐忧：认知依赖金钱依赖之外更危险的是认知依赖。若代码库由循环产出、review、打补丁、维持生命，一旦失去同类系统访问权（贸易限制、成本失控、或团队彻底丧失不靠机器理解代码的能力）将如何？这已在发生：人合并不完全能解释的代码，不借 LLM 就写不出 issue、聊不清问题。本质：判断与责任的让渡内层循环里人仍 steering、能学习；外层循环里"完成"信号失去意义，只被传递给另一台机器评判，人的角色退化为信使。作者立场清醒：问题不再是"是否会 loop"（答案已是"会"），而是"在循环的未来里，如何不让渡判断力、保留工程规则、确保人能持续监督、重新思考代码架构以维持理智"。他对 Pi 的态度亦如此——不抵制循环，但必须主动实验以理解如何让这个未来有界、可存活。

译文章将AI循环分为内层agent loop（模型说“完成”即止）和外层harness loop（外部判定是否真完成，可续接session）。循环放大LLM代码的过度防御、回避不变量等缺陷，每轮叠加局部防御使系统更难理解。有效领域（移植、性能探索）共性是不产生新代码或产出无需长寿。核心隐喻从“机器”转向“有机体”，人不再完全理解代码。深层隐忧是认知依赖：代码由循环产出、review，一旦失去同类系统访问权将无法维持。问题不再是“是否会loop”，而是如何在循环未来中保留判断力与工程规则。

宝玉@dotey · 6月25日64

我也遇到过让 AI 整理播客访谈会出现细节遗漏的问题，不过我的做法不太一样，我是同时生成2-3份稿子，然后选一份写的最好的作为底稿，然后把其他两份的内容合并进来。这样一方面避免遗漏，另一方面也避免偶尔抽卡失败生成了比较烂的稿子，因为如果稿子一开始就没写好，你再去追问也很难提升质量

译针对长达3小时播客访谈用AI生成文章时容易遗漏细节的问题，常见做法是连续追问“还有什么细节需要补充？”三次左右（甚至可做成Agent Skill）。但作者采用不同策略：同时让AI生成2-3份稿子，挑选最佳一份作为底稿，再将其它稿子的内容手动合并进来。这样既能避免细节遗漏，也能防止单次生成质量差导致后续追问难以提升质量。