🚨 AI News | TestingCatalog@testingcatalog · 5月10日35

Skills in action on Grok for iOS 👀 * not available yet

译iOS版Grok技能实战演示 👀 * 尚未开放

Codex for expenses

译Codex处理报销事务它自行下载月初至今的发票更新费用电子表格并填写实际表格使用Drive和Sheets插件进行状态跟踪通过Gmail插件追踪发票使用Chrome扩展程序处理实际表格及Drive上传自加入OpenAI以来我一直拖延此事 Codex仅用约20分钟就完成了所有工作！

elvis@omarsar0 · 5月10日56

More important takeaway: use both Markdown and HTML. Your agents will thank you for it.

译推文强调，在智能体工作流中结合使用 Markdown（LLM Wikis）和 HTML（Artifacts）至关重要。LLM Wikis 用于捕获和存储所有关键信息，为智能体提供工作基础；而 HTML Artifacts 则以动态、可交互的方式呈现这些信息，支持用户与智能体协同执行操作。两者结合能构建强大工具，实现收件箱清零、快速原型设计、深度研究、实验触发与信息管理等多样化功能。HTML Artifacts 并非替代 Markdown，二者协同能显著提升设计师、工程师及研究者的工作效率。

Berryxia.AI@berryxia · 5月9日76

YC CEO Garry的这套知识复利效应就像滚雪球一样！系统开源免费，逻辑清晰。强烈按头学习了！ Garry Tan（Y Combinator CEO）深夜 coding 到 2AM 的真实原因来了！ AI 让他重新变回 builder，亲手造了一个复利效应的个人 AI 操作系统——GBrain。他不再把 AI 当聊天窗口，而是当成了真正的“第二大脑 / 神经系统”。过去 5 个月，他用这个系统完成了 20+ 本书的深度镜像、每次会议的自动预习、实体自动传播更新，以及 100,000 页结构化知识的持续生长。核心案例拆解： 1. Book Mirror（书读我）：拿 Pema Chödrön 的《When Things Fall Apart》为例，系统把 22 章全部提取出来，每章同时生成作者观点 + 针对 Garry 个人生活（移民家庭背景、YC 工作、治疗师对话、创始人对话）的精准映射。整个过程 40 分钟完成，输出 3 万字双栏对照。后面每本书都会自动调用之前的镜像，上下文越来越厚。 2. Meeting Prep（会议自预习）：Demis Hassabis 来 YC 聊天前，2 分钟内系统就拉出 Demis 完整脑页、AGI 时间线观点、最新传记要点、与 Garry 观点的重叠/分歧，以及 3 个演示脚本和对话钩子。 3. Skillify 元技能：遇到重复工作流就说“技能化它”，系统自动把一次手动操作提炼成可复用 skill（含触发器、边缘案例、测试），注册到 resolver。 Book Mirror、Meeting Ingestion、Enrich 等 100+ skills 就是这样迭代出来的。架构极简清晰： - Thin Harness：OpenClaw / Hermes Agent，只负责路由，几千行代码。 - Fat Skills：每个 skill 是一个 markdown 文件，专注单一任务，可组合、可迭代。 - Fat Data：100,000 页结构化脑页（人、公司、会议、书、文章全部链接），每天 100+ cron 自动更新。 - 模型可换：Opus 4.7 1M 做 precision，GPT-5.5 做 recall，DeepSeek V4-Pro 做创意，按 skill 自动选择。 Garry 直接把整套栈开源：GBrain + GStack + OpenClaw / Hermes Agent，GitHub 上 87k+ stars 的 coding 框架也包含在内。他核心观点是：未来属于那些把 AI 建成复利系统的人，不属于只用大厂聊天工具的人。区别就像日记 vs. 真正的神经系统。对所有想把 AI 真正融入工作流、做个人知识管理、或者构建 Agent 系统的 builder 来说，这篇长文 + 开源项目干货拉满，值得立刻去读和 fork。

译Y Combinator CEO Garry Tan开源其个人AI操作系统GBrain，旨在将AI打造成具备复利效应的“第二大脑”。该系统通过“Book Mirror”、“Meeting Prep”等模块化技能，在五个月内深度处理了20多本书、自动预习会议，并管理着超10万页持续增长的结构化知识。其架构清晰，分为轻量路由层、可组合技能层与丰富数据层，并能按任务智能调用不同AI模型。Garry Tan强调，未来属于能构建此类复利系统的建造者，而非仅使用通用聊天工具的用户。

Peter Steinberger 🦞@steipete · 5月9日72

Peekaboo 3.0 is live. Biggest release since 2.0. ⚡ Action-first macOS computer use 👁️ Unified screenshot + UI detection 🧩 Cleaner JSON across CLI + MCP 🛠️ Better snapshots I started this last year, but the models just weren’t good enough. Now they are. https://peekaboo.sh

译Peekaboo 3.0 现已上线。这是自 2.0 以来最重要的版本。 ⚡ 以操作为先的 macOS 电脑使用体验 👁️ 统一的截图 + 界面检测功能 🧩 CLI + MCP 间更简洁的 JSON 交互 🛠️ 更好的快照功能我去年就开始了这项工作，但当时的模型还不够好。现在它们已经准备好了。https://peekaboo.sh

meng shao@shao__meng · 5月9日77

Perplexity 团队内部 Agent Skills 设计、迭代与维护之道 Perplexity Agents 团队的内部规范公开版，核心论点很反直觉：写 Skill 不是写代码，而是为模型构建上下文。把工程师写代码的本能直接套到 Skill 上，几乎一定会失败。 https://research.perplexity.ai/articles/designing-refining-and-maintaining-agent-skills-at-perplexity # Skill ≠ 代码，以 Python 信条和 Skill 反信条为例 · Python：Simple is better than complex，Skill：Skill 是文件夹，复杂性是特性 · Python：Explicit is better than implicit，Skill：激活靠隐式模式匹配 + 渐进披露 · Python：Sparse is better than dense，Skill：每 token 都要榨出最大信号 · Python：特例不应破坏规则，Skill：Gotchas 才是最高价值内容 · Python：容易解释的实现是好实现，Skill：容易解释的，模型已经会了 → 删掉 # Skill 的四重定义 1. Skill 是目录（不是单文件） · 标准结构：SKILL.md + scripts/ + references/ + assets/ + config.json · 复杂领域用多级层次。例：美国税法有 1945 个 IRC 条款，扁平加载比不加载效果更差；分三级嵌套后才可用。但层次本身有代价，需要导航工具（quick reference、自定义检索）来对冲间接性。 2. Skill 是格式 · frontmatter 必须有 name（小写、连字符、与目录同名）和 description。 · description 是路由触发器，不是文档。常见错误：写「This Skill does X」；正确写法是「Load when …」。 · depends: 用于级联依赖；运行时元数据可用辅助 JSON/YAML 隔离，避免污染上下文。 3. Skill 是可调用的 · 加载流程：load_skill() → 拷贝目录入沙箱 → 递归装依赖 → 剥离 frontmatter，仅暴露 body 与附属文件。 4. Skill 是渐进式的（这是最重要的成本模型） · Index：所有 Skill 的 name+description；~100 tokens/Skill；每次会话、每个用户、永远 · Load：SKILL.md body；~5,000 tokens；一次加载，会话内持续占用 · Runtime：scripts / references / 子 Skill；无上界；仅模型实际读取时 → 越靠上的层，每个字越贵。Index 是「奢侈品柜台」，Runtime 是「无限仓库」。 # 什么时候不需要 Skill 反复强调「Every Skill is a tax」。三类典型滥用： · 模型已会的：写一串 git 命令 → 是好文档，是坏 Skill。 · 重复 system prompt 的：通用知识应进全局上下文，不该走条件加载。 · 变化太快的：远端 MCP 工具版本频繁变 → Skill 会漂移导致幻觉。 · 判断单句是否该留的尺子：「没有这句话，Agent 会做错吗？」答否即删。引用 Pascal：「这封信写得长，是因为我没时间写短。」 —— 写短 Skill 很难；写得快的 Skill 大概率有问题。还引了一篇研究：LLM 自生成的 Skill 平均无收益，因为模型无法可靠地把"自己消费有用的程序性知识"写出来。 # 构建五步法（顺序不可调） Step 0 — 先写 Evals：源自真实查询、已知失败、邻域混淆。负例往往比正例更重要。 Step 1 — 写 Description（最难的一行）： · 以 "Load when…" 开头，≤ 50 词 · 描述用户意图（用真实抱怨语：「babysit」「watch CI」「make sure this lands」） · 不要总结工作流 · 唯一目标：路由准确，最小化对其他 Skill 的回归影响 Step 2 — 写 Body：跳过显然的；不要罗列命令序列；用意图陈述代替过程脚本。 ❌ git log; git checkout main; git checkout -b; git cherry-pick ✅ "Cherry-pick 到干净分支，保留意图解决冲突，落不下时说明原因。" 重点放 gotchas / 负例。 Step 3 — 用层次结构：条件性、重型、模板类内容拆到 scripts/、references/、assets/、config.json。 Step 4 — 迭代：用一个评测集做小词级调优（描述里一字之差就能引发路由级联）。 Step 5 — Ship。 # 维护：Gotchas 飞轮 Skill 是「仅追加为主」的： · Agent 错了 → 加 gotcha · 误加载 → 收紧描述 + 加负例 · 该加载没加载 → 加关键词 + 加正例 · system prompt 变了 → 检查冲突与重复从 80/20 走向 99.9% 的过程，几乎全靠 gotcha 列表生长，而不是改描述或加更长的指令。一旦 PR 改描述却没附 evals，"已经走偏了"。评测套件分四类 1. 加载评测：精度、召回、禁止加载（避免污染邻域） 2. 渐进加载评测：Skill 加载后是否正确读取附属文件（如 FORMATTING.md） 3. 端到端任务评测：跑完整 agent loop，用 LLM judge 按 rubric 打分 4. 跨模型评测：在 GPT / Opus / Sonnet 上同时跑（行为差异显著） # 关键 takeaway 1. 先 evals，后 Skill；负例与「禁止误载」与正例同等重要。 2. Description 是最难的一行，以 "Load when…" 起手。 3. Gotchas 是最高价值内容，从薄起步、随失败生长。 4. Action at a distance：新增 Skill 会悄无声息地降级现有 Skill —— 这是默认风险，不是边角情况。 5. 写 Skill 的能力本身在复利增长；任何按日/周/季重复的工作流，都是潜在 Skill。

译Perplexity 公开其Agent技能设计方法论，核心观点是技能设计并非传统编程，而是“为模型构建上下文”。其反直觉原则包括：技能是目录而非单文件，复杂性是特性；激活依赖隐式模式匹配；内容需榨取每token最大信号；记录陷阱（Gotchas）比罗列指令更有价值。设计遵循严格五步法，首要步骤是创建评估集，并以“Load when...”格式撰写精准描述进行路由。维护采用“仅追加为主”的飞轮，依靠持续添加Gotchas提升性能，并警惕新增技能可能无声降低现有技能性能的默认风险。

凡人小北@frxiaobei · 5月9日58

核心观点挺对我胃口： • Markdown 适合短文档，但超过 100 行就没人真看了。 • HTML 信息密度高：表格、SVG 图、交互、颜色、布局、代码注释、滑块、拖拽编辑器都能放进去。 • 对 agent 工作流尤其有用：spec、PR review、实现计划、研究报告、设计探索，都可以变成一个可读/可交互网页。 • 你不一定要做 /html skill，直接 prompt：“做一个 HTML 文件/HTML artifact” 就行。 • 最最最大的价值是让人重新进入 loop：你更愿意读、更容易判断、更能参与 agent 的方案。但人能在 loop 里还能待多久？

译推文主张在复杂文档和AI agent工作流中，HTML比Markdown更具优势。HTML信息密度高，能嵌入表格、SVG、交互组件和编辑器，适合用于编写技术规格、PR评审、研究报告等。用户无需精通HTML，可通过直接提示AI生成HTML文件。其核心价值在于促进人机协作循环：HTML文档更易阅读、评估和参与，从而让人更愿意介入并持续留在AI的工作流程中。关键挑战在于这种高效的人机协作模式能持续多久。

🚨 AI News | TestingCatalog@testingcatalog · 5月9日49

ICYMI: Connectors are now available on Grok mobile apps as well.

译最新动态：Grok移动应用现已同步上线Connectors功能。

宝玉@dotey · 5月9日75

http://x.com/i/article/2052903694237421568 # 使用 Claude Code：HTML 难以置信的奇效【译】原文： Markdown 已经成为 AI 智能体 (AI Agent) 与我们沟通时最常用的文件格式。它简单、便携、具备一定的富文本 (Rich text) 能力，而且极其容易进行人工修改。你甚至会发现，Claude 已经变得极其擅长在 Markdown 文件里用 ASCII (美国信息交换标准代码，这里指用纯文本符号拼凑成图表) 字符来画图了。但是，随着 AI 智能体变得越来越强大，我开始觉得 Markdown 变成了一种束缚。面对动辄上百行的 Markdown 文件，我根本没有耐心读下去。我想要更丰富的视觉展现、明亮的色彩和直观的图表，而且希望能够轻松地把它们分享给团队。另外，我现在越来越少亲自去编辑这些文件了。我更多是把它们当作需求文档 (Specs)、参考资料或是头脑风暴的输出结果。即使需要修改，我通常也是直接写提示词 (Prompt) 让 Claude 去改。这就让 Markdown 最核心的优势——易于人工编辑——荡然无存。因此，相比 Markdown，我开始更偏爱将 HTML 作为输出格式。我也发现 Claude Code 团队的其他成员正越来越频繁地使用 HTML。下面我想和大家聊聊背后的原因。（如果你想先看些直观的例子，可以点击这里查看大量示例：https://thariqs.github.io/html-effectiveness/ ，不过看完记得回来，听我继续讲讲为什么该这么做。） ## 信息密度 (Information Density) HTML 能比 Markdown 传达丰富得多的信息。它当然能处理像标题和简单排版这样的基础文档结构，但它的威力远不止于此，它还能完美呈现各种复杂信息，比如 - 用表格 (Tables) 展示数据列 - 用 CSS (层叠样式表，用于控制网页的外观和布局) 展现设计细节 - 用 SVG (可缩放矢量图形，一种基于代码的清晰图像格式) 绘制精美插图 - 用 script 标签嵌入代码片段 (Code snippets) - 结合 HTML 元素、JavaScript 和 CSS 来实现动态交互 - 结合 SVG 和 HTML 绘制清晰的工作流图表 (Workflows) - 用绝对定位和画布 (Canvases) 展示空间分布数据 - 用 image 标签直接插入图片我甚至敢说：只要是 Claude 能读懂的信息，几乎没有什么是不能用 HTML 高效展现出来的。这种特性让 HTML 成为了一种极为高效的载体，无论是模型向你传递深度的信息，还是你进行阅读审查，都无比顺畅。我发现，如果无法使用 HTML，模型往往会在 Markdown 里做一些极其低效的“骚操作”，比如硬用 ASCII 字符去画图表；或者——这也是我最哭笑不得的一种——像下面这张 Claude Code 截图里那样，用 Unicode (统一码) 字符来生硬地模拟颜色色块。 ## 视觉清晰度与易读性 (Visual Clarity & Ease of Reading) 随着 Claude 能够处理越来越复杂的工作，它写出的需求规格说明和实施计划也变得越来越庞大。在实际工作中，我发现自己基本不会去读超过 100 行的 Markdown 文件，更别提指望团队里的其他人去读了。但 HTML 文档就好读多了。Claude 可以通过选项卡 (Tabs)、插图、链接等视觉元素，把文档结构整理得井井有条，极其方便导航浏览。它甚至能做到移动端自适应，让你在手机等不同尺寸的设备上都能获得极佳的阅读体验。 ## 易于分享 (Ease of Sharing) 分享 Markdown 文件其实挺让人头疼的，因为大多数浏览器本身并不能很好地渲染它们。你通常只能把它们当作附件，硬塞进电子邮件或聊天消息里发给别人。但有了 HTML，只要你把文件上传到云端（比如传到云存储服务 S3 上），你就可以轻松地把链接分享出去。你的同事可以随时随地用任何设备打开它，并轻松作为参考。如果你的需求文档、分析报告或者代码审查说明是用 HTML 写的，别人真正去耐心阅读它的概率绝对会大幅提升。 ## 双向交互 (Two-way Interaction) HTML 允许你与文档进行真实的互动。例如，你可以让 Claude 在页面上加几个滑块 (Sliders) 或旋钮，用来直观地调整设计效果；或者提供一些选项，让你微调算法的参数，看看结果会发生什么变化。你甚至可以要求它加个按钮，让你把微调后的完美参数“一键复制”为提示词，直接粘贴回 Claude Code 里去。想了解更多关于这种双向交互的例子，可以去读读我之前关于“游乐场 (Playgrounds)”的帖子：https://x.com/trq212/status/2017024445244924382 ## 数据摄取与理解 (Data Ingestion) 为什么我们要用终端工具 Claude Code 来生成 HTML 文件，而不是直接用网页版的 Claude AI 或者 Claude Design 呢？最大的原因之一，就在于 Claude Code 能够摄取极其庞大的上下文 (Context) 信息。拿写这篇文章来说吧。我让 Claude Code 自动遍历我电脑里的代码文件夹，找出所有由它生成的 HTML 文件，对它们进行分组归类，然后生成一个全新的 HTML 页面，在里面用图表展示每一类文件的特征。你在这篇文章里看到的配图，就是这个工作流的直接产物。除了本地文件系统，Claude Code 还能通过你的 MCP (模型上下文协议，一种允许 AI 模型访问外部工具和私有数据的标准) 接入其他极其丰富的上下文信息，比如 Slack (团队通讯软件) 聊天记录、Linear (项目追踪工具) 任务看板等。它还能结合浏览器、Git 版本控制历史记录等多种来源获取背景知识。 ## 充满乐趣 (It’s Joyful) 用 Claude 制作 HTML 文档本身就是一件极其好玩的事。它让我感觉自己更深度地参与到了创造的过程中，光凭这份参与感，就足够有吸引力了。 ## 如何开始 (How to Get Started) 我其实有点担心，大家读完这篇文章后，会把它搞成一个专门的 /html 复杂技能指令或者类似的东西。虽然那样做可能也有价值，但我特别想强调的是：你根本不需要做任何繁琐的设置，就能让 Claude 为你生成 HTML。你只需要像平时聊天一样，直接告诉它：“给我做一个 HTML 文件”或者“生成一个 HTML 制品 (Artifact)”就行了。真正的诀窍在于，你要清楚自己希望这个制品能做什么，以及你会如何使用它。也许随着时间的推移，你会总结出一套自己的技能模板，但就目前而言，我强烈建议你直接从最简单的提示词开始，慢慢摸索它在不同场景下的奇妙用法。为了让大家有更直观的感受，我已经为各种不同的使用场景制作了许多 HTML 文件。你可以在这里查看所有示例：https://thariqs.github.io/html-effectiveness/ ，下面是对一些核心场景的概览。 ## 需求、计划与探索 (Specs, Planning & Exploration) 对 Claude 来说，HTML 是一块可以深入探讨问题的广阔画布。当接手一个新问题时，我不再指望它只给我丢出一个单薄的 Markdown 计划，而是期望它能生成一张由多个 HTML 文件交织而成的思考网络。比如，我会先让 Claude Code 进行头脑风暴，探索几种不同的实现方案；接着，我会让它选中其中一个方案深入展开，可能还会让它画些界面草图或者写几段核心代码片段；最后，当我觉得方向对了，我才会让它写出一份详细的实施计划。等我对计划彻底满意后，我会开启一个新会话，把这些积累下来的 HTML 文件全部喂给它，让它正式开始敲代码。在验证环节，我也会让负责检查的 AI 智能体会话读取这些 HTML 文件，这样它就能拥有更宏伟的全局视角，清楚我们到底想要实现什么。提示词示例： - 我还没想好新手引导页面 (Onboarding screen) 要走什么风格。请生成 6 种截然不同的方案——在布局、语气和信息密度上做出差异——并把它们放在同一个 HTML 文件的网格布局里，方便我并排对比。请在每个方案旁清晰标注它所做的取舍权衡。 - 请在一个 HTML 文件里创建一份详尽的实施计划。记得画一些视觉草图，展示数据流向，并补充上我可能需要重点审查的代码片段。排版要清晰，让人容易消化理解。适用场景： - 探索一段代码的其他实现方式 - 并行探索多种视觉设计方案 ## 代码审查与理解 (Code Review & Understanding) 在 Markdown 文件里生啃代码绝对是一件痛苦的事。但有了 HTML，我们就能优雅地渲染出代码差异对比 (Diffs)、详细的页边注释 (Annotations)、流程图 (Flowcharts) 以及模块结构图等。你可以用它来理解 AI 智能体写出的复杂代码，获取代码审查建议，或者在提交 PR (Pull Request，程序员提交代码合并请求时的说明) 时向评审人解释你的思路。我发现这种方式往往比 GitHub 自带的差异对比视图好用一万倍，现在我每次提交 PR，都会雷打不动地附带一个 HTML 格式的代码解读页面。提示词示例： - 帮我审查这个 PR，生成一个 HTML 制品来向我解释它的逻辑。我对数据流和背压逻辑 (Backpressure，指接收方处理不过来时向发送方发出减缓发送速率的反馈机制) 不太熟悉，所以请重点剖析这部分。请渲染出真实的代码差异，并在旁边加上行内注释。根据严重程度对你发现的问题进行颜色编码，还可以加上任何有助于传达概念的视觉图表。适用场景： - 创建 PR 的说明文档 - 审查同事或 AI 提交的 PR - 快速理解代码库中的某个特定复杂主题 ## 设计与原型制作 (Design & Prototypes) Claude Design 的底层逻辑就是 HTML，因为即使你最终产品的渲染终端不是网页，HTML 在表达设计理念方面依然具有无可匹敌的优势。Claude 可以先用 HTML 快速勾勒出设计草图，然后再把它翻译成你需要的编程语言，不管是 React、Swift 还是其他语言。你还可以用它来制作丝滑的交互原型，比如动画效果或用户操作链路。不妨试着让 Claude 帮你加上一些滑块和旋钮，这样你就能亲自上手，把细节微调到你心目中的完美状态。提示词示例： - 我想为一个新的结账按钮做个交互原型：点击它时，它会播放一段动画，然后迅速变成紫色。请生成一个带有几个滑块和选项的 HTML 文件，让我能反复测试这套动画的不同参数配置。记得给我提供一个“复制”按钮，方便我把试出来觉得完美的参数一键复制下来。适用场景： - 创建设计系统 (Design system) 的相关组件资产 - 直观地微调 UI 组件细节 - 将枯燥的组件库可视化展现 - 制作充满乐趣的动画交互原型 ## 报告、研究与学习 (Reports, Research & Learning) Claude Code 极其擅长整合海量的多源数据，并将它们提炼成可读性极强的报告。你可以让 Claude 去搜索你的 Slack 聊天记录、你的代码库、Git 提交历史甚至整个互联网，然后为你自己、你的领导或者你的团队生成一份一目了然的精美报告。你可以将它排版成一篇长篇 HTML 文档、一个带交互的解说页面，甚至是一个幻灯片/演示文稿 (Deck)。别忘了提醒 Claude 尽情使用 SVG 格式来绘制图表，这会让报告的视觉表现力瞬间拉满。例如，在我撰写关于提示词缓存 (Prompt Caching) 的深度文章时，我让 Claude 阅读了相关模块的 Git 历史记录，然后生成了一份深度的 HTML 研究报告，帮我系统梳理了我们在此期间对缓存逻辑做过的所有修改。提示词示例： - 我一直搞不懂我们的限流器 (Rate limiter) 到底是怎么工作的。请阅读相关代码，并为我生成一个单页的 HTML 讲解文档：包含一个令牌桶机制 (Token-bucket flow) 的数据流向图、3 到 4 段带有详细注释的核心代码片段，并在页面底部单列一个“常见陷阱 (Gotchas)”部分。请优化排版布局，确保别人只读一遍就能彻底弄懂。适用场景： - 总结某个复杂功能的工作原理 - 向我通俗解释一个晦涩的概念 - 给老板快速生成精美的本周工作汇报 - 给领导层出具直观的故障/事故复盘报告 - 自动绘制 SVG 插图、流程图和技术架构图有时候，单纯靠文字输入框很难准确描述你的复杂需求。遇到这种情况，我会让 Claude 专门为我手头上的工作，快速搭建一个“用完即走”的临时可视化编辑器。它不是一个成熟的产品，也不是一个可以反复利用的通用工具，仅仅是一个专为这批特定数据量身定制的单一 HTML 文件。这里的核心窍门在于，一定要在界面上设计一个导出功能：比如一个“复制为 JSON”或“复制为提示词”的按钮，这样你就能把你在这个精美 UI 里一顿操作后的成果，直接粘贴回 Claude Code 里继续下一步工作。提示词示例： - 我需要重新梳理这 30 个 Linear 任务单的优先级。请给我做一个 HTML 文件，把每个任务做成一张可拖拽的卡片，横跨分为“现在 (Now) / 接下来 (Next) / 以后再说 (Later) / 砍掉 (Cut)”四个栏目。你可以根据你的理解先帮我预先排序好。最后加一个“复制为 Markdown”的按钮，一键导出最终的分类排序结果，并且为每个分类补充一句简短的判断理由。 - 这里是我们的功能开关 (Feature flag) 配置文件。请为它生成一个基于表单的编辑器，按功能模块对开关进行合理分组，展示它们之间的依赖关系；如果我打开了一个开关，但它的前置依赖开关还处于关闭状态，请弹窗警告我。最后加一个“复制差异”的按钮，只导出我修改过的键值对。 - 我正在调优这个系统提示词 (System prompt)。请做一个左右对照的编辑器：左边是可编辑的提示词模板，变量槽 (Variable slots) 要高亮显示；右边放 3 个示例输入源，当我修改左边的模板时，右边要能实时渲染出填入变量后的最终效果。界面上还要有字符和 Token (大语言模型处理文本的基本单位) 的计数器，以及一个一键复制按钮。适用场景： - 对任何事物进行重新排序、分类分诊或分组（任务单、测试用例、用户反馈） - 编辑结构化配置信息（功能开关、环境变量、带有复杂约束条件的 JSON/YAML） - 借助实时预览功能调优提示词、模板或文案 - 整理数据集、批准/拒绝特定数据行、给示例打标签并导出选中结果 - 为长文档、录音文稿或代码差异添加详细批注，并导出批注内容 - 挑选那些用纯文字极其痛苦才能描述清楚的参数：颜色代码、动画缓动曲线 (Easing curves)、裁剪区域、Cron 定时任务表达式 (用于配置服务器定时执行任务的时间格式) 、正则表达式 (Regexes) 等。 ## 常见问题解答 (Frequently Asked Questions) 我一直在向很多人安利我是如何彻底倒向 HTML 阵营的，期间也经常被问到以下几个高频问题。这样不会很浪费 Token 效率吗？确实，Markdown 通常消耗的 Token 更少。但我发现，HTML 极强的表现力以及它极高的人工阅读率，让我整体上获得了好得多的输出结果。在 Opus 4.7 模型高达 100 万 (1MM) 的庞大上下文窗口里，多花的这点 Token 几乎是可以忽略不计的。那你现在什么时候还会用 Markdown？说实话，我现在几乎干什么都不用 Markdown 了，不过我承认我可能已经在“HTML 极端主义者”的道路上走得太远了。怎么查看生成的 HTML 文件？我通常直接在本地用浏览器打开它（你也可以直接让 Claude 帮你打开）。如果想把链接发给别人，直接传到云端 S3 上就行。这生成起来不比 Markdown 慢吗？确实更慢！生成 HTML 的时间可能是生成 Markdown 的 2 到 4 倍，但我亲身测试下来，生成的结果绝对物超所值，值得等待。那版本控制怎么办？老实说，这确实是 HTML 最大的痛点之一。相比起清爽的 Markdown，HTML 文件在版本控制工具里的差异对比 (Diffs) 非常杂乱，代码审查起来比较头疼。怎么让 Claude 生成的页面符合我的审美，不至于太丑？ Claude 内置的前端设计插件已经能帮它生成相当不错的 HTML 页面了。但如果你想让页面完全契合你们公司的品牌风格，你可以让 Claude 扫描你们的代码库，生成一个专属的“设计系统 HTML 文件”。之后，你可以把这个文件作为参考资料丢给 Claude，让它在生成其他 HTML 页面时“照猫画虎”，保持风格的高度一致。 ## 保持人机协同 (Stay in the Loop) 说到底，我觉得自己如此钟爱 HTML 的根本原因在于：它让我真切地感觉到，自己依然在这个循环之中，依然在与 Claude 并肩作战。我之前一度很恐惧，既然我连几百行的 Markdown 计划书都懒得仔细看了，那以后是不是只能两眼一抹黑，任由 Claude 自己去盲目做决定了？但现在我很高兴地说，因为有了 HTML，我感觉自己比以往任何时候都更紧密地参与到了这段人机协同的创作旅程中。希望你也能尽快体会到这种乐趣。

译作者认为，随着 AI 智能体能力的增强，Markdown 在处理复杂信息时显得低效且可读性差，转而推崇使用 HTML 作为输出格式。HTML 能提供更高的信息密度，支持表格、SVG、CSS、交互元素等，使复杂信息（如数据、设计、工作流）的呈现更清晰高效。HTML 文档在视觉清晰度、易于分享（通过链接）和双向交互（如参数调整）方面优势明显。Claude Code 能利用庞大的本地或 MCP 上下文（如代码库、Slack、Linear）生成 HTML。作者列举了在需求规划、方案探索、代码审查等场景下的应用示例，并强调无需复杂设置，直接提示 Claude 生成即可。

elvis@omarsar0 · 5月9日49

My favourite new stack: Agents + MCP + Markdown + HTML “Files over apps” is a vibe!

译作者提出以智能体、MCP、Markdown和HTML为核心的新工作流，秉持“文件优先于应用”理念。其核心是结合LLM维基与HTML制品：LLM维基用于捕获关键信息，赋能智能体完成有意义的工作；动态的HTML制品则以交互式、可扩展的方式呈现信息，并支持与智能体双向通信。这种组合能构建强大工具，实现收件箱清零、兴趣追踪、快速原型设计、深度研究及实验调度等多种功能，适用于设计师、工程师和研究人员等广泛群体。HTML并非取代Markdown，二者协同工作效果更佳。

meng shao@shao__meng · 5月9日53

当 Agent 自己审批 Agent：OpenAI 是怎么管住 Codex 的？当 Codex 这样的 Coding Agent 能读写仓库、运行命令、调用开发工具，它进入研发流水线，你如何同时保住效率和可控性？保证企业安全？ OpenAI 给出的答案是一套四层框架：受限执行 + 网络策略 + 身份治理 + Agent-Native Telemetry。指导原则：让低风险的日常操作零摩擦，让高风险操作必须显式停下来等审查。 https://openai.com/index/running-codex-safely/ # 四个控制面 1. 沙箱 + 审批 · 沙箱定义"技术执行边界"：能写哪里、能不能联网、哪些路径只读。 · 审批策略定义"什么情况下必须停下来问人"：通常是越界沙箱时触发。值得关注的新机制是 Auto-review 模式：一个独立的子代理负责审阅 Codex 的待执行动作和上下文，对低风险请求自动放行，仅在风险升高时才打断用户。这是用 AI 审 AI，把审批本身做成了智能层。 2. 网络访问 OpenAI 不允许 Codex 拥有开放出站权限。策略是三段式： · 允许已知合规目的地 · 拉黑明确不希望访问的域名（示例中是 pastebin. com，典型的数据外泄渠道） · 对陌生域名要求审批这是默认拒绝、显式允许的网络模型，配合 proxy 实施。 3. 身份与凭证控制点： · CLI 和 MCP 的 OAuth 凭证强制存入 OS keyring（macOS Keychain） · 强制通过 ChatGPT 登录 · 锁定到指定的企业工作区 UUID 效果：Codex 的所有活动都被绑回工作区级别的统一管控，并自动落入 ChatGPT 合规日志平台。这一步把"Codex 是谁在用、属于哪个组织"变成不可绕过的事实。 4. 命令规则不是把 shell 命令一视同仁。gh pr view、kubectl get 这类只读命令直接放行；危险命令显式拦截或要求审批。这种"按命令语义分级"的做法，让代理在常规工程流程里几乎感觉不到摩擦，同时保留对危险动作的强制刹车。 5. 配置分发 OpenAI 用三层分发：云端 managed requirements + macOS 托管偏好 + 本地 requirements 文件。其中 requirements 是管理员强制项，用户无法覆盖。这套机制保证全公司基线一致，又允许按团队/环境差异化测试。 # 真正的重点：Agent-Native Telemetry 传统日志的局限传统 EDR、审计日志只能告诉你"发生了什么"：进程起来了、文件改了、连接尝试了。但面对 AI Agent，安全团队真正缺的信息是 "为什么"——用户的原始意图、Agent 的推理路径、审批决策、工具调用链。 Codex 给的东西通过 OpenTelemetry 导出以下事件： · 用户原始提示词 · 工具审批决策 · 工具执行结果 · MCP 服务器使用情况 · 网络代理放行/拒绝事件也就是说，安全团队可以重建 "用户说了什么 → Agent 打算做什么 → 系统批准了什么 → 实际发生了什么 → 网络层是否拦下" 的完整因果链。 # 实战用法：AI 审 AI OpenAI 自己的做法非常具体：当 EDR 报警提示 Codex 行为异常，他们的 AI 安全三角分诊 Agent 会主动拉取 Codex 的遥测，自动区分三类情况： · 预期内的 Agent 行为 · 良性失误 · 真正需要升级响应的事件只把第三类推给人。这是一个"Agent 的行为由另一个 Agent 来解释"的安全运营范式。同一份遥测还被复用于运营分析：内部采用率、工具/MCP 使用分布、网络沙箱拦截频率、配置调优方向。一份数据同时服务安全和增长。

译OpenAI为确保Codex这类Coding Agent在研发流水线中的安全与可控性，设计了一套四层管控框架。核心原则是让低风险操作零摩擦，高风险操作必须显式审批。框架包括：通过沙箱和审批机制定义技术执行边界，其中创新的Auto-review模式利用子代理自动审阅Codex动作，实现AI审AI；实施默认拒绝、显式允许的网络策略；通过身份与凭证管理将Codex活动绑定至企业工作区并纳入合规日志；以及按命令语义分级放行或拦截。真正的重点是Agent-Native Telemetry，它通过OpenTelemetry导出用户意图、Agent推理路径、审批决策等完整因果链，弥补了传统日志无法解释“为什么”的缺陷。这份遥测数据既用于安全运营，如由AI安全三角分诊Agent自动分析EDR警报并分类响应，也复用于内部运营分析，实现安全与效率的统一。

🚨 AI News | TestingCatalog@testingcatalog · 5月9日63

Hooks support is coming to the Codex app as well! > Hooks are an extensibility framework for Codex. They allow you to inject your own scripts into the agentic loop.

译Hooks支持即将登陆Codex应用！ > Hooks是Codex的可扩展性框架。它允许您将自己的脚本注入智能体循环中。

OpenRouter@OpenRouter · 5月9日62

New in the OpenRouter Agent SDK: human-in-the-loop tools. Auto-resolve routine tool calls. Pause high-stakes ones for review. Return a value to keep the agent running. Return null to surface the call to your app for human input.

译OpenRouter Agent SDK 新增功能：人工介入工具。自动处理常规工具调用。暂停高风险调用以供审核。返回值可保持代理运行。返回 null 则将该调用提交至您的应用以获取人工输入。

Elon Musk@elonmusk · 5月9日75

Grok upgrades

译Grok 升级 [引用 @grok]：... 今天就在 iOS、Android 和 http://grok.com 上的所有计划中添加您的连接器到 Grok。

elvis@omarsar0 · 5月9日64

LLM Wikis + HTML Artifacts are insanely powerful. You should seriously consider this in your workflows. LLM Wikis captures all the important information that lets you and your agents do meaningful work. HTML artifacts present that information in interesting ways that allow you to take important actions along with your agents. My HTML artifacts sit on top of my LLM wikis. They are dynamic and are easily extended as needs arise. I have hooked my Artifacts to talk to my agents, and similarly, the agents can talk to artifacts. This has allowed me to build powerful artifacts that reduce my inbox to zero, keep me updated on any topic of interest, fast prototyping, do deep research, design/trigger new experiments, generate figures to improve understanding, schedule research, search relevant information, discover topics, and so much more. What you see in the clip is not a website. It's a simple interactive HTML artifact. HTML artifacts are useful for designers, engineers, researchers, students, and anyone working with agents. Lastly, HTML doesn't replace Markdown. They are a much better combination working together.

译LLM Wikis用于捕获关键信息，赋能用户与智能体进行有意义的工作。HTML Artifacts则以动态、可交互的方式呈现这些信息，支持与智能体双向通信。两者结合可构建强大工具，实现收件箱清零、实时更新关注领域、快速原型设计、深度研究、实验设计与触发、生成解读图表、安排研究计划、搜索相关信息及发现新主题等功能。文中展示的交互界面并非传统网站，而是轻量级HTML Artifact。该组合方案适用于设计师、工程师、研究人员、学生及所有使用智能体的工作者，且HTML与Markdown可互补协同，形成更优工作流。

🚨 AI News | TestingCatalog@testingcatalog · 5月9日59

ClickUp has launched Brain², which automatically wires in your company's projects, org setup, and decisions as context for any frontier model you choose. It allows you to pick models like Claude 4.7, GPT 5.5, or Gemini 3.1, and Brain compresses everything your team knows before the model ever sees a prompt. > Preferences Memory - Brain retains your role in the org, team, and format preferences across every session > MCP live - connects Gmail, GitHub, Figma, and Slack natively, no middleware needed > Brain Slides - polished decks from one prompt, built on designer-authored templates

译ClickUp发布Brain²工具，能自动将公司的项目、组织设置和决策作为上下文，集成到用户选择的任何前沿AI模型中。用户可选取模型如Claude 4.7、GPT 5.5或Gemini 3.1，Brain在模型处理提示前压缩团队的所有知识。关键特性包括Preferences Memory保留用户在组织中的角色和格式偏好；MCP live原生连接Gmail、GitHub、Figma和Slack，无需中间件；Brain Slides能从单个提示生成基于设计师模板的精致演示文稿。

DogeDesigner@cb_doge · 5月9日67

Grok connectors are now available on the Grok iOS app. This makes Grok much more useful in everyday work. It can fetch emails, improve slides, organize notes, help with calendars, and connect directly with the apps you already use. Available connectors: • Gmail • GitHub • Linear • Notion • Google Calendar • Google Drive • Outlook • Outlook Calendar Try it now!

译Grok连接器现已在Grok iOS应用中推出。这让Grok在日常工作中实用得多。它可以获取电子邮件、改进幻灯片、整理笔记、协助处理日历，并直接与你已使用的应用连接。可用连接器： • Gmail • GitHub • Linear • Notion • Google Calendar • Google Drive • Outlook • Outlook Calendar 立即尝试！

Tibo@thsottiaux · 5月9日72

You can just migrate things

译你可以直接迁移东西

Perplexity@perplexity_ai · 5月9日78

We've published our internal manual for building agent skills. Skills require a new way of thinking for developers. https://research.perplexity.ai/articles/designing-refining-and-maintaining-agent-skills-at-perplexity

译我们已发布构建智能体技能的内部手册。开发者需要以全新思维方式构建技能。 https://research.perplexity.ai/articles/designing-refining-and-maintaining-agent-skills-at-perplexity

Berryxia.AI@berryxia · 5月8日63

从头到尾比我们吃预制菜狠多了！然后一发赚不到的行踪。 13个账号就把AI技能市场彻底毒穿了，575个恶意插件正伪装成你的最佳帮手，等着把电脑变成黑客的私人提款机。 Hugging Face和ClawHub上这些工具看起来能让AI代理瞬间变强，实际却针对Windows和macOS偷偷安装木马、矿工和窃取器，还用隐藏命令跟间接提示注入完全绕过检测。大家现在都急着给代理装各种技能，以为自己在加速解放双手干大事。结果最基础的信任链条已经被轻松击溃，黑客用这么点资源就把整个生态变成了最大攻击面。 AI时代真正的危险，从来不是机器多聪明，而是我们把权限交得太随意。

译Hugging Face和ClawHub平台出现大规模恶意AI技能投放攻击。攻击者仅通过13个账号上传了超过575个伪装成有用工具的恶意插件，这些插件针对Windows和macOS系统，实际会安装木马、挖矿程序或信息窃取器。攻击采用隐藏命令和间接提示注入等技术绕过安全检测。此事件暴露了AI技能生态系统的根本性安全风险：用户在急切赋予AI代理更多能力时，往往随意安装未经验证的技能，导致最基本的信任链条被轻易击溃，使整个生态成为巨大的攻击面。真正的危险并非源于AI本身，而在于用户过于随意地交出了系统权限。

小互@xiaohu · 5月8日73

这有点牛P OpenAI 上架了 Codex for Chrome 浏览器扩展让 Codex 可以直接操作你已登录的网站，执行任务。它用的是你已经登录好的 Chrome，所以那些需要账号才能进的后台、CRM、公司内部系统，它都能直接进去操作不用你重新登录或者给它密码... 它会自己开一个独立的标签组干活，不打扰你正在浏览的页面，要做敏感操作（点提交、下载文件、看你的浏览历史）之前会先问你一句。适合让它跑的活儿：登几个网站查点东西、把表单填好等你确认、读 dashboard 写个总结、把一堆乱七八糟的 tab 整理一下。

译OpenAI推出Chrome浏览器扩展“Codex for Chrome”，该工具能利用用户当前的浏览器登录状态，直接操作需账号访问的后台、CRM等受保护页面执行任务，无需额外提供密码。扩展在独立标签组中运行，不影响用户当前浏览，并在执行提交、下载等敏感操作前请求用户确认。典型应用包括跨网站查询信息、预填表单、读取仪表板并生成摘要等。

Berryxia.AI@berryxia · 5月8日50

兄弟们！用它每天花5分钟看邮件+XCrawl 24 小时内给我快速抓去执行网站信息！这套组合拳我强推！！！我现在每天XCrawl结合我的小龙虾和我自己的一些应用里面可以说实话有点“如虎添翼”的感觉。做一些调研报告也可以使用，就像黄总说的是真的省Credit，基本免费的1000 credit 可以用很久😂！真的不知道他们能赚到钱嘛😂

译用户推荐结合XCrawl和AI工具处理日常任务，每天仅用5分钟查看邮件，XCrawl在24小时内快速抓取网站信息执行任务。该组合显著提升效率，尤其适用于制作调研报告，能节省类似GPT服务的Credit消耗，免费额度可用较久，并对服务商盈利模式表示好奇。

TestingCatalog News 🗞@testingcatalog · 5月8日45

SPECEXAI 🚨: Grok Build, xAI's new coding desktop app, is being prepared for release on macOS, Windows, and Linux! > It will support planning mode, Plugins, Skills, and MCPs. > Will be able to work with the Git tree, spawn dev servers, and work with a built-in browser. SOON!? 👀

译SPECEXAI 🚨: Grok Build——xAI全新的编程桌面应用，正在准备面向macOS、Windows和Linux发布！ > 它将支持规划模式、插件、技能和MCP。 > 能够操作Git树、启动开发服务器，并使用内置浏览器。即将到来！？👀

Greg Brockman@gdb · 5月8日73

Codex can now drive Chrome tabs in the background:

译Codex for Chrome插件正式发布，支持在Windows和Mac系统上使用。该插件允许Codex在后台独立的Chrome标签页中自动执行任务，用户可同时正常使用浏览器。其原理是为每个任务创建独立的标签组，任务完成后自动清理，仅在需要时将标签页交还用户审核。核心应用场景包括：在需登录的网站内进行深度研究、向CRM或CMS等系统进行大规模数据迁移，以及在管理后台和内部工具中自动化重复工作流程。此插件作为一个通用连接器，能在程序化覆盖不足的场景中串联起端到端的工作流。

Orange AI@oran_ge · 5月8日74

朋友捣鼓出来了一个给 agent 用的网盘，能自动同步各种 Agent 的记忆、 skill、文件.... 支持claude code/codex/cursor/..各种主流的工具，以及各种主流的网页应用直接开源了出来： http://github.com 他也提供了一个部署好的版本，可以直接用 http://www.neudrive.ai 免费版的已经够绝绝大多数的使用场景了如果是付费版，付款的时候输入vivo50，可兑换3个月的免费使用

译开发者开源了一款专为AI Agent设计的网盘NeuDrive，能够自动同步Agent的记忆、技能和文件。该工具支持Claude Code、Codex、Cursor等主流开发工具以及多种网页应用。项目已在GitHub开源，同时提供了可直接使用的部署版本。免费版已能满足绝大多数使用场景，付费版在付款时输入优惠码“vivo50”可兑换三个月免费使用权。

宝玉@dotey · 5月8日74

OpenAI 给 Codex 推出了 Chrome 扩展，让它能直接在浏览器里干活。Mac 和 Windows 用户从今天起可以在 Codex app 里安装 Chrome 插件，让 Codex 直接在浏览器里执行任务，并且支持后台多标签并行运行，不会霸占你正在用的浏览器界面。 Codex 是 OpenAI 的编程 agent，之前主要活动范围是终端、IDE 和云端。这次进入浏览器后，它能处理那些必须登录才能完成的活儿，比如查内部后台、刷 dashboard、在 CRM 里更新客户信息、走完需要点好几个页面才能完成的复杂表单流程。工作方式上，Codex 通过写代码、跑代码来操作页面。一个任务如果涉及多个工具，它会自己挑：能用现成插件搞定就用插件，必须登录的网站就走 Chrome，需要时两边混着来。 OpenAI 给出的典型用例包括调试浏览器里的业务流程、做调研、更新 CRM 记录、处理结构化页面里的重复数据录入。今天就能在 Codex app 里启用，欧盟和英国暂未开放，OpenAI 表示后续支持。

译OpenAI 为其编程助手 Codex 推出了 Chrome 浏览器扩展。该扩展现可供 macOS 和 Windows 用户在 Codex 应用中安装，使 Codex 能直接在浏览器后台并行处理多标签页任务，且不干扰用户当前界面。此举将 Codex 的能力从终端、IDE 和云端延伸至浏览器环境，使其能够处理需要登录的网页操作，例如访问内部后台、更新 CRM 记录或完成多步骤表单流程。它通过编写并运行代码来操作页面，并自动组合使用现有插件或通过 Chrome 处理登录任务。典型应用场景包括调试业务流程、进行调研和处理重复性数据录入。目前该功能已在 Codex 应用中提供，但欧盟和英国地区暂未开放。

meng shao@shao__meng · 5月7日70

Apify mcpc 与 x402：给 AI Agent 装上"自动付款的钱包" mcpc 是 Apify 自家的通用 MCP 客户端 CLI，支持 x402 支付协议，"agentic payments" 也在支持范围内。传统 SaaS 计费(Stripe + API key + 配额)是为人类设计的：注册、绑卡、审批。agent 调用付费 API 时，这套流程要么靠人预先打通，要么需要 human-in-the-loop。x402 把"支付"压缩成一次 HTTP 往返加一个签名，真正具备了让程序自主交易的形态，mcpc 是这个想法目前最完整的端到端方案。

译Apify发布的通用MCP客户端CLI工具mcpc，集成了x402支付协议，旨在解决AI Agent调用付费API时的手动计费瓶颈。传统SaaS计费流程依赖人工注册、绑卡和审批，而x402协议将支付压缩为一次HTTP往返加签名，使程序能自主交易。mcpc为Agent提供加密钱包，当调用付费服务遭遇HTTP 402状态码时，可自动签名完成支付，无需人工干预。该工具支持Claude Code等MCP兼容的Agent，用户可使用USDC为钱包充值并连接x402兼容服务。

TestingCatalog News 🗞@testingcatalog · 5月7日55

META 🚨: An upcoming always-on AI Agent called "Hatch" from Meta will be available on a waitlist and grounded in social data from Instagram and Facebook. > According to The Information, Meta is targeting internal testing of Hatch by the end of June, with mock environments built to resemble Reddit, Etsy, and DoorDash for training in tool use behavior. > The Financial Times points to Muse Spark, Meta's new assistant-tier model family, as the eventual backbone, with Anthropic's Claude Opus 4.6 and Sonnet 4.6 reportedly serving as a transitional layer in the meantime.

译Meta即将推出名为“Hatch”的常驻AI智能体，目前已开放候补名单。该智能体将基于Instagram和Facebook的社交数据进行训练与信息落地。据披露，内部测试计划于6月底启动，Meta为此构建了模拟Reddit、Etsy和DoorDash的环境，以训练其工具使用行为。技术架构方面，最终将由Meta自家的Muse Spark模型系列作为核心支撑，而在过渡阶段，将暂时采用Anthropic的Claude Opus 4.6和Sonnet 4.6模型作为中间层。

Alibaba Cloud@alibaba_cloud · 5月7日56

Tired of chaotic AI Skill management? Skills Registry solves: 🔒 Secure external Skills with AI guards 📦 Centralize & version control assets 🚀 Zero-deploy private registry 🔄 Auto-rollback & fine-grained perms Stop ZIP-sharing. Start governing. ️ Learn more: https://int.alibabacloud.com/m/1000412751/

译厌倦了混乱的AI技能管理？技能注册中心解决： 🔒 通过AI防护保障外部技能安全 📦 集中化与版本控制资产 🚀 零部署私有注册中心 🔄 自动回滚与细粒度权限停止ZIP共享。开始治理。了解更多：https://int.alibabacloud.com/m/1000412751/

meng shao@shao__meng · 5月7日77

2026 年的 Coding Agent 应该是什么样？Amp 新版 CLI：Neo 发布 @AmpCode https://ampcode.com/news/neo 从"陪伴式 Agent"转向"长链路 Agent" 呼应 Amp 团队之前的宣言 The Coding Agent is Dead，新方向是： · longer leash —— 减少人工介入 · run everywhere —— 不再绑死在一个终端、一个窗口 · prompted from anywhere 终端不会消失，但只是"你想让 Agent 紧贴身边时"的一个入口。Neo 是这个新架构的第一块拼图。 # 关键能力变化 1. 远程控制本地 CLI 启动的 thread，可在 ampcode. com 上实时观看、发消息、入队/出队、取消任务。这是整次重写的核心动机——让 CLI 不再是孤立进程，而是可被远端编排的节点。 2. 自动 Compaction，告别手动上下文管理 · 上下文用到 90% 时，自动总结当前 thread → 开新窗口 → 继续工作。 · 之前的 handoff 功能直接砍掉。 · 理由：前沿模型已经能自己处理压缩，不需要再让用户盯着 token 百分比。 3. 插件系统（Plugin API 正式发布） .amp/plugins/ 下放一个 TS 文件即可扩展。能力涵盖： · 监听事件（tool call、生命周期） · 注册自定义工具 · 注册命令面板动作 · 调起 UI（notify / confirm / input / select） · 调用 AI 做 yes/no 分类（amp. ai.ask）示例是一个 ask_user_choice 工具，让 Agent 主动让用户选择路径——反向把"提问权"交给 Agent，体现 Agent 自主性增强的趋势。 4. 队列与 Steering（引导） · 默认行为变成排队：Agent 工作时发消息不再打断，而是入队。 · Steering：插队机制——下一次工具结果回传时立即注入消息，而不必等 Agent 真正空闲。 · Esc Esc 仍可硬中断。设计哲学：模型工作时间更长，少量打断比频繁中断更高效。 5. 权限模型的根本性反转最有争议、也最值得注意的一点： Amp 默认不再询问权限。原本的 --dangerously-allow-all 成了默认行为。理由具说服力： · 一年前，工具调用还能靠字符串匹配（如查 rm -rf）来拦。 · 现在模型并行写 5 个 20 行 Python 脚本完成任务，静态分析破坏性已不可行——表面安全实为虚假安全感。 · 加上 skills、自定义 scripts、组织级策略千差万别，与其内置一套劣质规则，不如把权限完全交给 Plugin API。老配置（amp.permissions、guardedFiles.allowlist 等）会被作为内置插件继续生效，向下兼容。 6. 性能改造（5000 条消息 thread 实测） · CPU 均值：84.1% -> 17.4%，下降 -79% · 内存空闲占用：1814 MB -> 540 MB，下降 -70%

译Amp发布CLI工具Neo，标志着Coding Agent从“陪伴式”转向“长链路”新方向，核心是减少人工介入、支持随处运行与触发。关键更新包括：实现本地线程的远程控制与编排；引入自动上下文压缩，淘汰手动管理；正式发布Plugin API，支持扩展工具与交互；采用队列与引导机制优化工作流；权限模型彻底反转，默认允许所有操作，将安全控制权移交插件系统；性能大幅提升，CPU与内存占用显著下降。此次更新旨在构建更自主、高效且可扩展的智能编程代理架构。

向阳乔木@vista8 · 5月7日67

Refero Styles：给AI Agent用的前端设计参考网站。 1. 输入网站名，或扔一个 URL ，自动提取网站的设计风格，形成DESIGN.md文件。 2. 收录ElevenLabs、Apple、Linear、Cursor、Stripe、Raycast等大量优质网站Design文档。 3. 提供了一个Refero MCP，收录了大量真实产品的截图和完整用户流程，让AI Agent 写代码前，先搜索、研究参考我觉得第三条有点牛，安装测试下先。网站见评论区

译Refero Styles是一个为AI Agent设计的前端参考网站，允许输入网站名或URL自动提取设计风格并生成DESIGN.md文件。它收录了ElevenLabs、Apple等优质网站的Design文档，并提供Refero MCP，包含真实产品截图和用户流程，让AI Agent在编码前参考以提升效率。

向阳乔木@vista8 · 5月7日75

http://x.com/i/article/2052185467773202433 # Al Agent装进口袋：TRAE SOLO移动端上手全攻略手机上如何随时随地用 AI Agent 做任务？大家一般会在电脑安装 Happy 或 Tailscale，手机上还要安装Happy、Termius等工具，配置起来也相对麻烦。最近字节TRAE SOLO 移动端正式发布，完美解决了小白用户的这个痛点。而且三端（App / Web / 桌面端）首次向全量用户开放，不再需要免邀请码，直接能用。测试发现，竟然还支持第三方模型，能安装各种技能（Skill），可用性很高。重点说说移动端，我觉得是这次发布的最大亮点。 ## 移动端安装配置目前 TRAE SOLO 已经上架国内 App Store。 1、下载安装 TRAE SOLO手机端并登录账号 2、电脑端和手机端用同一个账号登录，然后电脑端点左下角头像->设置->SOLO 移动端。扫码安装后后打开下面两个选项。设置完，手机就能访问电脑上创建的项目，哪怕出去玩不带电脑，也能继续连接电脑工作。一开始没理解MTC是什么模式，看到下面的Slogan就懂了： More Than Coding （简称 MTC）这个说明还挺有必要的。比如很多人看到 Claude Code 这个名字就被劝退了。 AI Agent 真的很强大，不只是编程厉害。任何长程复杂任务，只要搭配合适的技能（Skill），基本都可以搞定。 TRAE SOLO 估计也是想传递这个想法。下面演示一些案例，可能更直观。 ## Skill安装并调用 TRAE SOLO 电脑端安装的技能（Skill），手机端也可以调用。点击界面左上角的「技能」，进入技能安装和管理界面，可上传技能或技能市场直接添加。比如搜索“data-analysis”，添加TRAE SOLO官方的数据分析技能。上传 X 平台最近 90 天的数据 CSV，输入：“这是我的X最近的数据，做一个全面的数据分析洞察。” 分析后生成一个详细的 Markdown 文件，点击可直接查看。从中发现了一些有趣的洞察： - 发帖越多通常越能拉曝光，但最佳效率区间更接近 3-5 条/天，不是单纯越多越好。 - 周三平均互动率最高，周四平均涨粉最高，周六最适合冲曝光。 - 90天中44%新增关注来自前10个高涨粉日，涨粉靠帖子爆发。 ## 让TRAE SOLO支持飞书强烈建议打开下面设置，能调用飞书各种功能，比如创建飞书文档、多维表格、日程等等，如虎添翼。电脑端点设置->外部应用授权->飞书（海外可用Lark）做个简单测试，跟 TRAE SOLO 语音对话，让创建个晚上6点的日程。执行过程，会弹出卡片询问时区等要求，点选确定，日程创建成功。支持飞书后，个人感觉最实用的是飞书文档，随时跟TRAE SOLO对话产出文档，方便沉淀、分享、协作。后面几个案例，我都要求写入飞书文档。 ## 纳瓦尔最新播客和观点想必很多朋友都读过《纳瓦尔宝典》。但这本书的英文版出版于2020年，中文版出版于2022年。好多年过去了，纳瓦尔有什么新的播客访谈，又有什么新观点？手机语音跟 TREA SOLO 对话，让帮搜集整理一份资料。果然有不少新观点，例如： - AI 让“写代码”从纯执行转向“用自然语言表达意图 + 迭代验证”，核心竞争力更偏向“判断力/品味/定义问题” - 杠杆持续增强（代码→媒体→资本→AI），回报更非线性。 - 用行动驱动学习，循环是「做 → 停 → 反思 → 调整 → 再做」 > 纳瓦尔近一年的访谈和观点 > https://xiangyangqiaomu.feishu.cn/docx/Dqmkdzav8o5jgOxWmsNcdir1nTg ## Github 项目查看与安装好友Tw93开发了很多好用的工具和Skill，都放在他的Github里。我让 TRAE SOLO 整理下输出一份飞书文档，方便自己和他人查看。 > 查看tw93的Github项目，从Star由高到低，列10个项目和介绍，写入飞书文档文档地址： > https://xiangyangqiaomu.feishu.cn/docx/JAXqdaUkBo1v7PxFmPoctoZinBh 如果你对哪个感兴趣，可以让 TRAE SOLO 帮你安装，比如让它安装上面的两个Skill 是不是很简单，任何Github项目，都可以丢链接让TRAE SOLO安装。 ## 学习辅助 TRAE SOLO 这种 AI Agent 工具，除了写代码和办公，还有很多使用场景，拿学习举例。如果想研究 AI 最新进展，除 OpenAI 和 Anthropic 等公司的官方博客外，推荐读 Huggingface 周热门论文。 > https://huggingface.co/papers/ 你只需跟 TRAE SOLO 说：“整理Huggingface上周 Top10 论文，写入飞书文档。” 没多会儿，论文简介、arXiv地址，按投票人数由高到低整理好，你只需要挑感兴趣的读就行。读不懂也没关系，直接跟一句：“解读第 x 篇论文”。 > https://xiangyangqiaomu.feishu.cn/docx/PPf2dhht2oaICSxH67acXw8QnSd 再比如孩子快考英语了，单词薄弱，直接让TRAE SOLO 生成常见必考单词复习资料。 > https://xiangyangqiaomu.feishu.cn/docx/MfRXdjcMPo9D4bxj0IrcTdLxnld ## 第三方模型配置如果想用其他 AI 模型，TRAE SOLO电脑版可以配置，支持几乎所有第三方模型。比如我配置了DeepSeek V4 Flash，跑一些简单任务，又快又好。还配置了火山引擎 Plan，充分榨干订阅 Token，不浪费。手机端可以接电脑上的会话继续聊。但好像还不支持选择电脑端配置好的第三方模型，期待后续优化。 ## 自动化任务之前看到个非官方调研，发现很多人用小龙虾和 Hermes 等工具，最多使用场景就是看 AI 新闻简报，再或者就是股价监控等。如果你没装这些工具，直接用 TRAE SOLO 就能搞定。在界面左上角点“自动化”->任务模版，直接添加，然后设定推送时间即可。运行效果如下：当然，你也可以手动创建你的自动化 Skill。 ## 电脑端安装（竟有Windows版）这年头支持 Windows 客户端的 AI 工具真的不算多。想玩 AI ？先配一台 Macbook 或 Mac mini，哈哈哈。 TRAE SOLO 不仅有 Mac 版客户端，还有 Windows 版，这点要给好评。官方下载 - 国内 https://www.trae.cn/ide/download - 国际 https://www.trae.ai/download ## 写在后面说实话，AI Agent 工具这一年冒出来太多了，但大部分都只能在电脑前用，稍微有点割裂。电脑上跑了一半的任务，出门就断了。 TRAE SOLO 这次把移动端做出来，而且是三端同账号、同项目、同会话，体验上确实跨了一步。手机不再只是"看一眼结果"，而是真的能发起任务、安装技能、调用飞书、语音对话，把 AI Agent 从桌面搬进了口袋。文章只展示了数据分析、信息整理、学习辅助、自动化这几个场景，但 AI Agent 的能力远不止于此。它的上限，取决于你怎么用、用在哪。如果你身边有朋友还觉得 AI 只是"聊天机器人"，把这篇转给他。 More Than Coding，一切刚刚开始。

译字节推出的TRAE SOLO AI Agent工具现已向全量用户开放App、Web和桌面三端，实现跨设备无缝衔接。其移动端支持访问电脑项目、调用已安装技能并执行任务，演示了数据分析、信息整理、学习辅助及自动化等场景。工具支持第三方模型和技能扩展，并与飞书深度集成，便捷创建文档和日程。其“More Than Coding”理念强调AI Agent能处理各类长程复杂任务，而不仅限于编程。

TestingCatalog News 🗞@testingcatalog · 5月7日57

GOOGLE 🚨: Gemini Agent will arrive with support for Scheduled Actions and Skills. Most of the task examples are focused on working with connectors, research tasks, and more. > Declutter your inbox > Prepare for the meeting > News digest > Bill tracker > Ghost writer Gemini will automatically use relevant skills 👀

译GOOGLE 🚨: Gemini Agent 即将推出，支持定时任务和技能调用。大部分任务示例聚焦于连接器协作、研究任务等功能。 > 整理收件箱 > 会议准备 > 新闻摘要 > 账单追踪 > 代笔写作 Gemini将自动调用相关技能 👀

ClaudeDevs@ClaudeDevs · 5月7日64

In Claude Managed Agents, we’ve added multiagent orchestration, an outcomes loop for rubric-driven self-improvement, dreaming for self-learning, & webhooks.

译在Claude Managed Agents中，我们新增了多代理协同编排、基于评估标准的成果自改进循环、用于自学习的模拟训练以及网络钩子功能。

TestingCatalog News 🗞@testingcatalog · 5月7日66

Besides Dreams, Claude Managed Agents got multiagent orchestration, outcomes loop, and webhooks! Agents are new apps 👀

译除了Dreams功能，Claude托管智能体还获得了多智能体编排、结果循环和网络钩子！智能体就是新应用 👀

elvis@omarsar0 · 5月7日60

arXiv Papers → LLM Artifacts This is how I keep up with AI research now. It's like having access to the most personalized arXiv feed. Automations run everyday to curate papers based a set of rules and insights. Curated papers are indexed and power the artifacts. Agent convert papers to LLM wikis (based on @karpathy idea), which means insights are indexed and easily searchable and reusable. I feel like LLM Artifacts is the natural evolution to LLM Wikis. It's about making that knowledge actionable. Artifacts are customizable via agents. Artifacts can interact with agents and are dynamic in nature. Anything can be injected into the artifact as needed (insights, components, suggested experiments, action items, etc). I can take action on Artifact items with my agent orchestrator (Electron app). So I can ask questions about any paper and automate experiments in the background right from within the artifact. This is more than a visual. It's not a single prompt. It's several proactive agents coordinating to surface interesting facts, knowledge, and insights that I can act on a researcher. Agents are not just for generating useful artifacts, they are useful to keep learning and staying on the cutting edge of knowledge. Stay tuned for more.

译作者通过自动化流程每日筛选arXiv论文，并利用智能体将其转化为可交互的“LLM Artifacts”。这一系统基于LLM Wikis概念演进，使论文知识可操作化：Artifacts支持动态注入见解、组件及实验建议，并能通过智能体协调器直接提问或自动化执行实验。其核心在于通过多智能体主动协作，持续挖掘可行动的知识，帮助研究者高效学习与跟进前沿。

Berryxia.AI@berryxia · 5月7日66

Agent team 各自展示技能！来吧！

译Downy是一个开源的自托管多agent协作平台，运行在Cloudflare Durable Objects上。它允许用户搭建具有不同性格、技能和工具的agent团队，所有管理操作均通过应用程序完成，无需使用CLI或Obsidian等外部工具。该平台支持跨设备访问，旨在简化多agent系统的部署和协作流程。

Berryxia.AI@berryxia · 5月7日36

果然尼玛中转站太赚钱了！川普的儿子都来了，孙割看好的生意果然没错👍！不割一把都难受啊！那么问题来了，他们的中转站我们需要科学上网嘛？

译果然他妈的中转站太赚钱了！川普的儿子都来了，孙割看好的生意果然没错👍！不割一把都难受啊！那么问题来了，他们的中转站我们需要科学上网吗？

TestingCatalog News 🗞@testingcatalog · 5月7日58

Code with Claude event is live 🔥

译Code with Claude 活动现已开始直播 🔥 ▪︎ 上午9:00 - 主题演讲 ▪︎ 上午10:30 - Claude Code 新功能 ▪︎ 上午11:15 - GitHub 规模下的 Claude 开发实践 ▪︎ 中午12:00 - 利用 Managed Agents 加速产品上线以上均为太平洋时间。https://x.com/i/broadcasts/1qGoNegbnRNKv

Berryxia.AI@berryxia · 5月6日75

我靠！Warp 这个Skills 太顶了！直接官方开源啊！ Warp团队居然把他们日常用来大幅提效的内部「Skills」全部开源了！一条命令就能直接装上15个高质量生产级技能： npx skills add warpdotdev/oz-skills 里面包含： • SEO & 无障碍审计 • 文档自动写作 • Terraform / DevOps 配置 • GitHub Issue 处理 ……等等真实能落地的工具视频里演示的SEO审计已经能直接给出具体优化建议。他们没把这些好东西藏着当私有武器，而是直接扔给整个社区。这才是真正的开放精神。想贡献自己的Skill？GitHub已开放： https://github.com/warpdotdev/oz-skills

译Warp 团队将其内部用于大幅提升工作流效率的“Skills”工具集完全开源。用户通过一条命令 `npx skills add warpdotdev/oz-skills` 即可安装包含 SEO 与无障碍审计、文档自动写作、Terraform/DevOps 配置、GitHub Issue 处理等在内的15个高质量生产级技能。团队此举旨在将其实用工具开放给整个社区，而非私有化，体现了开放精神。项目 GitHub 仓库已开放，并鼓励社区贡献。