刚刚Claude Code之父Boris分享了Claude code最被低估的功能, 可以直接让你的编程效率翻5倍！看来自动模式才是真正的杀手级功能啊！没有任何权限弹窗，不用再每隔30秒点一次允许，你可以开一个会话让它自己跑完整个项目，同时去开另一个会话干别的，这就是多Clauding。效率直接翻5倍。现在Pro计划也能用了，支持Sonnet 4.6和Opus 4.7，还没试过的赶紧去体验！ #Claude #AI #编程

译Claude Code之父Boris称自动模式（auto mode）是其最被低估的功能。该模式移除了所有权限弹窗，使得“多实例并行”（multi-clauding）成为可能：用户可启动一个会话自主运行整个项目，同时并行处理其他任务，从而将编程效率提升至5倍。此功能现已向Claude Pro计划用户开放，并支持Claude Sonnet 4.6与Opus 4.7模型。

Alibaba Cloud@alibaba_cloud · 5月24日42

On May 26, Alex Chen (Vice President of International Business, GM for North America Region at Alibaba Cloud) will take the main stage at Sands Expo Singapore to explore Agent Engine — Inference at Scale, Agents Unleashed. 🚀 Register: https://click.qwencloud.com/m/20000000190/

译5月26日，阿里云国际业务副总裁、北美大区总经理Alex Chen将在新加坡金沙会展中心主舞台，探讨Agent Engine——大规模推理，智能体释放潜能。 🚀 注册：https://click.qwencloud.com/m/20000000190/

ginobefun@hongming731 · 5月24日42

#BestBlogs 早报 2026-05-24 今日主题 🔽 Anthropic 联合 50 家伙伴用 Claude Mythos 在一个月内发现逾 1 万个高危漏洞，安全瓶颈已从「发现」转移到「修补」，AI 找 bug 的速度已超过人类部署补丁的能力。与此同时，每秒 1,200 tokens 的 Codex Spark 揭示了一个反直觉真相：模型越快，工程师反而要越慢，实时监督、逐步微验收才是高速 AI coding 的核心纪律。腾讯玄武 150 组实验则用数据打破迷思，装上 AI Skill 不等于更强，token 消耗平均多 48%，真正有效的 Skill 提供的是外部工具与约束性结构，而非对模型能力的Markdown 重包装。

译Anthropic案例显示AI发现漏洞速度已超修补能力，安全瓶颈转移。高速模型如Codex Spark反而要求人类工程师进行更精细的实时监督。腾讯实验则证实，为AI赋能的正解是提供外部工具与结构化约束，而非简单技能包装。这共同指向了更高效的人机协作新范式。

Replit ⠕@Replit · 5月24日66

Replit Agent builds your app. Squidler tests it like a real user. Replit Agent fixes what's broken. That's the full AI QA loop, and it's now live in Replit's MCP library. You describe what your app should do in plain English. Squidler navigates it the way a real person would. Issues flow back automatically and get fixed. No test-writing skills required. Build with Replit. Test with Squidler. Ship with confidence.

译Replit Agent与Squidler已完成集成，形成一套完整的AI驱动质量保障闭环。用户可通过自然语言描述应用功能，由Replit Agent负责构建。构建完成后，Squidler会像真实用户一样对线上应用进行自动化测试，无需编写任何测试脚本。测试中发现的问题会自动反馈给Replit Agent进行修复。该流程已通过Squidler加入Replit的MCP库正式上线，实现了从构建、测试到修复的全自动化，显著降低了应用测试与维护的门槛。

Peter Steinberger 🦞@steipete · 5月24日48

I built an autotriage skill for codex that has a set of guidelines + reads VISION.md from my repos, so issues/prs that have a clear way of - fit vision of the project - being inferrable in code with high confidence - clear fix - can be live tested Are now worked on autonomously. Codex can use a VM + computer vision (via https://crabbox.sh , new parallels backend) to verify fixes, so it can work without interrupting me. I manually review suggestions. Since it was tedious to type in issues, I added an issue browser into http://repo.bar that parses common clipboard formats by codex so I can click through them conveniently.

译开发者为Codex创建了一套自动化分诊技能，通过预设指南并读取项目VISION.md文件，自动处理符合特定标准的issue和PR。这些标准包括契合项目愿景、代码可高置信度推断、修复方案明确且支持实时测试。Codex利用虚拟机与计算机视觉（通过Crabbox平台）验证修复结果，实现自主工作流，减少人工介入。开发者保留手动审核环节，并在repo.bar中集成了issue浏览器，方便点击处理常见剪贴板格式的问题。该系统旨在提升开发效率，让AI承担重复性代码审查与测试任务。

宝玉@dotey · 5月24日59

这种需求“置顶”几条对话就可以了，可以随时聊但没必要所有任务都这么做

译推文讨论了AI对话中session的组织方式。其核心观点是，不必为每个具体功能都创建单独session，更适合的做法是将一个项目相关的对话集中管理，通过“置顶”几条关键对话来满足持续需求。这种按项目整合session的做法近期已成为流行实践，但同时认为所有任务都采用这种模式也无必要。

宝玉@dotey · 5月23日67

这张原理图画的挺好的，操作方法是这样的：

译该开源项目feishu-claude-code-bridge实现了飞书与本机Claude Code的直连互通。用户可在飞书会话中直接指挥Claude Code执行任务，如抓取内容、翻译并创建文档，过程实时同步。其核心是搭建了一个“飞书消息 ↔ 本机Claude Code CLI”的桥梁，工作区设置等功能体验与直接使用Claude Code几乎一致。这种模式不仅打通了飞书与Claude Code，也为将飞书与Codex、Cursor等其他本地AI工具连接提供了可复用的范式。需注意，自2026年6月15日起，Claude订阅计划对通过`claude -p`等模式的使用将独立计费。

meng shao@shao__meng · 5月23日68

好人一生平安 🤝 Wix VP @IShmool 推出一个免费课程「Zero to Claude Code」，把零基础 "不知道终端是什么" 的人，带到能用 Claude Code 在生产环境里发布软件的水平，哇哦！闲话少说先上链接：https://zero2claude.dev/ 课程结构（14 级 · 147 课 · 10 种交互形态） 1. 基础 1–6：文件、目录、终端命令、Git 基础——非工程师从未系统学过的"计算机识字" 2. 真实工具 + Claude Code 入门 7–8：Node.js、API，第一次把 Claude Code 当作 AI 结对程序员上手 3. Claude Code 精通 9–12：Skills 与 SKILL.md、MCP 服务器、Subagents、Hooks、Headless 模式、工具集成 4. 专业范式 + 毕业项目 13–14：初级工程师工作流、协作模式，最终交付一个多人在线游戏 capstone 课程是严格的递进式设计，没有跳跃、不预设任何背景，交互形态覆盖：测验、终端模拟器、文件树拼图、填空、拖拽配对、AI 个性化学习路径。零安装，全部跑在浏览器里。规模与工程指标最值得关注的部分——它证明 Claude Code 不只"写代码"，而要能撑起一个真实的生产产品。 · 流量：~6.4M 请求/天，74 req/sec 持续，错误率 <0.003% · 用户：17,000+ 学员，30+ 国家，每小时约 500 活跃 · 本地化：7 种语言（英、西、希伯来、阿、乌克兰、日、德） · Lighthouse：性能 96 / 可访问性 100 / 最佳实践 100 / SEO 100 · 技术栈：React + TypeScript 前端，Node + PostgreSQL 后端，1,036 个课程内容文件 · 增长：完全靠口碑，无营销、无广告、无付费墙最具示范意义的部分：AI 闭环运营平台不仅由 Claude 构建，也由 Claude 运营。两个闭环是真正的亮点： 1. Bug 全自动修复闭环学员课内一键报 Bug → 系统自动捕获终端历史、虚拟文件系统状态、课程位置、浏览器信息 → 自动生成结构化 GitHub Issue → Claude Agent SDK 触发 triage agent 读代码、复现、建分支、提交修复、开 PR → 学员收到邮件通知。从报告到解决，零人工干预。 2. Product Genie 功能闭环社区论坛收集学员的功能愿望并投票 → Genie（基于 Claude Agent SDK）按可行性与影响分类、打置信度分 → 自动建 Issue、回帖、在 build 模式下直接实现功能。社区驱动 roadmap，AI 执行 roadmap。这两套机制使得"一个人运营 17K 用户的产品"在结构上成立——人的角色从执行者退到设计者与监督者。

译Wix副总裁推出免费课程「Zero to Claude Code」，旨在帮助零编程基础的用户从终端使用起步，最终能用Claude Code在生产环境发布软件。课程已吸引超过17,000名学员，支持7种语言，完全依靠口碑传播。平台技术指标出色，日处理约640万请求且错误率极低。最具示范意义的是其AI闭环运营模式：平台由一人通过Claude Code构建并运营，通过AI Agent实现了学员报Bug后自动修复、社区功能需求自动实现的全流程自动化，证明了Claude Code能支撑生产级、可扩展产品的开发与运维。

歸藏(guizang.ai)@op7418 · 5月22日74

哈哈，太好玩了！藏师傅做了个 AI 屏幕便签纸 Skill。让 AI 根据你当前的状态和记忆，在墨水屏上显示内容，支持十几种常见组件。之后你不再切 calendar、不再翻 GitHub tab——AI 主动把它觉得你该看的事推到墨水屏上。 16 种 widget 自由组合，2-1-1 布局拆 4 个槽位。瞥一眼就够。

译藏师傅开发了一款AI屏幕便签纸Skill，该工具能基于用户当前状态与记忆，主动在墨水屏上推送重要信息。它支持十余种常见组件进行自由组合与布局，旨在替代频繁切换日历、GitHub等多标签页的操作，让用户只需瞥一眼就能获取AI认为当下最相关的内容。

歸藏(guizang.ai)@op7418 · 5月22日57

最近好像 Claude Code 连接飞书又火了再推荐一下藏师傅两个多月前写的这个 Skills 哈。它能连接 Telegram、飞书、QQ、微信、Discord 等各种 IM，支持 Claude Code 和 Codex。

译最近好像 Claude Code 连接飞书又火了再推荐一下藏师傅两个多月前写的这个 Skills 哈。它能连接 Telegram、飞书、QQ、微信、Discord 等各种 IM，支持 Claude Code 和 Codex。 [引用 @op7418]：http://x.com/i/article/2029562855511744512

Berryxia.AI@berryxia · 5月22日67

麻蛋，我昨天刷到SenseNova 6.7 Skills Agent的直播 AJ他们直接管这玩意儿叫“牛马人套装”（😄文末白嫖）。今天刚到酒店，闲着也是闲着，就顺手丢了个AI大模型市场调研报告给它跑。结果一跑就是1个半点儿了…😭 还没完。我盯着后台看，它真在一家一家网站爬数据、整理表格、生成MD文件。得亏现在是公测阶段免费的，要不然真的我还怕给我搞破产了。下一步是可以直接出报告PPT的，我晚点给大家同步看看效果如何。要去薅羊毛的赶紧去，我想你肯定不是最后一个知道的。他们的CodingPlan 现在显示免费😄 低调~~注意轻点啊~~xdm 地址评论区见👇🏻：

译用户实测SenseNova 6.7 Skills Agent，称其为“牛马人套装”。该AI agent能够自主执行长时间、重复性的数据处理任务，例如爬取网站、整理数据并生成结构化文件（如MD格式），以完成一份市场调研报告。由于任务复杂，执行耗时较长，但因产品处于公测阶段，目前免费使用。用户后续还将测试其自动生成报告PPT的功能，并提醒大家抓紧机会体验其免费的CodingPlan。

向阳乔木@vista8 · 5月22日71

虽然我已从字节离职一年多，但飞书还是我认为最好用的工作平台，现在也是最适合连接各种AI工具的平台。最近我发现Zara （@zarazhangrui ）开源了一个超好用的工具，直接把你本地的 Claude Code 变成飞书机器人。这样，手机上用飞书就能随时Claude Code对话，完成各种复杂任务。昨天我就在AI产品蝗虫群分享，体验过的都觉得棒，安装指令如下： npx -y lark-channel-bridge@latest start 体验后，几点印象深刻： ① 能把收到的飞书消息转给Claude Code处理，真正的“AI工作助理”。 ② 飞书支持可交互卡片，不仅内容渲染好，也支持按钮点击等操作，比打字对话简单多了。 ③ AI 生成的图片、文件等，在飞书对话直接显示，不像在终端需要自己点击链接查看。 ④ 飞书聊天记录支持全量搜索，Claude Code上下文压缩也不怕。还有很多功能设置，比如消息回复方式，工具调用是否显示等，让人很有掌控感。不多说，强烈推荐自己试试，零差评，必须给Zara点赞！

译前字节员工推荐飞书作为连接AI工具的平台。通过Zara开源的lark-channel-bridge工具，可将本地Claude Code变为飞书机器人，实现手机端随时进行复杂任务对话。该工具能将飞书消息转给Claude Code处理，支持可交互卡片和文件图片的直接显示，并结合飞书的全量搜索功能，提供流畅、可控的“AI工作助理”体验，被作者强烈推荐。

歸藏(guizang.ai)@op7418 · 5月22日60

小红书可以直接上传 Skill 了，这个太屌了，感觉是个很大的事件。

Berryxia.AI@berryxia · 5月22日61

兄弟们，刚刚刷到牛逼好用的Bloome 终于正式上线了。真好用，强推荐～ 👍 视频做的好牛逼，真替Bloome Team高兴。整个产品的设计细节打磨，迭代都是非常细腻。也是我见过刷版最狠的，几乎每天都有更新。当然你遇到Bug 可以直接@我我来帮你们反馈迭代哈哈这是第一个把人类和AI Agent放在同一个群聊里的消息应用，它们可不是简单的工具，更像是一个队友。 Multi-Agent · One Room 设计理念… 你加Agent的方式和加同事一样：拉前端Agent进来，拉后端Agent进来，它们已经在同一个聊天里，已经在同一个bug上协作。以前找主题、写初稿、编辑润色，通常要三个人、三条聊天、三天时间。现在？三个Agent，一个聊天，搞定。这已经不是“让AI帮我干活”了，而是“让AI和人类一起在同一个房间里干活”。目前只有1000个邀请码，先到先得。官网地址：http://bloome.im 也可以给我薅点羊毛使用我的链接～给你送$5 😁见评论区～

译Bloome正式上线，定位为首款将人类与AI Agent置于同一群聊的消息应用。其核心设计是Multi-Agent One Room，即多个AI Agent与人类用户共同在同一个“房间”内协作，如同添加同事一样将不同职能的Agent拉入对话。产品强调AI Agent作为队友而非工具，能共同处理任务（如协作修复Bug、完成写作流程），显著提升协作效率。目前仅开放1000个邀请码，产品迭代更新速度快。

Berryxia.AI@berryxia · 5月22日70

最近𝕏 开始支持和拥抱各种生态，从小龙虾、Hermes 再到直接工具类的OpenCode 。如今你可以直接在OpenCode中使用Grok 或者𝕏 Premium 的订阅z

ginobefun@hongming731 · 5月22日51

Claude Code /usage 命令展示 Token 消耗明细

译Claude Code /usage 命令展示 Token 消耗明细 [引用 @bcherny]：在 Claude Code 的下一个版本中：运行 /usage 可以查看各项技能、代理、MCP 和插件分别消耗了多少 Token CLI 版现已推出，桌面版即将跟进

OpenAI Developers@OpenAIDevs · 5月22日75

Codex anywhere and everywhere, all the time. Now your Mac doesn’t have to be unlocked for Codex to use your computer. From your phone, Codex can securely use apps on your Mac, even when the screen is off and locked. https://developers.openai.com/codex/app/computer-use#locked-use

译Codex随时随地，无处不在。现在您的Mac无需解锁，Codex即可使用您的电脑。通过手机，Codex可以安全地使用您Mac上的应用程序，即使屏幕关闭且处于锁定状态。 https://developers.openai.com/codex/app/computer-use#locked-use

AYi@AYi_AInotes · 5月22日72

Damn，Claude Code 终于出 /usage 了， token 消耗拆到每个 Skill、每个子代理、每个 MCP 头上，再也不用猜钱花哪了，我查了一下自己的才发现： • babysit 子代理在后台默默吃掉 13% • 有个 testmcp 一直挂在那偷跑 11% • 以前完全不知道它们的存在我觉得/usage 最狠的还不是统计，而是归因，下游触发的 token 也会追回源头，谁引发的雪崩，一眼看到，支持按天/周筛选历史数据，CLI 已经上线，桌面版也会马上跟进，三个动作现在就能做： 1. 敲 /usage 看全局占比 2. 揪出占比最高的 Skill/MCP 3. 不用的直接禁用，太贵的在 settings.json 里加限制讲真，从“感觉 token 烧得快”到“知道谁在烧钱”，这一步等了太久了，现在打开 Claude Code，敲 /usage，你会第一次真正看清自己的 AI 工作流 👇

译Claude Code上线了/usage指令，实现token消耗的精细化归因。该功能可展示每个Skill、子代理及MCP的用量占比，并能追踪由下游操作触发的消耗源头。支持按天/周筛选历史数据，CLI端已可使用，桌面端即将跟进。这一更新使用户能从模糊感知转向精确掌握AI工作流的具体成本构成。

Rohan Paul@rohanpaul_ai · 5月22日84

Alibaba just released Qwen3.7-Max. Their best flagship model built for real-world tasks and production environments. - Agent reliability the center of the story, where the model must plan steps, call tools, inspect results, fix mistakes, and continue without collapsing after the first wrong turn. - 56.6 on the Artificial Analysis Intelligence Index, up 4.8 points from Qwen3.6-Max. Qwen 3.7 Max sitting at 5th, pretty much on par with GPT 5.4 (xhigh) - The Intelligence Index gains over Qwen3.6 Max Preview are concentrated in scientific reasoning, agentic capability and coding. - One important layer of the serving stack, the inference kernel, was optimized heavily. from near-baseline speed to 10.0x geometric mean speedup after many rounds of low-level GPU optimization.

译阿里巴巴正式推出最新旗舰模型Qwen3.7-Max，定位为Agent时代的生产级基础模型。该模型在权威评测中得分56.6，较前代显著提升，性能与GPT-5.4相当。其核心优势在于卓越的Agent可靠性，能够在复杂任务中自主规划、调用工具、纠错并持续执行。通过底层深度优化，模型实现了10倍推理加速，并支持长达数小时的自主运行与多工具协作。该模型现已上线阿里云模型工作室，并兼容Claude Code、OpenClaw等主流开发框架，助力开发者构建实际应用。

宝玉@dotey · 5月22日70

Claude Code 专门升级了 /usage ，可以看到 Token 到底花在哪里了 👍

Boris Cherny@bcherny · 5月21日57

In the next version of Claude Code: run /usage to see a breakdown of which Skills, Agents, MCPs, and Plugins are using your tokens CLI today, coming to Desktop next

译在下一版 Claude Code 中：运行 /usage 可查看各项技能、代理、MCP 和插件的 token 使用明细 CLI 功能现已推出，桌面版即将跟进

凡人小北@frxiaobei · 5月21日47

最近团队在非 coding 方向，尝试把自己从杂事中解放出来。分享几个最近团队内部解放生产力的idea（skill）。我做的对我有用的两个： 1. 例会全程录音，形成 todo @相关人，我的 openclaw 会使用钉钉 cli 跟进任务，在合适的时间点在群@相关人跟进（cli 支持直接用我的账号），其他会议同理； 2. 自动抓取邮件，不相关的按批次总结下自动归档，相关的提醒我关注或审批（依赖知识库）；我认为团队同学产出非常有用的两个： 1. 要定会议室直接群里@机器人，小秘书到点自动抢，再也不用 12 点抢会议室了； 2. 跟进媒体/政府/协会最新资讯和通知，给出价值锚点是否跟进； etc.

译团队通过开发和应用一系列自动化技能，旨在将成员从日常琐事中解放出来，专注于核心工作。具体实践包括：利用自动化工具（如openclaw结合钉钉cli）在会议后自动提取待办事项并跟进；基于知识库自动处理邮件，进行摘要、归档和提醒；部署群内机器人自动完成会议室预订；以及自动监控外部资讯并评估其跟进价值。这些方案均有效提升了工作效率，减少了重复性人工操作。

Alibaba Cloud@alibaba_cloud · 5月21日85

(1/6) 📣Meet Qwen3.7-Max — our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get things done: 🧑‍💻 Coding agent, end-to-end. Frontend prototypes, multi-file refactors, real debugging — nails it. 🗂️ A reliable office and productivity assistant. Get your work done through MCP integrations and multi-agent orchestration. ⏱️ Long-horizon autonomy. 35 hours straight on a kernel optimization task — 1,000+ tool calls, zero hand-holding. 🔌 Scaffold-agnostic. Claude Code, OpenClaw, Qwen Code, or your own stack. Consistent reliability everywhere. API's up on Model Studio: https://int.alibabacloud.com/m/1000413187/ Go build something wild!

译阿里云发布了通义千问系列的新旗舰模型Qwen3.7-Max，定位为面向智能体时代的通用基础模型。该模型旨在为“能真正完成任务”的智能体提供强大支撑，其核心能力包括：支持端到端的复杂编码任务，可作为集成多智能体协作的办公助手，并能执行超过35小时的长期自主任务。该模型具有框架无关的兼容性，可适配Claude Code、OpenClaw等多种工具链。目前，用户已可通过Model Studio平台调用其API。

Qwen@Alibaba_Qwen · 5月21日82

📣Meet Qwen3.7-Max — our latest flagship, made for the Agent Era. A versatile foundation for agents that actually get things done: 🧑‍💻 Coding agent, end to end. Frontend prototypes, multi-file refactors, real debugging — nails it. 🗂️ A reliable office and productivity assistant. Get your work done through MCP integrations and multi-agent orchestration. ⏱️ Long-horizon autonomy. 35 hours straight on a kernel optimization task — 1,000+ tool calls, zero hand-holding. 🔌 Scaffold-agnostic. Claude Code, OpenClaw, Qwen Code, or your own stack. Consistent reliability everywhere. API's up on Alibaba Model Studio. You can also take it for a spin on Qwen Studio. Go build something wild!🏃🏃‍♂️ 📖 Blog: https://qwen.ai/blog?id=qwen3.7 ✅ Qwen Studio: https://chat.qwen.ai/?models=qwen3.7-max ⚡️ API：https://modelstudio.console.alibabacloud.com/ap-southeast-1?tab=doc#/doc/?type=model&url=2840914_2&modelId=qwen3.7-max&serviceSite=international

译Qwen3.7-Max是Qwen系列面向Agent时代推出的最新旗舰模型，旨在为能完成实际任务的智能体提供强大基础。其核心能力包括：可作为端到端编码智能体，处理前端原型与多文件重构；作为可靠的办公助手，通过MCP集成与多智能体编排协同工作；并支持超长时间（超过35小时）的自主运行，执行复杂任务链。该模型兼容Claude Code、OpenClaw等主流开发框架，现已上线阿里云模型工作室与Qwen Studio提供服务。

🚨 AI News | TestingCatalog@testingcatalog · 5月21日65

Tycoon launched as the world's first operating system for one-person companies, giving every solo founder an AI CEO named Astra and a virtually unlimited workforce of AI employees across coding, marketing, research, SEO, finance, legal, and ops. Astra manages up to 1,000 agents in parallel, 24/7, and can orchestrate external tools such as Claude Code and Hermes Agent!

译Tycoon发布了全球首个专为一人公司设计的操作系统。每位创始人将获得一个名为Astra的AI CEO，以及几乎无限的AI员工，覆盖编程、营销、研究、财务等多领域。Astra能并行管理多达1000个智能体，实现7x24小时运作，并可调度Claude Code等外部工具。该系统的核心理念是反驳“AI将减少就业”的观点，旨在通过AI赋能，让单个创业者具备运营整个公司的能力，将执行工作交给机器，而人类专注于愿景与决策。

Elon Musk@elonmusk · 5月21日59

Tips for using Grok Build

译Grok Build 使用技巧感谢 @skcd24 的提示。现在我可以完全在主 Grok Build 实例中工作，无需为其他集群打开额外标签页。

歸藏(guizang.ai)@op7418 · 5月21日50

这个会打包成 Skill，任何 Agent 都能控制里面显示什么。可以通过配合定时任务去定期刷新里面的信息和数据，配合磁吸把它吸在你的屏幕边，就是一个常态化的看板。关机休眠的时候会展示你的介绍信息和二维码，这样你外出就直接可以加好友

译该推文展示了一种将墨水屏硬件与AI Agent结合的创新应用。核心思路是通过打包为Skill，使任意AI Agent都能控制墨水屏显示内容：设备开机时，AI可推送待办事项、日历等信息，配合磁吸安装和定时任务刷新，形成常态化桌面看板；关机或休眠时，屏幕则利用墨水屏特性静态显示个人介绍与二维码，便捷实现数字名片功能。项目计划以Skills形式开源，便于拥有类似硬件的用户复用开发。

歸藏(guizang.ai)@op7418 · 5月21日14

现在手上项目老多了： 1. Code Pilot 的重构马上就要完成了 2. 墨水屏的 Skills，应该今天或明天就能完成 3. 还有一个基于 PPT Skills 的项目，是通过 HTML 变成视频的这个 Skill 还在进行中 4. 基于 PPT Skills 生成小红书、微信图文封面的功能，也在进行中 5. PPT Skills 的第三个主题也在进行中

译该推文集中通报了多个技术项目的最新进展。其中，Code Pilot的重构工作已接近完成；墨水屏相关的Skills功能开发预计今日或明日就能完成。同时，基于PPT Skills的几个衍生项目正在推进，包括将HTML转换为视频的功能，以及生成适用于小红书、微信的图文封面功能。此外，PPT Skills的第三个主题也已启动开发。整体展现了多项技术工具的并行开发与快速迭代状态。

AYi@AYi_AInotes · 5月21日77

http://x.com/i/article/2057300084354670592 # 用我的神级Prompt测试了Gemini 3.5 Flash，确认了一件事：Google直接宣告AI 大模型纯聊天时代彻底终结了！这篇文章跟大家只捞干货，核心三部分：Gemini 3.5 Flash 到底强在哪？怎么免费玩上？我自用的 Gemini 神级提示词开源，8大场景直接拿去用！文章最后放了宝藏彩蛋给大家！ # 目录 ## 一、Gemini 3.5 Flash 到底强在哪？ ## 核心数据：289 tokens/s 是什么概念 ## 二、战略判断：Google 为什么不再卷 benchmark ## 三、上手体验：Gemini 3.5 Flash免费入口 +玩法 ## 四、自用神级Gemini Prompt开源： 1. KERNEL-X 终极动态专家系统 1. HE COMPILER IDENTITY (全栈编译器人格) 1. 唯一需要的Vibe Coding提示词 1. Naval Ravikant分身（决策神器，哲学/人生Prompt） 1. AI工作流程专家系统提示词 1. 认知挖掘提示词 1. 深度研究报告Prompt 1. 神级反思Prompt ## 五、写在最后：这轮 AI 竞赛的终局是什么 # 一、核心数据 289 tokens/s 是什么概念 - 速度：289 tokens/s（3.1 Pro 的 2.1 倍，GPT-4o 的 4 倍） - 智能：AA Intelligence Index 55（3.1 Pro 是 57） - 幻觉：暴降 31 个百分点，可靠性质的飞跃 - Agent 能力：GDPval-AA Elo 1656（3.1 Pro 1314），MCP 多步工作流 83.6% - 一句话：Flash 首次同时把速度、智能、可靠性三个维度拉满我尽量讲人话把这些数字意味着什么跟大家说明白讲清楚： 289 tokens/s 的输出速度：你按下回车,还没来得及切回微信看一眼消息,3000 字已经写完了，3.1 Pro 这时候还在思考人生,GPT-4o 和 Claude Opus 直接被甩开 4 倍。智能指数 55：离四个月前还是旗舰的 3.1 Pro 只差 2 分。幻觉率暴降 31 个百分点，这个数字最离谱，以前用 Flash 做 Agent 我心里始终有根弦,因为它会编。现在我让它跑多步工作流,自己不确定的地方它会主动停下来问，跟以前硬编的路数完全不同，属于质的变化。 # 二、战略判断 ## Google 为什么不再卷 benchmark？说实话,在 Flash 出之前,我每次开新对话都要纠结半天，用 Pro,等它思考完够泡一杯咖啡，用 Flash,又怕它在关键步骤上幻觉一下,前面跑的全白费，三年了，快和准只能选一个,我们从 GPT-3.5 忍到现在。 Flash 这次第一次把这两件事同时解决了。 # 三、免费上手体验我自己测 Flash 用的是 ZenMux，这也是我一直跑模型的聚合平台。昨晚刷到它已经免费上线3.5 Flash,顺手就接着测了一天，打开就能用,不用 API、不用翻墙。它有个多模型 PK 功能,同一个 prompt 能同时丢给 Flash、Claude、GPT 看谁出得好。我后面那 8 个压箱底的 prompt,有几个就是在这种 PK 模式下磨出来的。但我也得说一下边界,免得有人冲进去发现不对。 Flash 不是万能的，我让它写长文(3000+字以上)的时候,后半段质量肉眼可见地往下掉,逻辑会开始飘，真要写深度长文我还是会回 Pro，毕竟Flash 是速度型选手,不是耐力型选手。我现在的分工是:Agent 跑流程、批量处理、即时对话——全交给 Flash，深度思考、长文创作、复杂推理这些还是 Pro。这套搭配跑了一天,体感是：聊天框时代的纠结，在这一天里消失了。 # 四、自用神级Gemini Prompt开源 ZenMux 上已经开放免费体验,不用折腾API不用翻墙,打开就能跑：https://zenmux.ai/invite/DIX0WC 用以下给大家开源的最顶的经过实战检验的提示词尽情体验Gemini 3.5 Flash的强大吧。 ## KERNEL-X 终极动态专家系统（我的王炸提示词，迭代了10版） ## 全栈现实编译器Prompt—把模糊的现实需求，编译为逻辑严密、概念独创、且极具透明度的“高维智力资产 ## 这是你唯一需要的Vibe Coding提示词： # 读懂纳瓦尔需要十年，我用 1 条提示词把它封装成了财富与清醒操作系统 ## 复杂问题分析Prompt 神级反思Prompt ## AI工作流程专家系统提示词 ## 深度研究报告Prompt ## 五、写在最后：这轮 AI 竞赛的终局是什么写到这，我想聊一个更大的问题。 Gemini 3.5 Flash 这次发布，最让我在意的不是 289 tokens/s，也不是幻觉率暴降 31 个百分点，这些数字半年后就会被新的数字盖过去。最让我在意的是 Google 这次出手的逻辑变了。以前的逻辑是：我的模型比你聪明，所以你应该用我。 OpenAI 和 Anthropic 到现在还在玩这套——GPT-5 传闻、Claude 的推理深度、各种 benchmark 军备竞赛，比的是智商。 Google 这次的逻辑是：我不跟你比谁更聪明了，我比的是谁能让 AI 真正跑起来。 289 tokens/s 意味着什么？意味着 Agent 从一个“理论上有用”的东西，变成了“今天下午就能塞进工作流”的东西。一个人坐在电脑前，五分鐘跑完十几个步骤、调几次工具、回头修正自己的错误——这件事以前只存在于 Demo 视频里，现在变成真的了。这才是终局的雏形。聊天的终局是 Agent。Agent 的终局是基础设施。什么意思？当 AI 快到一定程度、可靠到一定程度、便宜到一定程度——它就不再是一个“产品”了。它是水电煤。你不会每天早上起来想“今天要不要用一点电”，你只是按下开关。 AI 的未来也是一样：你不会再纠结用哪个模型、切哪个窗口、等它思考几秒钟——你只需要一个动作，它已经把活干完了。 Google 这次干的，就是把“按下开关”这个动作往前推了一大步。那 OpenAI 和 Anthropic 在干嘛？说实话，他们不是没看到这个趋势，是他们船的惯性太大。旗舰模型推理成本高、推理时间长、商业模式绑在“更聪明的模型”这条线上——转向的速度型产品，会动自己的旗舰定价体系，这不是技术问题，是商业枷锁。所以 Flash 这次的对手，其实不是 GPT-4o 或者 Claude Opus，是 Google 自己的过去——那个只会在 benchmark 上跟人拼刺刀的 Google。 Google 终于不用“聪明”来证明自己了，它开始用“快”来定义游戏规则。最后聊一句对你我的影响， Agent 这件事，门槛已经从“技术能力”转移到了“想象力”。以前你得会搭 LangChain、会写工具调用链、会被各种框架的坑绊倒，才能跑起来一个勉强能用的 Agent。现在门槛降到了——你能不能想清楚一个任务，然后花五分钟跟模型说清楚。说到底，AI 竞赛的终局不是谁赢了谁，是有一天你回头看，发现那些曾经需要半天的事情，现在你只需要一句话，而这一天，比所有人以为的都要近。 ## 彩蛋时刻分享一个宝藏提示词网站，跟强大的Gemini 3.5非常搭，绝对能解决你工作、生活、学习中的大部分问题和困惑！ http://prompts.chat —— 目前最强开源免费 AI Prompt 社区！上千条高质量提示词，按行业/场景直接分类： - AI Agents（目前我用的最多的让我直接起飞） - 商业分析、写作、代码、营销、图像生成…… 搜索关键词秒出最优模板，复制粘贴就能用！特点： - 完全免费 + 开源 - 社区驱动，每天都有新神 prompt - 支持自建私有库（团队/隐私党福音） - GitHub 15.8万星，OpenAI、Hugging Face 大佬都点赞再也不用自己瞎琢磨提示词了，效率直接拉满，强烈推荐呀

译Gemini 3.5 Flash实现了289 tokens/s的输出速度（约为GPT-4o的4倍），同时将幻觉率大幅降低31%，首次在速度、智能和可靠性上达成平衡。这标志着AI发展从单纯比拼模型“智商”的基准竞赛，转向追求“能用起来”的实用主义。高速与可靠性的结合，使得能够执行复杂多步任务的AI Agent从理论走向现实，可能重塑行业竞争格局，未来AI将如同基础设施一般无缝融入工作流。

Berryxia.AI@berryxia · 5月21日62

兄弟们，看来微软的Copilot 是真的自己都懒得用！这不微软今天办了一场Claude 使用的的工作坊！花半小时看完它，还是不错的！高级开发者布道师Marlene Mangami直接拉着大家动手，用Foundry + Claude建了一个真实可用的AI Agent。他们没讲空洞概念，而是用一家叫Sparkles的纸杯蛋糕店做案例：顾客涌进来点单、选口味、生成客户ID、处理优惠券、准备取货……全流程让Agent自动接管。从部署云模型，到接入MCP服务器连工具和数据源，再到给Agent赋予企业级安全和可观测性，一步一步教完。现场还直接用Skillable环境让大家跟着敲代码，完成就送纸杯蛋糕。 AI Agent终于不是实验室玩具，而是开发者能快速从原型做到生产落地的真实工具。

译微软举办Claude使用工作坊，通过构建纸杯蛋糕店AI Agent的案例，演示了从部署云模型、接入MCP服务器连接工具与数据源，到赋予企业级安全与可观测性的完整流程。工作坊以实操为主，开发者可现场跟随编码，强调AI Agent已从概念验证进入快速生产落地的实用阶段，成为开发者能直接构建的业务工具。

小互@xiaohu · 5月21日53

前段时间 Slack 大中华区所有 workspace 都被关停了，团队几年的对话、文件、决策上下文一夜消失，很多人都在找替代品... 盛大集团旗下的 Tanka AI 这次大升级，直接把 Slack 的日常协作能力全覆盖了，即时聊天、语音通话、视频通话、文件共享、团队频道，全都有。更关键的是，它在 Slack 之外还做了一层 Slack 没有的东西，AI 长期记忆。 Tanka 这次升级真正关键的是这五块： • AI 长期记忆层（对话、决策、文件自动沉淀） • 100+ 办公应用接入（邮件、CRM、文档一键打通） • AI 资产生成（基于记忆和 Deep Research 出 slides、reports、网站） • 自动化工作流（重复动作交给 AI）

译针对Slack大中华区关停致数据丢失，盛大旗下Tanka AI推出全面升级。它覆盖了即时聊天、语音/视频通话等全部协作功能，并创新性地增加了AI长期记忆层，自动沉淀对话、决策与文件。同时支持接入100+主流办公应用，打通工作流，并能基于记忆与研究自动生成PPT、报告等AI资产，成为高效的Slack替代方案。

meng shao@shao__meng · 5月21日68

Chrome DevTools for Agents 1.0 正式发布 https://developer.chrome.com/blog/devtools-for-agents-v1 它在真实浏览器中观察行为、检查输出，让 Agent "能看见浏览器"，有三种接入方式： 1. MCP server：将 LLM 连接到 DevTools 调试能力的标准协议 2. CLI：Token 更省的替代方案，支持 Agent 把动作打包成脚本批量执行 3. Agent skills：教 Agent 何时、如何调用具体工具的专家指令 (如无障碍、性能调试) 共开放了七个能力 1. 自动化质量审计：Agent 可直接跑 Lighthouse，覆盖无障碍、SEO、最佳实践、agentic browsing。可作为"质量门"，拦截阻塞性问题进入生产。 2. 真实用户环境模拟：窗口尺寸、地理位置、网络/CPU 节流均可由 Agent 操控，无需手动调整浏览器即可测试响应式与移动端行为 (如汉堡菜单)。 3. Chrome 扩展开发与调试：安装、reload、触发扩展动作，介入 background script 与扩展页面，自动化"保存-刷新"循环。 4. WebMCP 工具调试：配合 WebMCP Origin Trial。让站点向 Agent 暴露结构化工具，Agent 不再靠 DOM 猜测意图，而是直接列出、调用、验证工具，显著降低集成门槛。 5. 内存泄漏检测：支持堆快照，识别 detached DOM 节点等典型泄漏。配合内存调试 skill，Agent 扮演性能专家角色。 6. Auto-connect 会话接管：可把当前已登录的浏览器上下文交给 Agent，而非让其打开沙箱实例。适合调试需要鉴权的页面 (如后台仪表板)，省去重新登录。 7. 第三方开发者工具暴露内部状态：Web 应用可主动向 Agent 暴露内部状态与组件细节，使调试建议基于真实运行时数据，而非黑盒推断。

译Chrome DevTools for Agents 1.0 发布，旨在让 AI Agent 能在真实浏览器中“观察”并调试 Web 应用。该工具通过 MCP server、CLI 和 Agent skills 三种方式接入，提供了一系列核心能力。Agent 可执行自动化质量审计、模拟用户环境、调试 Chrome 扩展、接管已登录会话、检测内存泄漏，并能与 Web 应用暴露的内部状态深度集成。这显著提升了 Agent 在浏览器环境中的调试与测试能力，为自动化开发与运维提供了新的可能性。

宝玉@dotey · 5月21日74

http://x.com/i/article/2057247064115838976 # 来自 Codex 官方团队的分享：如何把 Codex 用到极致作者：jason (@jxnlco) 原文：大多数开发者刚接触代码编辑类的 AI 智能体 (AI Agent) 时，通常只让它们干一件事：写代码。比如让它检查一下代码库，生成个差异对比 (diff)，跑跑测试，然后再提个合并请求 (pull request)。写代码确实依然是 Codex 的核心强项。但仔细想想，我们在电脑上做的大部分工作，本质上其实都和代码息息相关：执行终端命令、浏览网页、调用应用程序接口、导出文档、响应各种事件，或者是触发自动化流程。当 Codex 开始延伸到这些领域时，它给人的感觉就不再只是一个狭义上的“编程助手”了，而是进化成了一个能帮你搞定各种电脑工作的“全能打工人”。 Codex 的新特性让这种转变变得触手可及。现在的对话流 (thread) 可以记住你们的上下文、调用各种工具、展示生成的文件 (artifacts)，还能在不同的提示词之间无缝衔接，再也不用每次聊完都“重新认识”一遍了。想要彻底榨干 Codex 的潜能，你需要把下面这些绝招组合起来用： - 能够长期保存记忆的“持久对话流 (durable threads)” - 在你掌控全局时，灵活使用语音输入、任务干预 (steering) 和任务排队 (queuing) - 借助浏览器、电脑操控 (computer-use)、模型上下文协议服务器 (MCP servers, 一种让 AI 安全连接本地数据和工具的通用标准) 以及各类连接器，让 Codex 的手伸向代码库之外的地方 - 当你离开电脑时，利用对话流自动化 (thread automations) 和目标驱动 (Goals) 让它继续搬砖 - 熟练使用侧边栏 (side panel)，随时审查它生成的代码、文档、幻灯片和其他文件 ## 持久对话流 (Durable threads) > 持久对话流：可以长时间运行的 Codex 对话流，能在你多次使用的过程中，始终为你保留工作上下文。把对话流“置顶 (Pinned threads)”是让这些持久对话随叫随到的好办法。这对于那些需要反复推进的工作流来说简直是神器，比如： - 一个专属的“幕僚长”对话流（帮你处理日常杂务） - 一个专门负责产品发布的对话流 - 一个负责审查文档的对话流 - 一个专门盯着外部数据的监控对话流它们不是那种聊完即焚的闲聊框，而是持久的工作空间。随着时间的推移，Codex 可以随时回到这些对话中，它会记得你之前做过的决定、你的个人偏好以及当前的进度。如果没有这个功能，你每次都得从零开始把这些背景信息重新喂给它。置顶快捷键让这个操作变得极为实用。只要按下 Command-1 到 Command-9，你就能瞬间穿越回这些保存好的专属对话流里继续工作。 ## 语音输入 (Voice input) 语音输入之所以好用，是因为它能在你把想法字斟句酌地敲成文字之前，先把你脑子里最原始、最粗糙的念头捕捉下来。 Codex 内置了语音输入功能。这对于那些“嘴上说得清，打字嫌麻烦”的模糊想法特别管用。比如： > “我记得有个叫 Ben 的人在 Slack 上提过这事儿。细节我忘了。你去帮我找找看。” 对于一个会自己搜索、收集上下文并向你汇报的 AI 智能体来说，这几句话就足够它干活了。当你脑子里有一个大概的想法，但还没完全成型时，花两三分钟对着它“碎碎念”，把思绪一股脑倒出来，效果也出奇的好。录音转写也是同样的道理。一份未经修饰的会议记录，或者一段口述的计划草案，往往比一份简短的总结更有价值。因为那些粗糙的记录里，保留了你犹豫的语气、强调的重点，以及那些还没讲完的灵光一现。 ## 任务干预与排队 (Steering and queuing) 当你把语音输入和对运行中任务的直接控制结合起来时，它的威力才真正显现出来。当一个任务正在执行时，如果你想 > 任务干预 (Steering)：在当前任务还没完成时，中途打断 Codex 并给它指引新的方向。当你发现 AI 跑偏了，需要在它撞南墙之前纠正它时，这个功能就派上用场了。比如，在让它审查网站时，你可以一边在侧边栏上指指点点，一边直接开口打断它的工作： - “把这个调小一点” - “这两个元素之间的间距看着不太对劲” - “这句文案写错了” > 任务排队 (Queuing)：在 Codex 完成当前步骤后，给它安排接下来的活儿。任务排队就不太一样了。它不会打断正在进行的任务，而是把新任务排在队伍后面。你可以这么跟它说： > “等这活儿干完之后，把预览链接发到 Slack 给审核人看看。” 简单来说，“干预”是改变 Codex 眼下正在做的事，而“排队”是安排它接下来要做的事。这两个功能都能让你在任务执行的过程中，始终保持一种“人机合一”的掌控感。 ## 工具与触达范围 (Tools and reach) 当一个对话流有了连续的记忆后，下一个问题就是：它能触碰到什么？Codex 的触角可以向外一层层延伸： - $browser 在侧边栏中运行的应用内浏览器，Codex 可以在这里审查网页并在上面做标记。 - @chrome 可以获取你浏览器的登录状态，用来处理那些基于 Chrome 的工作流。 - @computer 专治那些只能通过桌面图形界面 (GUI) 来完成的任务。 $browser 适合在侧边栏做网页审查；@chrome 适合那些需要你账号登录状态的浏览器内工作；而 @computer 则用来搞定那些只能在电脑桌面上点来点去的任务。 MCP 服务器和各类连接器把这种能力进一步延伸到了你的整个工作流中。Slack 集成、以及各种 MCP 工具连接器和 MCP 指南之所以重要，是因为很多关键任务在变成代码之前，最初往往只是一条聊天消息、一封收件箱里的邮件，或者一个日程安排问题。技能 (Skills) 让那些重复的工作流可以被反复利用。一旦某个工作流被证明好用，你可以将它固化为技能，这样 Codex 下次就能直接跑通，而不需要从头开始重新学习这个流程。 ## 随时随地工作 (Work from anywhere) 随时随地与 Codex 协同工作的理念，彻底打破了我们“必须坐在电脑前才能干活”的传统限制。一个任务可以在你装满文件、权限和本地环境的 Mac 电脑上启动，然后当你离开工位用手机查看时，它依然在默默推进。这在很多碎片时间里非常有用。你可以让 Codex 在电脑上跑一个耗时很长的任务，然后自己离开工位去喝杯咖啡。如果在外面时它有问题问你，你可以直接用手机回复、批准它的下一步行动，或者在回座位前就给它指派新的方向。你的本地环境安安静静地待在那里干活，而你的人却可以自由移动。 ## 自动化 (Automations) 自动化功能能让 Codex 按照你设定的时间表自动干活。如果是需要每天从零开始的任务，比如生成日报或者例行检查代码库，那就用“定时自动化 (scheduled automation)”。但如果需要在一个带有历史记忆的对话中继续推进工作，那就用“对话流自动化 (thread automation)”。 > 对话流自动化：就像一种定时唤醒的“心跳”机制，它会按照设定的时间表，定期回到同一个 Codex 对话流中继续工作。把对话流置顶固然好用，但它毕竟还得等你主动回去找它。而“对话流自动化”则可以每隔几分钟或几小时自己去查岗，一直跑到满足某个条件为止，甚至还能根据情况自己调整查岗的频率。比如，你的“幕僚长”对话流可以每 30 分钟跑一次： > 每 30 分钟，去查一下我的 Slack 和 Gmail 里有没有需要处理但还没回的消息。帮我排个优先级。如果有人向我提问，尽可能深入地去查资料，然后帮我起草一份回复，但不要直接发送。当你回到电脑前时，那些最耗时耗力的“收集背景资料”的工作往往已经做完了。作为人类，你只需要做最后拍板发出去的决定。对话流自动化也非常适合用来处理“反馈循环”。它可以默默盯着你在代码合并请求、Google 文档或是 Slack 里的评论，趁你不在的时候自动推进后续的修改工作。想象一个制作动画的场景：审核人在 Slack 里发了一个视频。对话流自动化可以定时检查讨论进度，一旦有修改意见进来，它就自动渲染一版新的，然后在原贴里艾特审核人并回复新视频。如果某个软件的集成接口没法自动完成最终的上传，它甚至能调动“电脑桌面自动化”通过图形界面把最后一步走完。这个完整的闭环跨越了接收反馈的 Slack、负责渲染的代码库，以及负责最终上传的桌面自动化工具。 ## 目标设定 (Goals) 当一个任务有一个清晰的终点线，并且 AI 智能体可以不断朝着那个终点努力时，目标 (Goals) 的威力就彻底爆发了。 > 目标：运行时间更长的 Codex 任务，有一个明确的终点线，AI 会在一段时间内持续向它冲刺。一个糟糕的目标是这样定的： > 把这个 Markdown 文件里的计划实现一下。一个优秀的目标必须有一个可以被衡量的成功标准。比如，一位工程师想把一个内部工具从 Python 语言迁移到 Rust 语言，他可以建好新目录，设定好目标，并画一条明确的终点线： > 直到所有单元测试全部通过，这个新版本的开发才算完成。目标设定，其实就是把“持续执行”和“验证器 (verifier)”结合在了一起。你作为人类来定义想要的结果、何时停止的条件，以及用来判断 Codex 有没有离终点更近的信号。好用的验证器包括： - 一套完整的测试用例 - 一项基准性能测试 - 一个能稳定复现的 Bug - 一个验证矩阵 - 一个必须始终跑通的端到端工作流有野心固然重要，但没有验证机制的野心，就只是在许愿而已。 ## 侧边栏 (The side panel) 侧边栏功能让你生成的工作成果始终和你们的聊天窗口并排在一起。你再也不用把文件导出来，然后痛苦地在不同软件之间切来切去了，直接在原位就能审查。生成的成果可能是代码，但也可能是幻灯片、PDF 文件、网页、表格，或者任何其他生成的东西。它特别擅长处理四种工作： 1. 检查生成文件 (artifacts) 1. 标注需要修改的地方 1. 操作网页界面 1. 审查代码或文件的变更侧边栏允许用户直接原地查看 Markdown 文档、电子表格、数据表、普通文档和幻灯片。你可以不打断现有的工作流，直接检查、做标记、修改文件。你的幻灯片或 PDF 就乖乖敞开在对话框旁边，随时等你检阅和修改。应用内浏览器让 Codex 能够直接检查渲染好的网页，控制它，甚至直接响应你在网页上做的标注。对网页或文件的评论全部留在这个工作闭环里，再也不用像以前那样把它拆分成一个个单独的交接任务了。网页既变成了它的输出结果，也变成了你可以操控的控制面板。Codex 可以建好一个页面，在侧边栏打开它，自己检查它，修 Bug，然后原地不断迭代优化同一个东西。下面这些场景配合侧边栏尤其好用： - 用单个 index.html 来做轻量级的静态展示 - 跑 Storybook 来审查用户界面 (UI) 组件 - 用 Remotion Studio 搞代码生成的动画 - 在浏览器里放映的幻灯片演示 - 用于数据分析流的数据应用 (data apps) 一个简简单单的 index.html 文件就能变成一个好玩的交互式小应用，连服务器都不用搭。而且，对话流自动化还能随着时间推移悄悄更新这些静态文件，这样等你回来时，总能看到最新的进展等着你。 ## 共享记忆 (Shared memory) 当那些长时间运行的对话流能够打破单次聊天的界限，把记忆共享出去时，它们的作用将发生质的飞跃。 > 共享记忆 (Shared memory)：存储在单一对话之外的持久上下文，它可以让未来的工作能够基于一些明确的、可追溯的信息继续推进。一个相对稳妥的做法是，把这些持久的对话流“锚定”在一个 Obsidian 知识库 (vault) 里。说白了，就是建一个存放纯文本文件的文件夹。它简单直白，方便你随时查看、修改、移动，而且能保存很久。团队可以把这个文件夹放在任何你们喜欢的云盘里，比如 Git、Dropbox、Google Drive 或是其他的同步工具中。你的知识库可能长这样： > [text] vault/ ├── TODO.md ├── people/ ├── projects/ ├── agent/ └── notes/ 在最外层目录下，你可以放一个 AGENTS.md 文件。在这里，你可以给 Codex 定规矩：当它了解到关于人员、项目、决策以及待办事项的新情况时，应该如何更新这个知识库。别死板地照抄某一种知识库结构。你需要做的是“教”你的 AI 智能体：那些持久的上下文该放在哪，哪些上下文需要保留，以及什么时候不要瞎折腾去改文件。一份实用的 AGENTS.md 指南里可以这么写： - 把 ~/vault 当作你长期的工作记忆区。 - 尽量把笔记整理得有条理，别搞得到处都是碎片记录。 - 准确地把待办事项、人员、项目、每日总结和草稿分类放好。 - 把做过的决定、遇到的卡点、负责人、日期和有用的链接好好保存下来。 - 如果没有什么实质性的新进展，不要随意修改知识库里的文件。代码库是用来存代码的。而这个知识库，是用来存不断滚动的上下文的：牵涉到哪些人、改了什么、卡在哪里、接下来谁跟进，以及那些如果在两次聊天中间断掉就会彻底消失的细节。重要的上下文绝不应该仅仅锁死在某一次聊天的文字记录里。把它们写下来，放在下一个对话流能够立刻接手的地方。 Codex 自己也在设置 > 个性化 > 记忆中提供官方的记忆功能。它们就像是系统自带的本地记事本，用来记住你的个人偏好、常用的工作流以及一些经常踩的坑。不过，这个功能是用来辅助你清晰写下来的上下文的，而不是取代它。Chronicle 记忆组件也是同样的思路，它能帮 Codex 从你最近屏幕上发生的事情中提取并构建记忆。 ## 从代码向外延伸 (From code outward) Codex 虽然还是以写代码为本行起家，但现在，围绕代码的诸多周边工作，都能在这个同一套系统里搞定了：无论是 MCP 服务器、网页界面、电脑桌面控制、对话流自动化，还是那些可以在侧边栏直接审查的文件。这彻底改变了我们控制它的方式。“任务干预”可以在中途打断它的动作；“任务排队”可以帮它安排好下一步；“对话流自动化”能让你人不在场时系统依然运转；而“目标设定”则给它画了一条清晰的终点线，让 Codex 知道要一直往哪里冲。如今的 Codex 已经可以扛起一个完整的工作流：从听取指令、执行任务，一直到最终文件的审查。哪怕这些工作早已经超出了代码库的范畴，它也依然游刃有余。

译Codex已从单纯的代码生成工具，进化为能处理各类电脑任务的“全能打工人”。其核心在于利用持久对话流实现长期记忆，并能调用浏览器、电脑操控等工具，打破工作流限制。通过自动化与目标设定，Codex可离线持续工作，大幅提升生产力。

向阳乔木@vista8 · 5月21日75

这个项目牛逼啊，增强（Hack）你的 Codex App。即使你用API 登录Codex，也可以通过安装插件方式用上 Computer Use、添加上Goal指令。界面样式也能调整，比如变成类似Chrome的顶部Tab。设置任务开始、完成的声音提醒等等。开源项目地址见评论区

译一个开源项目允许用户增强Codex App的功能。即使通过API登录，也能通过安装插件的方式启用Computer Use特性并添加Goal指令。项目还支持界面自定义，例如调整为类似Chrome浏览器的顶部Tab样式，并可设置任务开始和完成的提醒音效。相关开源项目地址已在评论区提供。

elvis@omarsar0 · 5月20日74

http://x.com/i/article/2056851733582880768 # Automating LLM Fine-Tuning with Fireworks Agent ## From Context Window to Weights Andrej Karpathy (@karpathy) recently described the personal LLM Wiki as a kind of pre-AGI memory aid, a curated repo of notes about papers, tools, and ideas you read into context when you want a model to reason over them. In his viral post, Karpathy flagged the obvious next move: "As the repo grows, the natural desire is to also think about synthetic data generation + finetuning to have your LLM 'know' the data in its weights instead of just context windows." Building LLM Knowledge Bases or LLM Wikis is already possible with agents like Claude Code or Codex, but this approach can quickly get inefficient and expensive as you try to scale them. Fine-tuning LLMs to maintain your knowledge bases is often a more efficient path forward. This post takes that next step by putting the wiki's output style into the weights. In under ten minutes of GPU time and a couple of cents of compute, a small open-weight model writes summaries of new papers in the exact format the wiki uses, with no system-prompt gymnastics, no few-shot exemplars, and no router logic. Once deployed, the summary comes back in a single fast call, fast enough to use inline inside a larger agent loop rather than as a batch job. The harder version (parametric knowledge injection of the wiki's contents) is the natural follow-up to Karpathy's framing, and I treat it as future work at the end. The interesting part is not the model itself, but that one @FireworksAI_HQ Agent session did the entire pipeline (dataset inspection, hyperparameter sweep, full training, deployment, and a working inference endpoint). Fireworks Agent is the autonomous orchestration layer for fine-tuning runs, where you give it a natural-language goal, and it plans, executes, and surfaces decision gates back to you. The whole flow can be driven from a coding agent you already use (Claude Code, Codex, or similar), which is how I ran it. The bigger picture this points to is self-improving LLMs and agents. Once training is a callable step inside an agent loop, the same coding agent that drives your workflow can also kick off fine-tuning runs to bake recurring patterns (a wiki's voice, a coding style, a triage policy) into the model itself, closing the loop between using a model and improving it. The rest of this post is the full walkthrough. All resources from this run are available in a companion repo, including the training and validation splits (train.jsonl, val.jsonl, wiki-sft-2026.jsonl), the data-build scripts (parse_2026.py, fetch_abstracts.py, build_jsonl.py), the pilot-agent.md slash command, the smoke-test script (test_new_deployment.py), and the baseline-vs-fine-tuned comparison code (before_after.py). Grab it at github.com/dair-ai/wiki-sft, clone it, point it at your own corpus, and reproduce the run end to end. ## Why Output Style Is the Right First SFT Target For a personal wiki, the high-leverage thing is consistency. Readers recognize a summary by its shape, which is a one-paragraph lede that names the authors' affiliation and the core contribution, followed by three to five bulleted takeaways with bolded short labels. A capable base model can be coaxed into this format with a careful system prompt, but the failure modes are familiar. It reverts to title-case headers, drops the affiliation line, varies bullet count, and sneaks in marketing language. Supervised fine-tuning (SFT) fixes this at the parameter level. Once the format is in the weights, every generation conforms by default, and the system prompt collapses to a single sentence (or drops out entirely). The cost stays small when the dataset stays small, and a clean stylistic dataset of 50 to 100 examples is usually enough to get started. ## Handing the Work to an Agent Most fine-tuning tutorials walk you through ten distinct steps. You format your data, upload it, choose a base model, decide on LoRA rank and learning rate, launch a job, parse logs, pick a winner, retrain on full data, deploy, and smoke test. Each step is its own surface to mess up, and you end up playing the role of a tuning agent yourself. Fireworks Agent inverts this. The interface is firectl session create -n "<your instruction>", where firectl is the Fireworks CLI. After that, you watch events stream and respond to gates when the agent surfaces a decision, such as the proposed plan or the hyperparameter (HP) sweep results. Fireworks also ships a Claude Code slash command (or you can format it as an agent skill), pilot-agent.md (previously known as Pilot Agent), that wraps the firectl commands and handles event streaming, gate detection, and resume-from-last-timestamp logic. ## Full Walkthrough Step 0: Setup Install the Fireworks CLI and confirm your account. In the Fireworks dashboard, create a service account that has the permissions Training Agent needs (the role that lets it launch training jobs and deployments on your behalf), then generate an API key tied to that service account. Also, create a separate user-level API key for inference and deployment inspection. Drop both into a .env file next to the project. Step 1: Build the Dataset The training data I use consists of chat-format records derived from the DAIR.AI Top AI Papers of the Week wiki, drawn from the top 5 papers per week in 2026 and paired with their arXiv abstracts. Three small Python scripts handle the pipeline, namely parse_2026.py (wiki to structured entries), fetch_abstracts.py (arXiv abstract lookup), and build_jsonl.py (chat-format assembly). The chat schema is the standard Fireworks shape: The final outputs are train.jsonl and val.jsonl (plus the combined wiki-sft-2026.jsonl for reference), with about 90 percent of records reserved for training and 10 percent for validation. Step 2: Upload the Dataset to Fireworks Confirm the dataset is `READY`: The dataset path you will pass to the Fireworks Agent looks like accounts/<your-account>/datasets/wiki-sft-2026. Step 3: Kick Off the Fireworks Agent This is the entire user-facing config for the run, just one instruction. The session returns an ID like 1777224532-7ddb. Stream the events: The --wait flag is important; without it, the command dumps existing events and exits. The Claude Code slash command handles this for you. Step 4: Approve the Plan and Promote the Winner The agent surfaces two gates. The first is a plan with a cost estimate and three HP configs to sweep in parallel, with validation loss as the evaluator, which you approve to resume streaming. The HP sweep then runs three SFT jobs in parallel and returns a ranked table, after which the agent surfaces a second gate with the winning config. In my run, the top three configs landed very close to each other on eval loss, which tells you the task is not particularly HP-sensitive at this dataset size, so approving full training is the obvious next step. Full training takes about eight minutes of GPU time and costs a few cents. Step 5: Verify the Deployment Deployment is where ad-hoc fine-tuning workflows usually go sideways, picking the wrong accelerator, missing a compatible shape, or stalling on capacity. The agent handles the recovery itself, so the session lands at status succeeded with a READY scale-to-zero deployment. Confirm the deployment with the following command: Step 6: Call the Model Inference uses the standard Fireworks chat completions endpoint, with a deployment-pinned model ID so requests route to your custom deployment: Once warm, calls return fast enough to use as an inline step inside an agent rather than a batch job. ## Why This Workflow Pays Off I tested the fine-tuned model on a few papers that sit outside the training set, sending the same system prompt and abstract to both the baseline qwen3-8b and the fine-tuned model. The fine-tuned model produces affiliation-led ledes that name the researchers' lab, followed by three to five bullets with bolded short-label prefixes (Method:, Performance Gains:, Scalability:), and an analytical, non-promotional tone. For instance, on Chain-of-Thought, it opened with "Researchers at Stanford University demonstrate that chain-of-thought prompting significantly enhances large language models' reasoning capabilities..." That is the wiki's voice, baked into the weights and produced in a single fast call. The practical payoff is that you no longer need a large, inefficient LLM or agent to write the summaries for your LLM Wiki. A smaller fine-tuned model can do it effectively, efficiently, and cheaply. Getting the style and tone right matters for this use case, and no amount of tuning a skill or system prompt can replace what a properly fine-tuned LLM gives you. Two more things make this useful beyond a one-off experiment. First, training becomes a tool, not a project, with one CLI command, cents of compute, and a real callable endpoint at the end, while the agent handles the boring failure modes. Second, you own the resulting model. The weights live in your account, deployed on infrastructure you control, and the idle cost is zero. At this price and friction, reaching for SFT becomes a reasonable answer to a much wider set of style and format problems. ## What's Next, Knowledge in the Weights I intentionally stopped at style transfer because it is the cleanest first SFT target on a small dataset. The harder version Karpathy described (your wiki's contents in the weights) is the natural follow-up, with synthetic data generation, more training records, and knowledge-recall evaluators in the loop. The pattern generalizes beyond a personal papers wiki. Any structured knowledge surface (an internal docs wiki, a product manual, a research vault) is a candidate for the same two-step recipe, where you SFT on style first and layer knowledge injection on top. A model that has internalized both the voice and the substance of a corpus is what makes a personalized agent on top of it genuinely useful. Fireworks Agent is currently in private preview and will be generally available soon. If you are thinking about applying this workflow to your own corpus and want to request access or talk it through with the Fireworks team, reach out at fireworks.ai/contact-training.

译本文探讨了通过微调，将个人知识库（如LLM Wiki）的内容从依赖上下文窗口，转变为固化到模型自身权重中的方法。关键在于利用如Fireworks Agent这样的自主AI代理，仅需提供自然语言目标，它就能自动完成从数据准备、训练到部署的完整微调流程。这标志着模型自我改进的闭环成为可能：当训练成为AI工作流中一个可调用的步骤时，模型能主动将反复使用的模式（如特定写作风格或决策逻辑）学习并内化到权重中，从而实现使用与优化的持续迭代。

🚨 AI News | TestingCatalog@testingcatalog · 5月20日69

ICYMI 👀: SuperGrok and X Premium subscriptions can now be used with OpenClaw! > If you already have a Grok or X Premium subscription, you can now use Grok models inside OpenClaw. Connecting Grok to your OpenClaw agent is available on every tier.

译ICYMI 👀: SuperGrok和X Premium订阅现在可用于OpenClaw！ > 如果您已有Grok或X Premium订阅，现在可以在OpenClaw中使用Grok模型。将Grok连接到您的OpenClaw代理功能现已向所有订阅层级开放。

向阳乔木@vista8 · 5月20日45

AI 全自动完成一个Chrome插件的上架填写工作。工具：Codex 客户端 + Chrome 官方插件。填写过程甚至发现用中文输入法会干扰内容输入，自己写了个 Python 进本，直接复制粘贴填写。表单填写速度不算快，但对没过这件事儿，懒得写各种说明文案的人来说，速度不是问题。

译通过Codex客户端与Chrome官方插件，AI能全自动完成Chrome插件的上架表单填写工作。流程中发现中文输入法会干扰内容输入，于是编写Python脚本，采用复制粘贴方式解决。虽然填写速度不快，但对不愿手动处理说明文案的用户而言，这种自动化方式提供了高效便捷的替代方案，降低了操作门槛。

向阳乔木@vista8 · 5月20日71

第二项工作启动，让Codex控制Chrome浏览器自动上架Chrome插件。 1. 添加项目文件夹，新建对话说：“把这个Chrome插件上架到谷歌Chrome商店” 调用Browser use搞定： - 隐私协议地址：[URL] - 资料文案：[本地文件地址] 2. Codex 会自己检查创建Chrome插件压缩包然后控制浏览器打开网页上传。

译用户完成了两项自动化相关工作：首先开源了常用油猴脚本，支持小红书、抖音等平台截图自动上传、YouTube字幕处理及播客倍速调整；其次利用Codex通过控制Chrome浏览器，实现了插件上架流程的自动化，包括自动处理隐私协议、资料文案、打包压缩包并上传至Chrome商店。

meng shao@shao__meng · 5月20日67

Google Stitch 也在 Google I/O 2026 首日发布了五个重要更新（Google 真是每年 I/O 爆一次啊，都憋着呢？） # Google Stitch 这次更新，让它从「等一整屏生成完」变成「边做边改、边预览边同步代码」，一起看看主要更新。 1. Streaming 生成/编辑过程实时流到画布；未完成即可纠偏；尊重系统减少动态偏好 2. 从现有设计起步从代码库 / .fig / 活站生成 DESIGN.md；入口在主提示框上方及每个提示框内；公开仓库分析靠 Gemini Agents API 3. In-place AI Edits 点选 + 指令局部改（换图、删元素、挪区块）；支持直接上传替换图片 4. Motion + HTML Canvas JS / SVG / Shader 在 HTML 原生 canvas 上渲染；默认原生 HTML；选中屏可点按、测 hover（双击进编辑） 5. Import / Export .fig → DESIGN.md；一键导出 Netlify（可 claim 的 live URL）、Lovable、Bolt Bonus：代码库 <-> Stitch 通过 MCP + Agent Skills（Antigravity 等）导入屏到 Stitch，视觉改完后，同步回代码库官方入口：http://stitch.withgoogle.com Skills 仓库：google-labs-code/stitch-skills # 非常值得单独理解的三个「架构级」变化 1. DESIGN.md 成为中枢，而不只是文档上月已开源 DESIGN.md（单文件描述产品 look & feel，面向 agent）。本次把它推到工作流中心： · 进：代码 / Figma / 网站 → 自动生成 DESIGN.md → 再在 Stitch 里续设计 · 出：.fig 上传也能抽出 DESIGN.md · 横移：一键落到 Netlify / Lovable / Bolt 含义：设计意图被结构化、可版本化、可被 coding agent 读写，降低「截图 + 口头描述」的信息损耗。 2. 画布从「展示层」变成「可交互运行时」 · 默认原生 HTML 渲染（不再只是静态 mock） · 动效、hover、按钮可在画布内试——更接近原型 + 前端预览，而不是纯视觉稿 · 与局部编辑、流式生成组合：改一小块 → 立刻看交互与动效，而不是等整屏重绘对团队：设计评审可更早覆盖状态与动效；对工程：输出更接近可落地的前端形态（仍须以实际导出/同步质量为准）。 3. Bonus 才是「设计—开发闭环」的完整拼图前五条偏 Stitch 产品内体验；Bonus 明确 Agent + MCP 路径： · 从现有代码库把 screen 导入 Stitch · 在 Stitch 视觉编辑（vibe design） · 经 MCP 写回仓库这与 Cursor / Antigravity 等 coding agent 生态对齐，Stitch 定位为可视化编辑层，代码库仍是 source of truth（双向同步的具体粒度、冲突策略需看 skills 文档与实测）。

译Google Stitch 在 I/O 2026 推出五大核心更新，标志着从异步生成转向实时可交互协作模式。新增 Streaming 功能，支持边生成边预览与纠偏；能从代码、Figma 或网站自动生成 DESIGN.md 作为设计中枢；画布升级为原生 HTML Canvas 交互运行时，可实时测试动效；支持一键导出至 Netlify 等平台，打通设计到部署流程；通过 Agent 与 MCP 技术，实现视觉设计与代码仓库双向同步，形成完整设计-开发闭环，定位为连接设计师与开发者的可视化编辑枢纽。

AYi@AYi_AInotes · 5月20日76

兄弟们，喜大普奔啊！从今天起，你可以用已有的 Grok / X Premium / SuperGrok 订阅，直接在 OpenClaw 里使用 Grok 模型了，而且不需要单独申请 API Key，也不需要额外付费。可以说是xAI 把 Grok 推向个人 AI 操作系统级别的迈出了关键一步，让普通用户也能零门槛跑一个属于自己的、带记忆、能联网、能生成多媒体的 AI 助理！