6月24日

02:26

Hugging Face：Blog（RSS）

精选64

Transformers.js 在浏览器中运行 AI 模型时，不同来源的 Web 应用会重复下载并缓存相同的模型资源（如 Xenova/whisper-tiny.en）和 Wasm 运行时文件（如 4,733 kB 的 ort-wasm-simd-threaded.asyncify.wasm），即使资源 URL 相同，浏览器因 Network Isolation Key 隔离缓存，单次 demo 就产生 177 MB 冗余下载和存储。Cross-Origin Storage API 是一项早期提案，旨在让跨来源应用共享缓存的模型和运行时资源。目前该 API 尚未在浏览器原生实现，但可通过 Chrome 扩展注入 polyfill 进行实验。

Hugging Face 开源生态教程/实践部署/工程

推荐理由：这个Chrome提案让不同网站的AI模型共享缓存，对用Transformers.js的Web开发者是切实的性能改进，但还只是早期实验。

01:50

elvis@omarsar0

DAIR.AI 创始人 Elvis Saravia 推荐开源（MIT 许可）工具 Latitude，用于 AI 智能体可观测性。将 Latitude 指向 Claude Code 配置后，可实时查看哪些任务消耗 token 预算，观察智能体行为、捕获重复失败及其频率与原因，并在编辑器中直接修复。引用推文指出：公司最被低估的数据源是 AI 智能体对话，Latitude 能捕捉这些被浪费的数据。免费试用地址：latitude.so。

cesar.wtf: Most underrated data source in a company: your AI agent's conversations. Your agent talks to more customers than any emp...

智能体教程/实践部署/工程

01:14

Claude：Blog（网页）

Claude Tag 的 Agent Identity 访问模型

Claude Tag 推出 agent identity（智能体身份）访问模型，让 Claude 在共享频道中以独立身份工作，而非模拟某个用户。管理员在工作区级配置连接器、仓库访问、技能插件和固定指令等权限，每个频道可覆盖继承的基线设置。私有频道拥有独立身份，记忆和访问不跨频道流转；公共频道共享工作区级身份。该模型为自主多玩家 AI 场景设计，允许频道成员通过 Claude 访问已授权工具和数据，同时通过按身份撤销简化权限管理。

智能体 Anthropic 教程/实践部署/工程

01:10

Meta Engineering Blog（RSS）

Meta 如何为 AI 眼镜设计超窄钢壳电池

Meta 工程团队为 Ray-Ban Meta 等智能眼镜开发了宽度仅 7mm 的钢壳电池。传统软包电池难以塑形且空间利用率低，Meta 改用叠片式电极结构以降低阻抗、避免多任务时电压骤降，并将公差控制在约 100 微米以释放更多体积。Gen2 电池容量从 160 mAh 提升至 210 mAh，但续航翻倍主要来自软硬件系统级效率优化。Oakley Meta Vanguards 双电池面临交叉充电与启动关机时序难题，而 Meta Ray-Ban Display 则搭载了最大的 248 mAh 钢壳电池以支持屏幕持续供电。该超窄方案正推广至其他硬件形态。

Meta 教程/实践端侧

6月23日

23:50

elvis@omarsar0

一篇博客文章汇总了在 GLM-5 上进行强化学习所需的所有基础设施组件。主推文作者强烈推荐阅读，并认为这对自我改进智能体发展至关重要。

elie: every infra piece you need to know to do RL on GLM-5 https://www.primeintellect.ai/blog/rl-at-1t-scale

智能体教程/实践数据/训练

23:46

Nathan Lambert@natolambert

Nathan Lambert: New lecture for the book! Nominally about synthetic data, but mostly is a walk through of the distillation literature fr...

教程/实践数据/训练

23:32

向阳乔木@vista8

网友用AI总结新智元标题规律并发布生成Skill

网友Vista通过AI分析新智元标题风格，总结出中位长度32字、标点使用率近八成、数字出现率56.7%、英文名出现率90.8%等规律，并发布名为joeseesun/qiaomu-xinzhiyuan-title的Skill，可用npx skills add安装，生成类似标题。

向阳乔木: 看看这个skill生成的标题,是不是有新智元的味道了😂

GitHub 教程/实践编码

23:16

Berryxia.AI@berryxia

网友分享一张AI生成图，图中Exo集群的网线、C口、电源线等硬件细节明显错误，暴露了图片是AI所作。引用推文指出，2026年最新炫富方式不再是豪车名表，而是在家部署一个满血GLM5.2模型集群。

Max For AI: 我觉得现在豪车、名表或者什么首饰的炫富方式已经过时了。 2026年的方式是:我在我家部署了一个满血GLM5.2🫡

图像生成教程/实践

23:15

Nathan Lambert@natolambert

Nathan Lambert 新讲座：名义合成数据，实为知识蒸馏文献巡礼

Nathan Lambert 为其新书发布讲座（7.4 小时），名义上关于合成数据，实则系统梳理知识蒸馏文献——从 Hinton 2015 年论文到现今主流的 on-policy 蒸馏（OPD/MOPD/OPSD）。他重点分析了使 on-policy 蒸馏落地所需的 3-4 个核心数学改动。讲座还回顾了合成数据逐步取代后训练数据研究的历史，并介绍了 Constitutional AI、rubrics 等流行方法。提供章节时间戳（00:00–45:50）。

安全/对齐教程/实践数据/训练

23:02

向阳乔木@vista8

看看这个skill生成的标题，是不是有新智元的味道了😂

教程/实践

21:20

karminski-牙医@karminski3

Doubao-Seed-2.1-pro 发布，作者分享自我迭代 Agent 构建技巧

字节跳动发布 Doubao-Seed-2.1-pro 模型。作者分享自我迭代 Agent 技巧：用两个 Agent（打工+评审），打工 Agent 完成任务后，评审 Agent 输出结构化评分（JSON）并说明优劣；打工 Agent 根据评分修改，评审 Agent 再次打分，仅当新得分高于上次才合并修改。此方法基于 AI 反馈的强化学习雏形，类似吴恩达 Agentic Workflow 中的 Reflection 原则。最终利用 Seed-2.1 的强多模态与自我迭代能力，实现“上传城市相册即可建模整个城市”的 demo。

智能体教程/实践

21:14

Josh Woodward@joshwoodward

⚽️在@GeminiApp 中将你的球队忠诚转化为定制卡牌、壁画或虚拟毛绒玩具如何创建你的作品： 1）访问 http://gemini.google 或打开应用 2）点击"图片"（侧面板） 3）选择"Get in the game"模板 4）上传你的照片并在此分享你的输出

Google 图像生成教程/实践

21:11

AYi@AYi_AInotes

EverOS 1.0.0：给AI Agent搭建持久记忆的开源本地记忆操作系统

EverOS 1.0.0是一款开源、本地优先的记忆操作系统，专为AI Agent提供跨会话持久记忆。其核心是将记忆存储为可直接cat、git、编辑的Markdown文件（唯一可信来源），配合SQLite管理状态、LanceDB处理向量/BM25索引及标量过滤，无需Docker或向量数据库集群。官方基准：LoCoMo 93.05%、LongMemEval‑S 83.00%、HaluMem约90%+。支持多模态摄取（PDF/图片/网页URL），任务可自我演化成可复用Skill，计划加入Knowledge Wiki和Reflection。用户通过CLI（everos init/server start）约30分钟上手。

智能体开源生态教程/实践部署/工程

19:10

公众号：小红书技术（dots.llm）

小红书QEcon分享：Agent驱动的服务端端到端测试

小红书质效研发团队提出用AI Agent破解端到端测试的跨域、长链路、组合爆炸三大痛点。传统方案自动化覆盖率仅20%，新方案以Coding Agent为核心，采用逆向链式推导与知识库渐进式加载实现动态规划，Debug-first策略生成脚本，并结合工具级与链路级双层经验沉淀形成自进化飞轮。数据构造从小时级降至分钟级，常见场景秒级完成，新业务域接入从数天缩至分钟级。Agent直接理解测试意图、自主调用接口，无需预设编排。

智能体推理教程/实践

18:03

fofr@fofrAI

今天，Interactions API 正式可用，作为 Gemini 模型和智能体的主要接口。该 API 基于开发者反馈构建，针对有状态、智能体的工作流优化，带来 Managed Agents、后台执行、扩展工具支持、多模态生成以及即将推出的 Gemini Omni 等新能力。开发者可通过 `npx skills add google-gemini/gemini-skills --skill gemini-interactions-api --global` 为其 agent 添加该 API 技能。

Google: Today, the Interactions API is now generally available as our primary interface for Gemini models and agents. Built base...

智能体 Google MCP/工具教程/实践

16:12

Hugging Face：Blog（RSS）

精选59

我们用免费本地模型对 OpenClaw 仓库进行实时分类

Hugging Face 在 OpenClaw 仓库上测试用 Gemma 和 Qwen 等本地模型实时分类 issue 和 PR。他们使用 Pi agent harness 驱动模型，配合 reposhell 只允许读操作防止提示词注入。测试的模型包括 gemma-4-26b-a4b 和 qwen3.6-35b-a3b，经性能优化后均可在本地生成数百 token/s。该方案运行在 NVIDIA GB10（128 GB 统一内存）上，相比每月 200 美元的 ChatGPT Pro 订阅，可实现近乎实时的通知且仅消耗电费。

智能体 Hugging Face 开源生态教程/实践

推荐理由：Hugging Face 演示了用本地模型自动 triage GitHub issue 的完整方案，包括只读 shell 防注入、agent harness 等工程技巧。对想用本地模型替代 API 做分类任务的团队，这是一套可直接借鉴的 recipe。

16:12

Hugging Face：Blog（RSS）

精选67

huggingface_hub 实现每周发布：AI、开源工具、人工审核闭环

Hugging Face 将 huggingface_hub 的发布周期从每 4‑6 周缩短至每周，全部由单个 GitHub Actions 工作流自动完成。流程依赖开源工具和开权重模型（当前为 Z.ai 的 GLM‑5.2）来起草发布说明和 Slack 公告，但保留人类在最终审核环节的决定权。自动步骤包括版本号更新、提交标签推送、PyPI 发布、下游测试分支创建、发布说明草稿、Slack 公告草稿、归档、后置版本提升以及对合入 PR 的评论。所有组件均基于开源生态构建，任何维护者都可直接复制使用。

智能体 Hugging Face 开源/仓库教程/实践

推荐理由：Hugging Face 把周更流程完全开源，用 GLM-5.2 生成发布说明初稿，再加确定性校验和人工修订，成本低到两毛五一次。想提高发版频率的 Python 库维护者可以直接 fork 适配。

14:41

MarkTechPost（RSS）

GLM-5.2 OpenAI 兼容 API 实践指南：推理控制、函数调用与长上下文检索

GLM-5.2 通过 OpenAI 兼容 API 提供深度思考开/关、推理努力级别（high/max）、流式推理与回答、函数调用、工具代理、结构化 JSON 输出及长上下文检索。API 输入每百万 token 1.40 美元、输出 4.40 美元，支持 zai、OpenRouter 等多提供商访问。教程演示了从客户端设置、API key 安全加载到可复用聊天封装与成本追踪的完整开发流程。

MCP/工具推理教程/实践部署/工程

11:36

jason@jxnlco

Codex 现实生活

OpenAI 教程/实践编码

11:14

Berryxia.AI@berryxia

YouMind 接入豆包 Seed2.1 Pro 实测

YouMind 已支持豆包（Doubao）Seed2.1 Pro 模型，据称性能可媲美 Opus 4.6，且积分消耗更低。有用户试用该模型仅凭简单提示词生成网页游戏，评价其逻辑关系与审美表现尚可，并计划后续测试 Skills 功能。

Frank Wang 玉伯: YouMind 已支持 Seed 2.1 模型,据说媲美 Opus 4.6 积分消耗少很多,欢迎试用

MCP/工具教程/实践

10:14

Hacker News 热门（buzzing.cc 中文翻译）

window.showDirectoryPicker 为您开启了一个崭新的世界

Chrome 推出新 API window.showDirectoryPicker()，允许网页请求用户授权读写本地目录中的文件。作者利用 Claude 生成了模仿 Apple Aperture 界面的照片管理原型，支持在浏览器内查看、创建文件夹、移动照片，所有操作直接作用于用户文件系统。还基于 Claude 创建了受 Apple Shake 启发的节点式合成应用，可绘制多边形并叠加到源图片上。整个过程无需手写一行代码。

教程/实践编码

09:14

OpenRouter：Announcements（RSS）

精选72

OpenRouter：通过API路由实现AI数据驻留合规

Deloitte 报告显示 77% 的公司将供应商国籍纳入 AI 选型考量。OpenRouter 将数据驻留视为路由决策：通过 API 请求中的 provider 对象设置 order 或 only 限定服务商、allow_fallbacks 为 false 禁止回退、data_collection 为 deny 禁止数据存储或训练、zdr 为 true 要求零数据保留。示例以 anthropic/claude-sonnet-4.6 调用，首选 Anthropic 直连和 Amazon Bedrock。针对欧盟需求，可限制仅 Mistral 等欧盟总部供应商。若无可合规供应商，API 返回错误而非路由至不合规服务商。

教程/实践部署/工程

推荐理由：OpenRouter 这篇指南把数据驻留从一个基建难题退化成一次 API 请求里的路由配置，对需要合规的团队是直接可抄的实操手册。

09:14

OpenRouter：Announcements（RSS）

精选62

AI 治理清单：LLM 架构先行

Deloitte 报告显示企业 AI 抱负与治理成熟度之间差 53 个百分点，74% 计划两年内部署智能体 AI，仅 21% 拥有成熟治理模型。路由架构是首个治理层。三种姿态——托管网关（如 OpenRouter、Portkey）、自托管网关（如 LiteLLM）和直接 API——默认治理能力不同，直接 API 缺乏统一控制面，造成治理盲区。治理清单可映射为资产盘点、问责制、访问控制、证据记录与合规性五大支柱。路由层能提供跨团队可见性与审计证据，而电子表格不能。

教程/实践部署/工程

推荐理由：这不是另一篇泛泛的治理框架文章，它把合规差距直接映射到路由架构上，三张对比表格比政策文档更有用，做 LLM 平台或 infra 的团队值得对照检查自己的堆栈。

09:13

Berryxia.AI@berryxia

成峰开源剪辑Skills接入Codex，Agent自动完成口播视频剪辑与合成

成峰开源了一款2000+ Star的剪辑Skills，与Codex结合后，Agent可自动完成口播视频的剪辑、分镜、动画及合成。流程：先安装Skills，用/剪口播命令上传素材和文稿，生成审核页并输出带字幕视频；再用/口播成片命令生成HTML分镜核对页，用户反馈后Codex通过Computer Use自动调整，最后用HyperFrames合成最终MP4。视频生产从手动执行转向流程编排。

Agent成峰: http://x.com/i/article/2068926393719685120

智能体 MCP/工具开源/仓库教程/实践

08:14

Hacker News 热门（buzzing.cc 中文翻译）

同事件精选84

GLM-5.2 开源模型发布：744B 参数，1M 上下文，可本地运行

Z.ai 发布 GLM-5.2，开源 744B 参数（40B 活跃），1M 上下文窗口，性能与 Claude 4.8 Opus、GPT-5.5、Gemini 3.1 Pro 持平。通过 Unsloth 动态量化，2-bit GGUF 版本内存需求降至 239GB（-84%），1-bit 版降至 217GB（-86%），可运行于 256GB 统一内存 Mac 或 1×24GB GPU+256GB RAM。提供非思考、高、最大三种思考模式。评测显示动态 1-bit 准确率约 76.2%，2-bit 约 82%。

GitHub 开源生态教程/实践部署/工程

同一事件，精选展示《GLM-5.2 上线并开源：专注 Coding 与长程任务》

推荐理由：Unsloth 这篇操作指南把 GLM-5.2 从「只能仰望」变成了「可以在自家 256GB Mac 上跑」，动态量化让 744B 参数模型降到了 239GB 磁盘占用，对想上手本地最强开源模型的人，这一步正好踩在从 curiosity 到可用的临界点上。

08:01

Simon Willison 博客

Moebius 0.2B图像修补模型借助Claude Code移植到浏览器运行

Moebius 0.2B轻量级图像修补模型（自称10B级性能）原依赖PyTorch与NVIDIA CUDA。Simon Willison使用Claude Code将其转换为ONNX格式，通过WebGPU后端在浏览器中运行。用户可上传图片、标记待修复区域，点击按钮等待模型修补。移植后的1.24 GB ONNX模型权重发布至Hugging Face，前端代码托管于GitHub Pages并启用自动部署。整个移植过程（含环境准备、模型转换、UI构建、部署）在Claude Code辅助下完成，作者还使用Claude.ai进行可行性调研。

Hugging Face 教程/实践端侧编码

04:05

OpenRouter@OpenRouter

提示 💡：如果你安装了 @1Password，OpenRouter 会检测到它并帮你保存你的 API 密钥。

教程/实践

02:16

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

Codex 用于长期工作：最大化效能实践

OpenAI 发布白皮书，由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流，并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性，以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体 OpenAI 教程/实践编码

推荐理由：这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace，对管理长周期项目的团队有实操借鉴，但终究是厂商教程，未提供突破性方法论。

02:08

AYi@AYi_AInotes

用户通过Claude Fable 5总结出AI生成性感人像提示词的8种有效写法：用"成人+气质+材质"定人设；用"服装剪裁+面料质感"替代直白身体描述；用"表情瞬间"制造吸引力；用"镜头语言"强化质感；用"光线"塑造皮肤轮廓；用"背景虚化+前景留白"凸显主体；用"克制的性感"而非夸张；用强负面词避免跑偏。此外还需使用干净住宅IP以避免风控拒绝。

AYi: 跟大家分享下绝版的Claude Fable 5总结的AI生图焚决,+2个顶级美女人像提示词,这篇至少值3000块! 昨晚睡前让Fable 5总结了AI生图之性感人像提示词最有效的写法: 1️⃣用"成人 + 气质 + 材质"来定人设,比如 2...

图像生成教程/实践

01:08

Google Developers Blog（RSS）

精选56

Google ADK 与 A2A 协议：跨语言多智能体团队构建实战

一篇技术博客展示了如何用 Google Agent Development Kit (ADK) 与 Agent2Agent (A2A) 协议搭建跨语言多智能体流水线：Python agent 调用 Gemini 解析合同条款，Go agent 用纯确定性逻辑校验合规性。A2A 协议通过 Agent Card 实现能力发现、JSON-RPC 2.0 完成通信、Task 状态机管理任务生命周期；ADK 的 RemoteA2aAgent 抽象可将任意 A2A 兼容服务封装成本地子智能体。文中强调将单体提示词分解为专业化微智能体，以解决上下文退化、故障爆炸半径和不可测试性问题。完整源码已在 GitHub 发布。

智能体 Google MCP/工具教程/实践

推荐理由：Google 这篇教程把跨语言多智能体协作说得很实，A2A 协议像代理世界的 HTTP，不过整套方案还是绑在 Google 生态上，自己玩的话迁移成本不低。

00:35

jason@jxnlco

我刚刚读了这篇文章：https://shnatsel.medium.com/the-unreasonable-effectiveness-of-llms-for-auditing-rust-code-d4df8bf0afd3

教程/实践编码

6月22日

23:42

SenseTime@SenseTime_AI

商汤SenseTime感谢YouTuber xCreate拆解SenseNova U1，展示文本-图像推理与信息图表生成能力

商汤SenseTime发布推文，感谢YouTuber xCreate对SenseNova U1模型的详细拆解，重点展示其文本-图像交错推理（text-image interleaved reasoning）和信息图表（infographic）生成能力。推文附有逐步指南，指导用户通过SenseNova Studio在线使用或本地运行模型。相关资源包括YouTube视频、HuggingFace模型集合、GitHub仓库及Discord社区链接。

GitHub Hugging Face 图像生成多模态

23:12

Berryxia.AI@berryxia

沉浸式翻译接入免费模型教程：以小米MiMo为例

教程演示如何将免费或低成本模型接入沉浸式翻译。步骤：设置→翻译服务→添加自定义翻译服务→选择“自定义AI”→填入API Key和接口地址（以小米MiMo为例，Base URL: https://api.xiaomimimo.com/v1/chat/completions）→选择对应模型（可勾选“输入自定义模型名称”）→点击测试服务，通过即完成配置。后续可在服务选项中切换使用自定义模型。全程视频演示。

铁锤人: http://x.com/i/article/2068948931959255040

教程/实践部署/工程

20:11

Berryxia.AI@berryxia

Serva总结AI平台防封号四件套方案

Berry Xia推荐Serva总结的AI平台防封号方案，针对Claude/ChatGPT因风控被封号。四件套包括：eSIM卡（BeeSIM硬件+giffgaff英国号）获取真实海外手机号；静态住宅IP（EqualVPN美国家庭宽带）避免数据中心IP；指纹浏览器（AdsPower）模拟美国用户环境；虚拟卡（YIKA美国发卡）匹配账单地址。核心思路是将注册、登录、支付、使用全流程身份信号对齐为真实美国用户。单独用VPN或虚拟卡效果有限，四件套组合更稳定。原文附有详细截图步骤。

huangserva: http://x.com/i/article/2069009496891121664

Anthropic OpenAI 教程/实践

20:07

AYi@AYi_AInotes

阿易 AI Notes 用 Apodex 核查"白毛股神"CPO 叙事：五条声称四条站不住

阿易 AI Notes 用自我验证型 AI 工具 Apodex，拆解“白毛股神”关于 $SIVE 和 CPO 的投资叙事。核查发现五条核心声称中四条站不住：GB200 大量采用 CPO 为假（实际用铜缆）；800V 转型与 GB200 同步不成立（GB200 用 54V）；$SIVE 被夸大为“最纯受益标的”（近 70% 营收来自无线业务）；技术壁垒最高查无实据。英伟达更倾向投资中游厂商。核查报告附 23 条一手来源。

教程/实践现象/趋势

19:30

公众号：卡尔的AI沃茨

字节小云雀短剧 Agent 2.0 上线：Seedance 2.0 Mini 模型降价，新增720度场景与3D导演台

字节旗下小云雀短剧 Agent 2.0 上线，核心升级包括 Seedance 2.0 Mini 模型（价格更低）及 720 度场景观看、3D 导演台（可摆放 3D 人偶设定角色位置与机位）等功能。资产库根据剧本生成详细提示语，支持多角色形象切换。单个镜头时长 1-10 秒，生成 15 秒视频约需 4-5 分钟，自带字幕可抹除。用户可用约三百元成本完成一集短剧，支持片段续接和首尾帧参考，最终一键导出到剪映。该工具旨在降低原创短剧制作门槛，尤其适合规则类、多场景反转等题材。

图像生成教程/实践视频

16:41

karminski-牙医@karminski3

想买Mac运行大模型？这是劝退贴

买MacStudio运行大模型性价比不高。以M3 Ultra 96G（32999元）为例，运行Qwen3.6-27B 4bit量化版并开投机解码，速度约65 token/s。设备成本换算成API调用（GLM-5.2，每百万token 28元）可买约1178M token，需连续运行209天才能回本。512G版（108749元）运行量化GLM-5.2速度仅17 token/s，回本约7年。模型每1.5个月更新，建议普通用户买coding plan或租卡。已有Mac或显卡者，闲置时跑模型才划算。

推理教程/实践端侧

15:08

Hacker News 热门（buzzing.cc 中文翻译）

微调 Qwen 3：0.6B 实现家庭问题分类，准确率从 10% 提升至 92%

一个个人项目通过微调仅 600M 参数的 Qwen 3:0.6B 模型，将其作为家庭问题分类器。基线测试中，仅靠提示词的原始模型在 131 条测试中仅正确分类 13 条（约 10%）。使用 Unsloth 框架和 QLoRA 微调后，准确率提升至 79%。进一步将分类标签改为无语义重叠的两字符不透明 ID（如 hvac 改为固定代码），准确率升至约 92%。训练数据集约 850 条，按 70/15/15 分割。项目同时使用 Qwen 3:4B 作为通用问答模型。

推理教程/实践数据/训练

14:08

向阳乔木@vista8

海立老师写书速度真快，开源了第三本书《Deep Agents in Action》。如果你对Agent开发感兴趣，可收藏学习，很好的资料。

Harry Zhang: A gift to the Chinese developer community for anyone building agents on @LangChain: After 2 books on the ecosystem, I op...

智能体教程/实践

14:06

AYi@AYi_AInotes

Tom Osman用Codex自动完成App全功能测试与修复

Tom Osman用Codex的/goal功能，一条指令让AI自动将App所有功能拆解为用户故事，覆盖105个页面路由和67个API，生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏，持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量，但局限是仅基于现有代码测试，可能固化错误或产生幻觉，大项目成本高，最终需人类把关。

Greg Brockman: codex for testing every single feature in your app:

智能体教程/实践编码