# Tom Osman用Codex自动完成App全功能测试与修复

- 来源：AYi (@AYi_AInotes)
- 发布时间：2026-06-22 13:21
- AIHOT 分数：59
- AIHOT 链接：https://aihot.virxact.com/items/cmqotbt9c042hslx6fhpgebwi
- 原文链接：https://x.com/AYi_AInotes/status/2068927412029489431

## AI 摘要

Tom Osman用Codex的/goal功能，一条指令让AI自动将App所有功能拆解为用户故事，覆盖105个页面路由和67个API，生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏，持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量，但局限是仅基于现有代码测试，可能固化错误或产生幻觉，大项目成本高，最终需人类把关。

## 正文

有个老哥用Codex做了件疯狂的事，一条指令扔进去，AI自己把整个App的测试加修bug全包了，而且一口气跑了4.5小时，启发真的太大了🤯

以前AI写代码是副驾驶，
你说一句它写一段，出了问题还得你自己找自己修，
这次Codex的/goal功能直接跨了一大步，你给一个目标，它就能自己把整个质量闭环全跑下来。

Tom Osman做了这个实验，只给了一条指令，让Codex把App所有功能拆成用户故事，写完测完修完直到质量达标。
结果Codex自己扫完了整个代码库，拆出183个用户故事，覆盖105个页面路由和67个API，全部整理进一张总表，然后循环测试修复，持续跑了4.5小时。

整个流程分六步走，
先扫描全量功能，再写用户故事和预期行为，接着生成测试用例实际跑测，发现问题自动修复，修完再做回归测试，漏了的功能再补进来继续循环。
全程靠一张表格维持状态，不会跑偏不会失忆。

这不只是又一个自动写代码的工具了啊，简直就是从AI辅助写代码到AI自主负责质量的质变了，

以前要一个QA加一个开发花几天干完的活，现在AI几个小时就能跑一轮基础版本。

对一人公司和小团队来说，等于凭空多了一个不知疲倦的测试加修理工。

当然它也有明显的局限，比如只会照着现有代码测，产品设计本身错了它也会把错误当成标准固化下来，也可能出现幻觉式的测试结果，

大项目的成本和时长都会爆炸，最终还是要人来把关优先级和体验。

但真正的信号已经很清楚了，AI已经能独立跑完发现问题记录问题修复问题验证问题的完整循环。

未来拼的不是会不会用AI写代码，还有会不会设计高质量的目标，会不会用结构化的状态管理约束AI，会不会在关键节点做好人类把关。

### 引用推文

> Greg Brockman：codex for testing every single feature in your app:
