Tom Osman用Codex的/goal功能,一条指令让AI自动将App所有功能拆解为用户故事,覆盖105个页面路由和67个API,生成183个用户故事。AI循环执行扫描、写测试、运行、自动修复、回归测试、补漏,持续4.5小时完成质量闭环。@gdb称这是“用Codex测试App中的每一个功能”。该流程从AI辅助写代码升级为AI自主负责质量,但局限是仅基于现有代码测试,可能固化错误或产生幻觉,大项目成本高,最终需人类把关。
有个老哥用Codex做了件疯狂的事,一条指令扔进去,AI自己把整个App的测试加修bug全包了,而且一口气跑了4.5小时,启发真的太大了🤯
以前AI写代码是副驾驶, 你说一句它写一段,出了问题还得你自己找自己修, 这次Codex的/goal功能直接跨了一大步,你给一个目标,它就能自己把整个质量闭环全跑下来。
Tom Osman做了这个实验,只给了一条指令,让Codex把App所有功能拆成用户故事,写完测完修完直到质量达标。 结果Codex自己扫完了整个代码库,拆出183个用户故事,覆盖105个页面路由和67个API,全部整理进一张总表,然后循环测试修复,持续跑了4.5小时。
整个流程分六步走, 先扫描全量功能,再写用户故事和预期行为,接着生成测试用例实际跑测,发现问题自动修复,修完再做回归测试,漏了的功能再补进来继续循环。 全程靠一张表格维持状态,不会跑偏不会失忆。
这不只是又一个自动写代码的工具了啊,简直就是从AI辅助写代码到AI自主负责质量的质变了,
以前要一个QA加一个开发花几天干完的活,现在AI几个小时就能跑一轮基础版本。
对一人公司和小团队来说,等于凭空多了一个不知疲倦的测试加修理工。
当然它也有明显的局限,比如只会照着现有代码测,产品设计本身错了它也会把错误当成标准固化下来,也可能出现幻觉式的测试结果,