让AI高效执行长时间任务,关键在于细致的规划和阶段性的验证。有效方法是将大任务拆分为小阶段,并为每个阶段设定明确的自动化验证(如单元测试)。例如,测试覆盖完整的语言迁移项目是理想场景,AI可专注“翻译”并持续验证,避免偏离。若缺乏验证机制,AI长时间运行极易“南辕北辙”,产出难以审查。高效做法应是由人先规划阶段,每步配合用例并由人审核,确保提交代码量可控。这强调了人的基础能力是决定AI工作质量的关键。
让 AI 干很长时间的活,核心是规划和验证: 1. 如原推那样规划成小的阶段 2. 另外每个阶段最好有明确的验证方法,这一步很重要,可以是自动化测试(单元测试、集成测试、端到端测试)
所以长任务最适合的场景是那种测试覆盖完整的语言迁移,比如 bun 从 zig 迁移到 rust,一百万行代码的变更,但是测试覆盖完整,而且 AI 主要做的是"翻译"的工作,还可以验证,那连着跑几个几周都没问题,还不担心跑偏。
普通任务,如果没有办法让 Agent 自己验证,还跑很久,就很容易出现南辕北辙的情况,跑的时间越长,偏的越远。还是自己中间验证一下更好。