向阳乔木@vista870
2026-07-04 23:08·7小时前
AI 摘要前微软Azure ML及字节AI Copilot核心开发者王启源在直播中分享独立开发经验。他称大厂规范流程是双刃剑,既保护项目也拖慢速度。过去一年人机协作比例从人60%机器40%反转至近三个月机器99%人1%。主力工具包括Claude Code(短平快任务)、Codex(长程探索)和GLM 5.2(简单任务)。他对好Harness的定义是用最少token达到模型能力上限,并指出Loop Engineering本质是Harness的一部分。人类保留的1%集中在架构设计、Debug和产品方向把控。
向阳乔木@vista8 · X2026-07-04 23:08·7小时前
在 X 看原推· x.comAI 摘要前微软Azure ML及字节AI Copilot核心开发者王启源在直播中分享独立开发经验。他称大厂规范流程是双刃剑,既保护项目也拖慢速度。过去一年人机协作比例从人60%机器40%反转至近三个月机器99%人1%。主力工具包括Claude Code(短平快任务)、Codex(长程探索)和GLM 5.2(简单任务)。他对好Harness的定义是用最少token达到模型能力上限,并指出Loop Engineering本质是Harness的一部分。人类保留的1%集中在架构设计、Debug和产品方向把控。
这半年 AI 视频赛道太卷,新工具几乎每天都在冒出来,注意力很容易被带走,很难专注做好最初想做的那件事。
这个困境不是新鲜事,《人月神话》上世纪八九十年代就写过:想做一个大而全的工具,往往越做越难完成。
第二层更本质:他和合伙人都不是这个赛道最痛的那个人。
启源的初心是想看自己喜欢的动漫内容,但 AI 漫、AI 剧的产能已经很大,脑洞也够多,他更多是消费者心态而非创作者心态,做出来的东西自己都过不了自己那关。
他提到一本书《Rework》(中文叫《重来》),里面有个观点叫先自挠其痒:做事情要先能挠到自己身上真实存在的痒处,解决自己的问题,再考虑做大做强。
与其想象一个"别人可能会怎么用"的完美产品,不如聚焦眼前能立刻解决的小工具。
一年时间,人机分工比例是怎么反转的
问起过去一年常用工具的变化,启源给出一条清晰时间线:
一年前主力 ChatGPT 和 Cursor,人机比例大概是人 60% 机器 40%,AI 写完代码人要认真 Review 一遍才决定要不要用。
半年前更多用 Claude Claude,比例反转到人 40% 机器 60%。
最近一个月,量大管饱的 GLM 5.2(Z Code)也进了常用工具列表,主要处理相对简单的任务,省着主力工具的额度。
留下的 1% 到底是什么?架构设计、Debug 思路,还有最关键的一点:产品方向的把控。
他最近在研究 C.elegans(秀丽隐杆线虫)的神经网络模拟项目,这是脑神经科学领域很早就有的研究,科学家分析过这种小蠕虫全部的神经连接图谱(connectome)。
启源想在计算机里训练出这种虫子的趋光性,让 AI 搭建框架的时候,AI 为了用最小成本完成任务,倾向于直接跳过神经元之间端到端的物理模拟,给出一个数学近似结果。
但这不是启源想要的,他想探索的正是神经突触之间具体是怎么连接的。
这时候人的作用,就是不停地把 AI 拉回正确的方向。
这里有个洞察:人和 AI 都有用最小成本完成任务的本能,区别在于人有目标,而 AI 不知道你脑子里那部分没说出口的上下文。
这 1% 的价值,正是替 AI 补上这块认知空白。
至于 小龙虾、Hermes这类产品,启源用得不多,他把它定位成个人助手而非 Coding 工具,适合处理规律性的日常事务,而他的大部分工作都是和代码打交道,Claude Code 和 Codex 基本能覆盖 90% 以上的需求。
从 Chat Coding 到 Loop Engineering,本质是什么在增强
Vibe coding、spec coding、harness、loop engineering,AI领域新词太多,很容易让人头晕。
背后是两条曲线同时在涨:模型能力在增强,人对 AI 协作的工程认知也在增强。
- Chat Coding:人和 AI 对话,AI 给代码片段,人手动粘贴进项目里,只能做没界面的小脚本,比如一键清理桌面
- Vibe Coding:AI 能生成完整界面,但没什么美感,人还得懂前后端怎么连接
- Spec Coding:把想法写成足够清晰的文档交给 AI,能实现六七成,效果完全取决于 spec 写得好不好
- Harness:几句话就能做出一个 MVP,界面美感也在线,不再依赖详细 spec,靠给 AI 足够的上下文和脚手架去做长程探索
- Loop Engineering:本质上是 Harness 的一部分,更强调对目标的持续追寻,保证长程任务不跑偏
启源直言,Loop Engineering 这个词最近比较火,但本质上还是 Harness 的一部分,强调的是循环加目标校验这个具体技巧,没有新的范式。
如果这个理念继续演化,人可能只需要提出问题和边界条件,AI 就能给出经过深思熟虑的探索结果,不需要人补充太多隐性上下文。
这基本上就是 vibe coding 理念走到尽头的样子,某种意义上的人机共生。
什么是好的 Harness,以及 AgentOS 的未来
启源对好 Harness 的定义很朴素:用尽可能少的 token,尽可能高的利用率,达到模型能力的上限,而不是拖累它。
他举了个反例,某些小龙虾类 Agent 产品消耗的 token 特别多,说明对 token 的有效利用率不高。
再往下看,Harness 会怎么演化成 AgentOS?
启源的类比很有意思:大模型从诞生第一天起,工作方式就很像一台操作系统。
上下文窗口对应 CPU 能处理的数据量,模型推理对应计算过程,记忆系统对应存储系统。
所谓 AgentOS,不是要吃掉 Harness,而是 Harness 这条演化路径走到极致的样子,上下文管理和操作系统管理虚拟内存,底层逻辑是相通的。
实战工作流:两个官方工具互相 Review
启源目前主力两个工具是 Claude Code 和 Codex:
长程、探索性任务用 Codex,日常短平快任务用 Claude Code。
原因是 Claude Code 在复杂长程任务里容易取巧,还会过度自信。
他举了个具体例子:做反汇编还原二进制代码这类硬骨头任务时,Claude Code 经常会说"这个做不了,那个符号找不到,我们换个方法吧",而 Codex 会像老黄牛一样一点点尝试各种办法往下啃。
但对于日常写个 feature 这种短平快任务,Claude Code 的执行力反而更好。
另一位嘉宾向阳乔木补充了他观察到的 Codex 的问题:
写长篇小说这种长上下文任务时,Codex 会明显偷懒;做表单卡片类内容多的任务,会填充一些看起来完整但实际空洞无意义的内容。
这也是为什么多模型互相监督、互相迭代改进很有必要。
具体工作流举例:做编译器项目时,用 Claude Code 写代码、聊设计,同时让 Codex 去 review 结果、补单元测试,两边互相校验。
向阳乔木补充了一个特别实用的建议:买一个 VPS 和一个域名,自己搭一套 Harness 框架。
域名绑定 Cloudflare 后有域名管理 API,可以让 AI 自动完成域名解析配置。
另外 VPS 本身是 Linux 服务器,天然支持 AI 最熟悉的命令行操作,支持 SSH 登录后做大量部署工作。
以前觉得自己不懂运维就没法独立部署网站,现在这套流程可以完全交给 AI 来做。
成本也不高,域名和 VPS 加起来一年也没多少钱。
现场还演示了实际效果:一句话让 AI 在半小时内生成一个 Skill 推荐网站,27 分钟做出一个播客索引网站。
整个流程就是告诉 AI 要做什么网站、用什么域名、抓取哪些数据源、用什么方式部署,剩下的全部交给 AI 完成。
关于工具互调:Codex 可以调用 Claude Code,官方双方都做了插件支持,如果不会配置,直接让 AI 帮你写一个 MCP 来实现调用也完全可行,不局限于这两个工具,GLM 等其他模型同样可以这样接入。
学习方法论:深度靠品味,广度靠不脱离人民群众
很多领域你没跨过门槛就觉得枯燥无聊,其实是没找到正确的入口,好的文章和作者能帮你跨过那道门槛。
有了这个 Sense(感觉) 之后,刷社交媒体、看文章都会带着自己的筛选标准去看。
AI 出现之前,他会专门注册不同的社交账号,给自己设定人设,比如外卖小哥、中年大叔、宝妈,定向点赞相应内容,训练推荐算法的偏好,借此看到更完整的社会图景。
AI 时代最大的变化是:以前很多想了很久也没结论的问题,现在能快速和 AI 讨论出结果,省下大量时间。
- 一个是研究了很久的 C.elegans 神经网络课题,现在可以直接和 AI 一起推进
- 另一个是女朋友想吃咖喱,以前要自己搜索不同流派咖喱的成分比例,现在跟 AI 聊几句就能梳理清楚。
向阳乔木补充了一个获取一手信息的方法论,来自万维纲和好友祥叔:
- 创作消费比:一本书作者花一两年写出来,读者几天看完,这个信息密度值得优先利用。论文也是同理,别人做了大量实验,你半小时能 get 到核心要点
- 看聪明人周末在研究什么:Anthropic 这类公司的员工会把自己的工程实践写成文章分享出来,认真看这些内容,能比业界早一年理解到 MCP、Skills 这些概念是怎么诞生的
- 找专家深度交流:没有直接渠道的话,优质播客是不错的替代品,国内推荐42章经、张小珺这类节目。
直播里还提到一个观众提的问题:他有位博导朋友说,AI 不用学,直接对话就行了。
启源和向阳乔木的回应很实在:如果你自己本身有立场、有审美判断力、有质疑能力,确实可以直接对话解决问题。但如果这个根基不够扎实,学一下 prompt 和基础的 AI 原理,能让你更快建立起对 AI 能力边界的认知。
向阳乔木还提到自己去年花了大量时间研究 prompt,直到现在写 skill 都很受益,因为 skill 很多时候就是 prompt 加工程组合加脚本,三者缺一不可。
非工程师玩 vibe coding,最容易漏掉什么
有观众问:普通人觉得自己能 vibe coding 了,真正上线一个产品最容易被忽视的是什么?
启源的答案落在工程能力上,具体说是二八定律:20% 的代码完成 80% 的核心需求,剩下 80% 的代码在处理你平时看不见的部分,比如用户登录态的 Cookie 管理、数据校验、并发处理、财务相关的稳定性。
一个网站要能注册用户,插一条数据库记录可能不到 30 行代码。
但围绕用户登录态展开的一整套逻辑,才是真正的工程量所在。
这些东西自己用没问题,一旦要给陌生人用,就是能不能真正上线的分水岭。
好消息是不知道不代表学不会,遇到问题随时可以问 AI,让 AI 告诉你该补哪块知识,这个学习成本已经被大幅拉低了。
反过来,给非工程师的建议是:把自己的 Domain knowledge(专业知识) 发挥到最大。
启源举了个例子,一位摄影师用 Vibe coding 做了个胶片自动去色罩的工具,这种细分需求恰恰是程序员想不到的,因为色罩这个概念只有真正玩胶片的人才懂。
这就是非工程师相对于工程师的优势所在,你的专业背景和生活经验才是最值钱的部分。
有观众提到现在很多低代码平台(比如秒哒)已经把登录、收费系统这些工程细节都包好了,是不是就不用学工程能力了?
启源的回答很中肯:如果平台能力覆盖你的需求,那当然是最好的选择,不需要重复造轮子。
但边界在于,一旦你的项目复杂到平台脚手架搞不定,还是要回到工程能力这个底层问题上来。
软件公司会崩吗:答案藏在"社会必要劳动时间"里
传统按 License 收费的 SaaS 公司,启源认为大概率会崩溃,理由:开源复制的速度太快了。
他举了个真实例子,一个叫 Vibe Island 的效率小工具本来卖 60 块钱,没过多久市面上就出现了免费开源版本。
但软件行业本身不会消失,因为定价的本质不是需求本身,而是社会必要劳动时间。
哪怕现在有 AI 辅助,如果做出一个东西依然需要三个月到半年的持续投入,或者烧 token 的成本本身就不低,这个产品依然有付费价值,因为大部分人没时间也没意愿自己复现这个成本。
启源举了个具体例子:终端工具 cmux,基础功能全部开源免费,但手机远程控制这个进阶功能需要按月订阅付费。
类似的还有 Linux 系统本身免费,但企业要买 Red Hat 或 Ubuntu 的服务支持才能获得靠谱的售后。
这种"基础免费加增值收费"或者"基础免费加维护服务收费"的模式,在软件领域相当常见。
AI 对话怎么整理,有没有必要
启源的解释是,AI 对话整理本质上是一个信息压缩的过程,而目前最好的压缩工具就是人脑,真正重要的知识你会反复搜索反复回看,自然就留在脑子里了,日常对话大部分价值没那么高,不值得费心去记。
向阳乔木提到一个更具体的做法,来自一位朋友 TW93:让 Codex 定期整理自己最近几周的对话记录,提炼出自己的偏好,固化进 skill 库里。
比如你多次提到不喜欢某种配色,这些其实是你自己的隐性经验,值得让 AI 提炼出来变成长期记忆,而不是当成普通对话一划而过。
主持人元子分享了自己更系统的做法:用 Gemini 处理长会议内容,配置好模板化的提示词一键插入,聊完后用另一个工具把内容拆成 Markdown 卡片导入 Obsidian,方便后续检索。
她还特别提到只导出自己提出的问题,不关心 AI 回答了什么,因为复盘的核心是搞清楚自己到底在问什么。
她甚至把每天的时间日志、情绪状态都记录下来喂给 AI,让 AI 持续做自我画像更新。
核心逻辑是:人的记忆会骗人,只有用客观事实做迭代依据才靠谱,这个方法论她把它用到了时间管理等各个方面。
怎么开发一个 Skill,别只讲理念
有观众提了个具体问题:只看方法论文章,还是不知道该怎么下手写 Skill。
向阳乔木分享了自己的真实心路历程:官方文档一开始看着挺复杂,要写 Markdown 文档,还要描述执行细节和脚本,后来发现官方有个 Skill Creator 工具能帮你创建。
但用多了会发现官方工具不够完善,所以他和姚老师各自写了自己的 Skill Creator,加上了稳定触发的判断、约束条件校验这些细节,并且都开源在 GitHub 上。
具体流程是:先用自己的元 Skill(Skill Creator)去创作新 Skill,再用一个专门写好的分享 Skill 去发布 Skill。
但 Skill 只是第一步,因为大部分内容是 AI 写的,还要不断实测、发现执行问题、让 AI 自己反思迭代。
他还分享了一个测评方法:为了对比不同前端设计 Skill 的效果,他让 AI 抓取全网最火的前端设计 Skill,用多个任务用 Subagent 分别跑一遍,把不用 Skill、用官方 Skill、用 Taste skill、用 impeccable skill 的结果放在一起对比,挑一个或多个最满意的 Skill 作为迭代起点,开发自己的 Skill。
有观众进一步追问:本地 Skill 在 Codex 里跑得很好,但迁移到公司内部或者线上平台给别人用时,思维方式和执行结果都变得不太一样,该怎么办?
向阳乔木的回答:这是因为线上环境的模型、系统提示词、已安装的工具都跟本地不一样,结果自然会有差异,这属于目前行业基建还没跟上的问题,腾讯、字节等大厂都在做 Agent 托管基建方案。
几个容易被忽略的实用细节
关于注册域名:如果面向国内用户开发的网站,不建议选 .ai 后缀,国内目前不支持 .ai 域名备案(除了智谱等),买.com就行。
备案流程现在已经比较方便,可以远程办理,一周左右就能搞定,此后长期稳定可用。
微信里分享自己做的网站,只要单日访问量不超过 20 万,正规备案过的网站是不会被限制的。
有观众担心把 Codex 里的项目搬到别的平台是不是杞人忧天。
启源的回答很干脆:Codex 的绝大部分对话 session 都存在本地,不用太担心。
但如果是 ChatGPT 网页端的对话,因为没有类似的本地保存机制,最好养成习惯定期用导出功能把有价值的内容存下来。另外元子提到,她朋友做过一个小工具,能一键导出本地 Codex、Claude Code 等各种 Vibe Coding 工具的历史 session,感兴趣的话可以找一下。
启源引用了一句"Attention is all you need",注意力本质上就是每个人的货币。
他的建议是把时间硬性划分开,工作时间就专心跟 AI 处理工作内容,不要工作聊一会儿又切到生活话题。
如果实在做不到硬性划分,退而求其次的办法是先记录下自己实际的状态,过几天回头看这些记录,问题往往自己就浮现出来了。
向阳乔木现场还演示自己开发的 AI 资讯工具,一个收录了 46 个海外 newsletter 的 RSS 阅读器,每篇文章都能一键用 DeepSeek 翻译成中文,读到有价值的链接还能直接收录到站内。
与其啃传统的设计模式这类偏抽象的教材,元子推荐了三本更基础也更好读的书:《程序是怎么跑起来的》《Linux 是怎样工作的》《计算机是如何工作的》,都是日本工程师写的科普向读物,读起来像故事书,对理解 AI 编程能帮你做到什么很有帮助。
启源的观点更直接:带着具体项目问题去学,永远比抽象地啃书更快,遇到问题直接问 AI 解决就是最快的路径。
写在最后
十年前,一个不起眼的小客户在微软的机器学习平台上跑出了 GPT-3,当时没人觉得这东西有什么用。
提醒我们:技术的拐点往往发生在没人当回事的时候,而真正决定你能不能踩上这个点的,从来不是工具本身,是你有没有那个判断力和好奇心,愿意多看一眼。
架构设计留给人,debug 思路留给人,产品的本心和边界留给人,学习路径的取舍也留给人。
工具在替你写代码、替你部署网站、替你填表格,但不会替你决定要不要做这件事,更不会替你守住做这件事最初的理由。
如果你正打算开始一个独立项目,不妨先问自己启源那句反问:这个产品是不是解决了你自己身上最痛的那个点。
想清楚这一点,再决定要不要注册域名、搭 Harness、开始 Vibe coding。
嘉宾启源,前微软 Azure ML 工程师,前字节 AI Copilot 产品的核心开发者,现在是一名独立开发者。
大厂的规范性,是同一枚硬币的两面
问启源大厂经历对独立开发最大的帮助是什么,他的回答很干脆:规范的研发流程。
哪些事该做,哪些不该做,一个产品怎么从 0 到 1 走完整套流程,这套方法论能帮你避开很多小白坑。
很多人离开大厂后会陷入一个误区:想在没有配套团队和基础设施的情况下,重新发明一套大厂的轮子。审批流程、上线规范、各种检查清单,这些东西在大厂里是保险丝,出了大厂反而成了自己捆住自己的绳子。
关键不是要不要流程,而是分清楚哪部分在保护你,哪部分只是让你慢下来。
日本,一个活化石博物馆
启源做过不少日本企业的 AI 咨询项目,他形容日本的 IT 市场像一个活化石博物馆:同一个国家里,能找到上世纪六七十年代还在运行维护的银行系统,也能找到最前沿的大模型应用。
具体到项目上,他给一家日本电商做推荐算法,做千人千面的个性化推荐。
这件事国内十几年前淘宝就玩得很成熟了,对方公司现在才刚开始做。
但与此同时,他又在同一批客户里做 AI Agent 项目,帮客户自动分析电商数据、优化广告投放,这个方向国内大厂也还在探索期。
严格来说,这算不上技术落后,更像是一种奇特的共存:老项目没人愿意扔掉继续跑着,新项目也在同步推进。
国内一旦有更好的技术栈,几乎是集体切换,很少有人守着十年前的方案不动。
一个被放弃的项目:产品能力的天花板长什么样
启源在字节时有个想法:做一个 AI 生成动漫短剧的工具。
最初是从个人爱好出发,他喜欢看漫画,想让 AI 根据自己喜欢的小说自动生成漫画。
想法一步步膨胀:有了漫画,为什么不做视频?需求越加越多,最后超出了他对产品的掌控能力。
这半年 AI 视频赛道太卷,新工具几乎每天都在冒出来,注意力很容易被带走,很难专注做好最初想做的那件事。
这个困境不是新鲜事,《人月神话》上世纪八九十年代就写过:想做一个大而全的工具,往往越做越难完成。
第二层更本质:他和合伙人都不是这个赛道最痛的那个人。
启源的初心是想看自己喜欢的动漫内容,但 AI 漫、AI 剧的产能已经很大,脑洞也够多,他更多是消费者心态而非创作者心态,做出来的东西自己都过不了自己那关。
他提到一本书《Rework》(中文叫《重来》),里面有个观点叫先自挠其痒:做事情要先能挠到自己身上真实存在的痒处,解决自己的问题,再考虑做大做强。
与其想象一个"别人可能会怎么用"的完美产品,不如聚焦眼前能立刻解决的小工具。
一年时间,人机分工比例是怎么反转的
问起过去一年常用工具的变化,启源给出一条清晰时间线:
一年前主力 ChatGPT 和 Cursor,人机比例大概是人 60% 机器 40%,AI 写完代码人要认真 Review 一遍才决定要不要用。
半年前更多用 Claude Claude,比例反转到人 40% 机器 60%。
最近一个月,量大管饱的 GLM 5.2(Z Code)也进了常用工具列表,主要处理相对简单的任务,省着主力工具的额度。
留下的 1% 到底是什么?架构设计、Debug 思路,还有最关键的一点:产品方向的把控。
他最近在研究 C.elegans(秀丽隐杆线虫)的神经网络模拟项目,这是脑神经科学领域很早就有的研究,科学家分析过这种小蠕虫全部的神经连接图谱(connectome)。
启源想在计算机里训练出这种虫子的趋光性,让 AI 搭建框架的时候,AI 为了用最小成本完成任务,倾向于直接跳过神经元之间端到端的物理模拟,给出一个数学近似结果。
但这不是启源想要的,他想探索的正是神经突触之间具体是怎么连接的。
这时候人的作用,就是不停地把 AI 拉回正确的方向。
这里有个洞察:人和 AI 都有用最小成本完成任务的本能,区别在于人有目标,而 AI 不知道你脑子里那部分没说出口的上下文。
这 1% 的价值,正是替 AI 补上这块认知空白。
至于 小龙虾、Hermes这类产品,启源用得不多,他把它定位成个人助手而非 Coding 工具,适合处理规律性的日常事务,而他的大部分工作都是和代码打交道,Claude Code 和 Codex 基本能覆盖 90% 以上的需求。
从 Chat Coding 到 Loop Engineering,本质是什么在增强
Vibe coding、spec coding、harness、loop engineering,AI领域新词太多,很容易让人头晕。
背后是两条曲线同时在涨:模型能力在增强,人对 AI 协作的工程认知也在增强。
- Chat Coding:人和 AI 对话,AI 给代码片段,人手动粘贴进项目里,只能做没界面的小脚本,比如一键清理桌面
- Vibe Coding:AI 能生成完整界面,但没什么美感,人还得懂前后端怎么连接
- Spec Coding:把想法写成足够清晰的文档交给 AI,能实现六七成,效果完全取决于 spec 写得好不好
- Harness:几句话就能做出一个 MVP,界面美感也在线,不再依赖详细 spec,靠给 AI 足够的上下文和脚手架去做长程探索
- Loop Engineering:本质上是 Harness 的一部分,更强调对目标的持续追寻,保证长程任务不跑偏
启源直言,Loop Engineering 这个词最近比较火,但本质上还是 Harness 的一部分,强调的是循环加目标校验这个具体技巧,没有新的范式。
如果这个理念继续演化,人可能只需要提出问题和边界条件,AI 就能给出经过深思熟虑的探索结果,不需要人补充太多隐性上下文。
这基本上就是 vibe coding 理念走到尽头的样子,某种意义上的人机共生。
什么是好的 Harness,以及 AgentOS 的未来
启源对好 Harness 的定义很朴素:用尽可能少的 token,尽可能高的利用率,达到模型能力的上限,而不是拖累它。
他举了个反例,某些小龙虾类 Agent 产品消耗的 token 特别多,说明对 token 的有效利用率不高。
再往下看,Harness 会怎么演化成 AgentOS?
启源的类比很有意思:大模型从诞生第一天起,工作方式就很像一台操作系统。
上下文窗口对应 CPU 能处理的数据量,模型推理对应计算过程,记忆系统对应存储系统。
所谓 AgentOS,不是要吃掉 Harness,而是 Harness 这条演化路径走到极致的样子,上下文管理和操作系统管理虚拟内存,底层逻辑是相通的。
实战工作流:两个官方工具互相 Review
启源目前主力两个工具是 Claude Code 和 Codex:
长程、探索性任务用 Codex,日常短平快任务用 Claude Code。
原因是 Claude Code 在复杂长程任务里容易取巧,还会过度自信。
他举了个具体例子:做反汇编还原二进制代码这类硬骨头任务时,Claude Code 经常会说"这个做不了,那个符号找不到,我们换个方法吧",而 Codex 会像老黄牛一样一点点尝试各种办法往下啃。
但对于日常写个 feature 这种短平快任务,Claude Code 的执行力反而更好。
另一位嘉宾向阳乔木补充了他观察到的 Codex 的问题:
写长篇小说这种长上下文任务时,Codex 会明显偷懒;做表单卡片类内容多的任务,会填充一些看起来完整但实际空洞无意义的内容。
这也是为什么多模型互相监督、互相迭代改进很有必要。
具体工作流举例:做编译器项目时,用 Claude Code 写代码、聊设计,同时让 Codex 去 review 结果、补单元测试,两边互相校验。
向阳乔木补充了一个特别实用的建议:买一个 VPS 和一个域名,自己搭一套 Harness 框架。
域名绑定 Cloudflare 后有域名管理 API,可以让 AI 自动完成域名解析配置。
另外 VPS 本身是 Linux 服务器,天然支持 AI 最熟悉的命令行操作,支持 SSH 登录后做大量部署工作。
以前觉得自己不懂运维就没法独立部署网站,现在这套流程可以完全交给 AI 来做。
成本也不高,域名和 VPS 加起来一年也没多少钱。
现场还演示了实际效果:一句话让 AI 在半小时内生成一个 Skill 推荐网站,27 分钟做出一个播客索引网站。
整个流程就是告诉 AI 要做什么网站、用什么域名、抓取哪些数据源、用什么方式部署,剩下的全部交给 AI 完成。
关于工具互调:Codex 可以调用 Claude Code,官方双方都做了插件支持,如果不会配置,直接让 AI 帮你写一个 MCP 来实现调用也完全可行,不局限于这两个工具,GLM 等其他模型同样可以这样接入。
学习方法论:深度靠品味,广度靠不脱离人民群众
很多领域你没跨过门槛就觉得枯燥无聊,其实是没找到正确的入口,好的文章和作者能帮你跨过那道门槛。
有了这个 Sense(感觉) 之后,刷社交媒体、看文章都会带着自己的筛选标准去看。
AI 出现之前,他会专门注册不同的社交账号,给自己设定人设,比如外卖小哥、中年大叔、宝妈,定向点赞相应内容,训练推荐算法的偏好,借此看到更完整的社会图景。
AI 时代最大的变化是:以前很多想了很久也没结论的问题,现在能快速和 AI 讨论出结果,省下大量时间。
- 一个是研究了很久的 C.elegans 神经网络课题,现在可以直接和 AI 一起推进
- 另一个是女朋友想吃咖喱,以前要自己搜索不同流派咖喱的成分比例,现在跟 AI 聊几句就能梳理清楚。
向阳乔木补充了一个获取一手信息的方法论,来自万维纲和好友祥叔:
- 创作消费比:一本书作者花一两年写出来,读者几天看完,这个信息密度值得优先利用。论文也是同理,别人做了大量实验,你半小时能 get 到核心要点
- 看聪明人周末在研究什么:Anthropic 这类公司的员工会把自己的工程实践写成文章分享出来,认真看这些内容,能比业界早一年理解到 MCP、Skills 这些概念是怎么诞生的
- 找专家深度交流:没有直接渠道的话,优质播客是不错的替代品,国内推荐42章经、张小珺这类节目。
直播里还提到一个观众提的问题:他有位博导朋友说,AI 不用学,直接对话就行了。
启源和向阳乔木的回应很实在:如果你自己本身有立场、有审美判断力、有质疑能力,确实可以直接对话解决问题。但如果这个根基不够扎实,学一下 prompt 和基础的 AI 原理,能让你更快建立起对 AI 能力边界的认知。
向阳乔木还提到自己去年花了大量时间研究 prompt,直到现在写 skill 都很受益,因为 skill 很多时候就是 prompt 加工程组合加脚本,三者缺一不可。
非工程师玩 vibe coding,最容易漏掉什么
有观众问:普通人觉得自己能 vibe coding 了,真正上线一个产品最容易被忽视的是什么?
启源的答案落在工程能力上,具体说是二八定律:20% 的代码完成 80% 的核心需求,剩下 80% 的代码在处理你平时看不见的部分,比如用户登录态的 Cookie 管理、数据校验、并发处理、财务相关的稳定性。
一个网站要能注册用户,插一条数据库记录可能不到 30 行代码。
但围绕用户登录态展开的一整套逻辑,才是真正的工程量所在。
这些东西自己用没问题,一旦要给陌生人用,就是能不能真正上线的分水岭。
好消息是不知道不代表学不会,遇到问题随时可以问 AI,让 AI 告诉你该补哪块知识,这个学习成本已经被大幅拉低了。
反过来,给非工程师的建议是:把自己的 Domain knowledge(专业知识) 发挥到最大。
启源举了个例子,一位摄影师用 Vibe coding 做了个胶片自动去色罩的工具,这种细分需求恰恰是程序员想不到的,因为色罩这个概念只有真正玩胶片的人才懂。
这就是非工程师相对于工程师的优势所在,你的专业背景和生活经验才是最值钱的部分。
有观众提到现在很多低代码平台(比如秒哒)已经把登录、收费系统这些工程细节都包好了,是不是就不用学工程能力了?
启源的回答很中肯:如果平台能力覆盖你的需求,那当然是最好的选择,不需要重复造轮子。
但边界在于,一旦你的项目复杂到平台脚手架搞不定,还是要回到工程能力这个底层问题上来。
软件公司会崩吗:答案藏在"社会必要劳动时间"里
传统按 License 收费的 SaaS 公司,启源认为大概率会崩溃,理由:开源复制的速度太快了。
他举了个真实例子,一个叫 Vibe Island 的效率小工具本来卖 60 块钱,没过多久市面上就出现了免费开源版本。
但软件行业本身不会消失,因为定价的本质不是需求本身,而是社会必要劳动时间。
哪怕现在有 AI 辅助,如果做出一个东西依然需要三个月到半年的持续投入,或者烧 token 的成本本身就不低,这个产品依然有付费价值,因为大部分人没时间也没意愿自己复现这个成本。
启源举了个具体例子:终端工具 cmux,基础功能全部开源免费,但手机远程控制这个进阶功能需要按月订阅付费。
类似的还有 Linux 系统本身免费,但企业要买 Red Hat 或 Ubuntu 的服务支持才能获得靠谱的售后。
这种"基础免费加增值收费"或者"基础免费加维护服务收费"的模式,在软件领域相当常见。
AI 对话怎么整理,有没有必要
启源的解释是,AI 对话整理本质上是一个信息压缩的过程,而目前最好的压缩工具就是人脑,真正重要的知识你会反复搜索反复回看,自然就留在脑子里了,日常对话大部分价值没那么高,不值得费心去记。
向阳乔木提到一个更具体的做法,来自一位朋友 TW93:让 Codex 定期整理自己最近几周的对话记录,提炼出自己的偏好,固化进 skill 库里。
比如你多次提到不喜欢某种配色,这些其实是你自己的隐性经验,值得让 AI 提炼出来变成长期记忆,而不是当成普通对话一划而过。
主持人元子分享了自己更系统的做法:用 Gemini 处理长会议内容,配置好模板化的提示词一键插入,聊完后用另一个工具把内容拆成 Markdown 卡片导入 Obsidian,方便后续检索。
她还特别提到只导出自己提出的问题,不关心 AI 回答了什么,因为复盘的核心是搞清楚自己到底在问什么。
她甚至把每天的时间日志、情绪状态都记录下来喂给 AI,让 AI 持续做自我画像更新。
核心逻辑是:人的记忆会骗人,只有用客观事实做迭代依据才靠谱,这个方法论她把它用到了时间管理等各个方面。
怎么开发一个 Skill,别只讲理念
有观众提了个具体问题:只看方法论文章,还是不知道该怎么下手写 Skill。
向阳乔木分享了自己的真实心路历程:官方文档一开始看着挺复杂,要写 Markdown 文档,还要描述执行细节和脚本,后来发现官方有个 Skill Creator 工具能帮你创建。
但用多了会发现官方工具不够完善,所以他和姚老师各自写了自己的 Skill Creator,加上了稳定触发的判断、约束条件校验这些细节,并且都开源在 GitHub 上。
具体流程是:先用自己的元 Skill(Skill Creator)去创作新 Skill,再用一个专门写好的分享 Skill 去发布 Skill。
但 Skill 只是第一步,因为大部分内容是 AI 写的,还要不断实测、发现执行问题、让 AI 自己反思迭代。
他还分享了一个测评方法:为了对比不同前端设计 Skill 的效果,他让 AI 抓取全网最火的前端设计 Skill,用多个任务用 Subagent 分别跑一遍,把不用 Skill、用官方 Skill、用 Taste skill、用 impeccable skill 的结果放在一起对比,挑一个或多个最满意的 Skill 作为迭代起点,开发自己的 Skill。
有观众进一步追问:本地 Skill 在 Codex 里跑得很好,但迁移到公司内部或者线上平台给别人用时,思维方式和执行结果都变得不太一样,该怎么办?
向阳乔木的回答:这是因为线上环境的模型、系统提示词、已安装的工具都跟本地不一样,结果自然会有差异,这属于目前行业基建还没跟上的问题,腾讯、字节等大厂都在做 Agent 托管基建方案。
几个容易被忽略的实用细节
关于注册域名:如果面向国内用户开发的网站,不建议选 .ai 后缀,国内目前不支持 .ai 域名备案(除了智谱等),买.com就行。
备案流程现在已经比较方便,可以远程办理,一周左右就能搞定,此后长期稳定可用。
微信里分享自己做的网站,只要单日访问量不超过 20 万,正规备案过的网站是不会被限制的。
有观众担心把 Codex 里的项目搬到别的平台是不是杞人忧天。
启源的回答很干脆:Codex 的绝大部分对话 session 都存在本地,不用太担心。
但如果是 ChatGPT 网页端的对话,因为没有类似的本地保存机制,最好养成习惯定期用导出功能把有价值的内容存下来。另外元子提到,她朋友做过一个小工具,能一键导出本地 Codex、Claude Code 等各种 Vibe Coding 工具的历史 session,感兴趣的话可以找一下。
启源引用了一句"Attention is all you need",注意力本质上就是每个人的货币。
他的建议是把时间硬性划分开,工作时间就专心跟 AI 处理工作内容,不要工作聊一会儿又切到生活话题。
如果实在做不到硬性划分,退而求其次的办法是先记录下自己实际的状态,过几天回头看这些记录,问题往往自己就浮现出来了。
向阳乔木现场还演示自己开发的 AI 资讯工具,一个收录了 46 个海外 newsletter 的 RSS 阅读器,每篇文章都能一键用 DeepSeek 翻译成中文,读到有价值的链接还能直接收录到站内。
与其啃传统的设计模式这类偏抽象的教材,元子推荐了三本更基础也更好读的书:《程序是怎么跑起来的》《Linux 是怎样工作的》《计算机是如何工作的》,都是日本工程师写的科普向读物,读起来像故事书,对理解 AI 编程能帮你做到什么很有帮助。
启源的观点更直接:带着具体项目问题去学,永远比抽象地啃书更快,遇到问题直接问 AI 解决就是最快的路径。
写在最后
十年前,一个不起眼的小客户在微软的机器学习平台上跑出了 GPT-3,当时没人觉得这东西有什么用。
提醒我们:技术的拐点往往发生在没人当回事的时候,而真正决定你能不能踩上这个点的,从来不是工具本身,是你有没有那个判断力和好奇心,愿意多看一眼。
架构设计留给人,debug 思路留给人,产品的本心和边界留给人,学习路径的取舍也留给人。
工具在替你写代码、替你部署网站、替你填表格,但不会替你决定要不要做这件事,更不会替你守住做这件事最初的理由。
如果你正打算开始一个独立项目,不妨先问自己启源那句反问:这个产品是不是解决了你自己身上最痛的那个点。
想清楚这一点,再决定要不要注册域名、搭 Harness、开始 Vibe coding。