Agentic 搜索(即 Claude 直接在 live 代码库中 grep、读文件、跟引用)规避了这个问题--没有索引需要维护,每个开发者的实例都在最新代码上工作。代价是需要足够的起始上下文,也就是说 CLAUDE.md 的质量直接决定 Claude 能否快速定位到正确的代码区域。指南建议:如果 Claude 需要在十亿行代码库里寻找一个模糊的模式,你会在工作开始之前就碰到 context window 限制。精确的起点比广泛的搜索更有价值。
「Agent Manager」这一新兴职能
在大型组织的落地案例中,指南观察到一个新角色正在涌现:Agent Manager。这个职能介于传统技术 Lead 和 AI 工程师之间,具体职责包括:维护 CLAUDE.md 的规范质量、审查和迭代 Hooks 配置、评估 Skills 的覆盖率和准确性、协调不同团队的 MCP 接入标准,以及管理多个 AI Agent 之间的协作边界。
OpenAI 的这次 Build Hour 围绕 GPT-Realtime-2 展开,但内容远不止一个新模型发布--它实际上是在描绘语音 AI 应用架构的下一代形态。从「用语音问 AI 一个问题,AI 用语音回答」,到「用语音指挥 AI 执行一系列操作,AI 实时改变应用状态」,这是两个完全不同量级的产品体验
Sierra 同时强调了一个务实的观点:模型能力再强,生产环境中的稳健性仍然依赖「Agent Harness」--处理背景噪音、口音、中途打断、连接抖动等真实世界干扰的工程层。这与精讲一关于 Claude Code Harness 的核心论点形成了有趣的呼应:无论是编程助手还是语音助手,「Harness 和模型同等重要」这一判断都成立。
少楠从 GPT-3.5 时代就开始使用 AI,但长期卡在两个瓶颈:API 成本太高无法集成进产品,Cursor 的 IDE 界面对不写代码的产品经理来说过于复杂--「不小心关掉右边聊天窗口就找不到了,干脆放弃。」
真正的转折来自 Claude Code 的命令行界面。「没有复杂的 IDE,直接给口头指令。」他用它写了一个浏览器插件,能跑,额度从 20 美元充到了 200 美元。同期 DeepSeek V3 把 API 价格打下来,产品内终于也敢大规模用了。从今年开始,他们团队的 AI 渗透率才真正大幅提升:16 人团队,70%-80% 的代码由 AI 贡献,开发周期从「按月」缩短到「按小时」。
这个细节值得注意:对于不写代码的产品经理来说,「简洁的命令行界面」比「功能丰富的 IDE」更低的认知门槛,反而成了 AI 编程工具的入口优势。工具的易用性不是对所有人都意味着相同的东西。
flomo 最近上线的两个 AI 功能很有意思--它们都不是从传统 PRD 流程来的,而是少楠在 Claude Code 里写着写着「碰出来的」:
认知地图:少楠想把 flomo 笔记的高维向量(1000 多维)压缩到二维平面看聚类效果。在和 AI 基于代码上下文讨论「这些小点点还能做什么」时,AI 提到了等高线。他一试,发现刚好契合脑子里「个人知识库是一张地图」的想象--等高线对应认知密度的起伏,还能以月为单位播放时间轴,看到自己哪个月在攀登哪个「认知山峰」。「想了很多年的一个东西,就这样上线了。」
AI 记忆:系统把用户所有 flomo 笔记按偏好、事实、事件三大类压缩提炼,生成一份「记忆文档」。把这份文档丢给 Claude 或 GPT,回答质量和个性化程度完全不同--因为 AI 知道你最近在关注什么、你的历史判断、你的角色。这是 flomo 最重要的大更新:长期主动记录积累的私有数据被彻底盘活了。目前只对 Max 会员开放,因为把用户所有笔记压缩两遍的算力成本「是非常惊人的」。
这两个功能的共同点是:它们不是从「用户访谈→需求文档→设计稿→开发」的传统流程来的,而是从「产品经理直接用 AI 工具探索代码实现」的过程中意外发现的。这本身就是少楠所说的「工作流变化」最具体的体现。
完整访谈见 flomo 少楠:AI 跃迁者调研 02。
速览
当 AI「杀死」SaaS:多 Agent 网络与软件业转型
晚点聊 LateTalk 第 164 期邀请了明略科技创始人吴明辉,深度探讨 AI Agent 如何颠覆 SaaS 商业模式。核心论点是「闭源软件价值消失,从 Token 和模型上赚钱」。明略正在开源发布多 Agent 协同网络「章鱼」,通过集体学习机制实现指数级增长。吴明辉提出了「龙虾哲学」--用工程化的义务约束来代替无法约束大模型的道德框架。有 5 年前 AI 尝试失败经验的他,这次对 AI 转型的判断更为审慎和结构化。这期时长超过两小时,想深入了解 AI 对企业软件架构影响的同学值得完整听完。
这篇 Towards Data Science 文章深入解析了 OpenAI 发布的 MRC(Multipath Reliable Connection)协议。这套协议颠覆了 30 年的网络惯例:禁用所有路由协议、主动接受丢包、将每次传输随机分散到数百条路径上。结果是在 13.1 万块 GPU 上实现了可预测的尾部延迟,以支持同步训练。文章最值得关注的发现是:MRC 实际上「消灭」了数据中心网络的整个第三层控制平面,没有 OSPF,没有 BGP,没有 IS-IS,交换机维护零动态转发状态。这在任何已公开的生产 AI 训练网络中都是前所未有的。对大规模分布式系统和网络架构感兴趣的工程师必读。
用 Evals 与五段式 Rubric 打造可靠 AI Agent
这个 AI Engineer 工作坊视频由 Arize AI 的 Laurie Voss 主讲,系统介绍了如何从「感觉对」走向「可测量」。核心框架是三层评估体系:代码 Evals(确定性检查,快速且便宜)、LLM-as-a-Judge(用更强模型评估语义质量,适合代码无法捕捉的质量维度)、人工评估(生成黄金数据集,是自动化评估器的「校准基准」)。五段式 Rubric 设计和 Meta-Evaluation(评估你的评估器本身是否靠谱)是两个关键实操技巧。想让 Agent 从实验阶段走向生产的团队必看。
只加两行代码,为什么要两天?
腾讯云开发者这篇文章深入剖析业务系统复杂性的根本来源:功能间隐秘增加的耦合和不可避免的代码腐化。文章指出,随着系统功能增多,实现每个新功能不会越来越容易,而是越来越难--这与理想中「可复用性会降低边际成本」的预期完全相反。实际的 functionalities-cost 曲线是指数级上升的,不是线性的。文章对于理解 AI 辅助开发在复杂遗留系统中的真实效率边界很有帮助,和精讲三少楠案例中「协作方式的重构才是最大难点」的观点形成互补。
Hugging Face Blog 的 LLM 推理系列第二篇,讲解如何通过 CUDA 流和事件将 CPU 批次准备与 GPU 计算解耦,实现真正的并行执行,实测获得 22% 的推理加速。技术深度较高,适合需要优化 LLM 推理服务成本、尤其是在 H200 等高端 GPU 上跑生产推理的工程师。是对第一篇连续批处理文章的延伸,建议按顺序阅读。
GitHub Issues 导航性能现代化改造
GitHub 工程团队如何通过客户端缓存、预热(Preheating)和 Service Worker,将 Issues 页面导航延迟从「网络受限」变为「接近即时」。文章特别有价值的是方法论层面:先做流量分布测量(发现 57.6% 是 hard navigation),再针对主导路径优化,而不是只优化已经较快的 React soft navigation。HPC 百分位指标的改善数据具体详实。适合做前端性能优化或关注产品感知速度提升的工程师参考。
在 Zoox 加速 LLM 驱动的开发者生产力
Zoox AI 负责人分享通过构建企业 AI 平台 Cortex 系统化提升开发者效率的路径,涵盖安全 LLM 访问、RAG、智能体 API 和采纳率管理。从「新员工入职查文档靠猜」到「AI 无处不在,缺 AI 才感觉奇怪」的转变过程,有不少关于 AI 采纳率培育的实操细节。适合正在规划企业 AI 基础设施、需要参考大型工程团队实战案例的管理者和架构师。
这篇访谈提供的不是技术方案,而是一个真实团队在 AI 效率提升后遇到的组织挑战的第一手记录。「AI 没有带来能力平权,反而把鸿沟拉大」和「协作方式的重构是最大难点,不是工具」这两个判断,对任何在团队中推动 AI 落地的人都有很高参考价值。尤其推荐和 flomo 同量级的中小团队创始人和产品经理阅读。预计阅读时间 30-40 分钟。
Agentic 搜索(即 Claude 直接在 live 代码库中 grep、读文件、跟引用)规避了这个问题--没有索引需要维护,每个开发者的实例都在最新代码上工作。代价是需要足够的起始上下文,也就是说 CLAUDE.md 的质量直接决定 Claude 能否快速定位到正确的代码区域。指南建议:如果 Claude 需要在十亿行代码库里寻找一个模糊的模式,你会在工作开始之前就碰到 context window 限制。精确的起点比广泛的搜索更有价值。
「Agent Manager」这一新兴职能
在大型组织的落地案例中,指南观察到一个新角色正在涌现:Agent Manager。这个职能介于传统技术 Lead 和 AI 工程师之间,具体职责包括:维护 CLAUDE.md 的规范质量、审查和迭代 Hooks 配置、评估 Skills 的覆盖率和准确性、协调不同团队的 MCP 接入标准,以及管理多个 AI Agent 之间的协作边界。
OpenAI 的这次 Build Hour 围绕 GPT-Realtime-2 展开,但内容远不止一个新模型发布--它实际上是在描绘语音 AI 应用架构的下一代形态。从「用语音问 AI 一个问题,AI 用语音回答」,到「用语音指挥 AI 执行一系列操作,AI 实时改变应用状态」,这是两个完全不同量级的产品体验
Sierra 同时强调了一个务实的观点:模型能力再强,生产环境中的稳健性仍然依赖「Agent Harness」--处理背景噪音、口音、中途打断、连接抖动等真实世界干扰的工程层。这与精讲一关于 Claude Code Harness 的核心论点形成了有趣的呼应:无论是编程助手还是语音助手,「Harness 和模型同等重要」这一判断都成立。
少楠从 GPT-3.5 时代就开始使用 AI,但长期卡在两个瓶颈:API 成本太高无法集成进产品,Cursor 的 IDE 界面对不写代码的产品经理来说过于复杂--「不小心关掉右边聊天窗口就找不到了,干脆放弃。」
真正的转折来自 Claude Code 的命令行界面。「没有复杂的 IDE,直接给口头指令。」他用它写了一个浏览器插件,能跑,额度从 20 美元充到了 200 美元。同期 DeepSeek V3 把 API 价格打下来,产品内终于也敢大规模用了。从今年开始,他们团队的 AI 渗透率才真正大幅提升:16 人团队,70%-80% 的代码由 AI 贡献,开发周期从「按月」缩短到「按小时」。
这个细节值得注意:对于不写代码的产品经理来说,「简洁的命令行界面」比「功能丰富的 IDE」更低的认知门槛,反而成了 AI 编程工具的入口优势。工具的易用性不是对所有人都意味着相同的东西。
flomo 最近上线的两个 AI 功能很有意思--它们都不是从传统 PRD 流程来的,而是少楠在 Claude Code 里写着写着「碰出来的」:
认知地图:少楠想把 flomo 笔记的高维向量(1000 多维)压缩到二维平面看聚类效果。在和 AI 基于代码上下文讨论「这些小点点还能做什么」时,AI 提到了等高线。他一试,发现刚好契合脑子里「个人知识库是一张地图」的想象--等高线对应认知密度的起伏,还能以月为单位播放时间轴,看到自己哪个月在攀登哪个「认知山峰」。「想了很多年的一个东西,就这样上线了。」
AI 记忆:系统把用户所有 flomo 笔记按偏好、事实、事件三大类压缩提炼,生成一份「记忆文档」。把这份文档丢给 Claude 或 GPT,回答质量和个性化程度完全不同--因为 AI 知道你最近在关注什么、你的历史判断、你的角色。这是 flomo 最重要的大更新:长期主动记录积累的私有数据被彻底盘活了。目前只对 Max 会员开放,因为把用户所有笔记压缩两遍的算力成本「是非常惊人的」。
这两个功能的共同点是:它们不是从「用户访谈→需求文档→设计稿→开发」的传统流程来的,而是从「产品经理直接用 AI 工具探索代码实现」的过程中意外发现的。这本身就是少楠所说的「工作流变化」最具体的体现。
完整访谈见 flomo 少楠:AI 跃迁者调研 02。
速览
当 AI「杀死」SaaS:多 Agent 网络与软件业转型
晚点聊 LateTalk 第 164 期邀请了明略科技创始人吴明辉,深度探讨 AI Agent 如何颠覆 SaaS 商业模式。核心论点是「闭源软件价值消失,从 Token 和模型上赚钱」。明略正在开源发布多 Agent 协同网络「章鱼」,通过集体学习机制实现指数级增长。吴明辉提出了「龙虾哲学」--用工程化的义务约束来代替无法约束大模型的道德框架。有 5 年前 AI 尝试失败经验的他,这次对 AI 转型的判断更为审慎和结构化。这期时长超过两小时,想深入了解 AI 对企业软件架构影响的同学值得完整听完。
这篇 Towards Data Science 文章深入解析了 OpenAI 发布的 MRC(Multipath Reliable Connection)协议。这套协议颠覆了 30 年的网络惯例:禁用所有路由协议、主动接受丢包、将每次传输随机分散到数百条路径上。结果是在 13.1 万块 GPU 上实现了可预测的尾部延迟,以支持同步训练。文章最值得关注的发现是:MRC 实际上「消灭」了数据中心网络的整个第三层控制平面,没有 OSPF,没有 BGP,没有 IS-IS,交换机维护零动态转发状态。这在任何已公开的生产 AI 训练网络中都是前所未有的。对大规模分布式系统和网络架构感兴趣的工程师必读。
用 Evals 与五段式 Rubric 打造可靠 AI Agent
这个 AI Engineer 工作坊视频由 Arize AI 的 Laurie Voss 主讲,系统介绍了如何从「感觉对」走向「可测量」。核心框架是三层评估体系:代码 Evals(确定性检查,快速且便宜)、LLM-as-a-Judge(用更强模型评估语义质量,适合代码无法捕捉的质量维度)、人工评估(生成黄金数据集,是自动化评估器的「校准基准」)。五段式 Rubric 设计和 Meta-Evaluation(评估你的评估器本身是否靠谱)是两个关键实操技巧。想让 Agent 从实验阶段走向生产的团队必看。
只加两行代码,为什么要两天?
腾讯云开发者这篇文章深入剖析业务系统复杂性的根本来源:功能间隐秘增加的耦合和不可避免的代码腐化。文章指出,随着系统功能增多,实现每个新功能不会越来越容易,而是越来越难--这与理想中「可复用性会降低边际成本」的预期完全相反。实际的 functionalities-cost 曲线是指数级上升的,不是线性的。文章对于理解 AI 辅助开发在复杂遗留系统中的真实效率边界很有帮助,和精讲三少楠案例中「协作方式的重构才是最大难点」的观点形成互补。
Hugging Face Blog 的 LLM 推理系列第二篇,讲解如何通过 CUDA 流和事件将 CPU 批次准备与 GPU 计算解耦,实现真正的并行执行,实测获得 22% 的推理加速。技术深度较高,适合需要优化 LLM 推理服务成本、尤其是在 H200 等高端 GPU 上跑生产推理的工程师。是对第一篇连续批处理文章的延伸,建议按顺序阅读。
GitHub Issues 导航性能现代化改造
GitHub 工程团队如何通过客户端缓存、预热(Preheating)和 Service Worker,将 Issues 页面导航延迟从「网络受限」变为「接近即时」。文章特别有价值的是方法论层面:先做流量分布测量(发现 57.6% 是 hard navigation),再针对主导路径优化,而不是只优化已经较快的 React soft navigation。HPC 百分位指标的改善数据具体详实。适合做前端性能优化或关注产品感知速度提升的工程师参考。
在 Zoox 加速 LLM 驱动的开发者生产力
Zoox AI 负责人分享通过构建企业 AI 平台 Cortex 系统化提升开发者效率的路径,涵盖安全 LLM 访问、RAG、智能体 API 和采纳率管理。从「新员工入职查文档靠猜」到「AI 无处不在,缺 AI 才感觉奇怪」的转变过程,有不少关于 AI 采纳率培育的实操细节。适合正在规划企业 AI 基础设施、需要参考大型工程团队实战案例的管理者和架构师。
这篇访谈提供的不是技术方案,而是一个真实团队在 AI 效率提升后遇到的组织挑战的第一手记录。「AI 没有带来能力平权,反而把鸿沟拉大」和「协作方式的重构是最大难点,不是工具」这两个判断,对任何在团队中推动 AI 落地的人都有很高参考价值。尤其推荐和 flomo 同量级的中小团队创始人和产品经理阅读。预计阅读时间 30-40 分钟。