AI时代软件开发、商业逻辑与工程实践的根本性转变 · AI HOT
ginobefun @hongming731 61
2026-05-01 08:18 ·63天前
AI 摘要 Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。
ginobefun @hongming731 · X 2026-05-01 08:18 · 63天前
在 X 看原推 · x.com AI 摘要 Andrej Karpathy提出软件3.0时代,编程核心转向上下文工程,并区分了Vibe Coding与Agentic Engineering两种开发姿态。OpenAI总裁Greg Brockman指出,算力套利是商业模式,人类注意力已成为新瓶颈,并估算AGI进程已完成八成。Anthropic的Claude Code团队则将Prompt Caching提升为核心工程纪律,通过优化prompt布局和更新机制,将缓存命中率作为关键SLA监控,以控制成本并保证系统性能。
精讲二 · OpenAI 总裁布罗克曼红杉访谈:算力套利、Scaling Laws 没有墙、人类注意力是新瓶颈 如果说 Karpathy 给的是新地图,OpenAI 总裁 Greg Brockman 给的就是这张地图背后的商业模型。他直白地说,OpenAI 的本质就是一桩算力套利生意:买、租、自建算力,然后用更高的毛利卖出去;只要这个毛利还为正,公司就会持续扩张,因为人类对"解决问题"的需求几乎是无穷的,对应到 AI 上就是对智能的无穷需求。即便 OpenAI 已经是 GPU 市场的大客户,Brockman 仍坦言他们"始终在猎更多算力",自 ChatGPT 发布以来,需求始终跑赢硬件爬坡。
他对 Scaling Laws 的描述更激进。他把 Scaling Laws 比作牛顿定律一样的物理事实--往神经网络里多倒算力,模型能力就线性变强,这条规律目前还没有看到墙。他甚至追溯到神经网络在 1940 年代被设计出来的时候,那时连真正的计算机都还没普及,但同一套数学结构等到算力跟上之后立刻迸发出新的意义。他给出一个粗略估算:人类已经走完了通向 AGI 八成的路,并用内部模型在一夜之间自动完成系统优化、profiling、迭代闭环的实例作为佐证--模型在没人盯着的情况下,可以一晚上完成一套基础设施的性能调优工作。他还提到 OpenAI 内部的 Chronicle 工具,让模型直接看见用户整台电脑上发生的事,把上下文问题硬解决--他反问道:"你为什么要去给计算机解释正在发生什么?这件事本身就不合理。"这正回应了 Karpathy 关于"Software 3.0 的核心是上下文工程"的论断。
更值得敲黑板的是 Brockman 对瓶颈位置的迁移:当 AI 把"做事"变得便宜,真正稀缺的资源从执行能力变成人类注意力和判断力。重要的问题不再是"怎么做",而是"做这件事是否对、是否对齐我们想要的方向、是否就是我们真正想要的结果"。除此之外,Brockman 还分享了一个让他兴奋的观察:OpenAI 内部某个模型最近独立推导出了一条与量子引力相关的物理公式,过去专家普遍认为这种问题超出了现有 AI 的能力范围。他预测科学领域会迎来一次文艺复兴,因为模型正在学会在生物学、物理学这些"杂乱真实世界"里找路。这条线索把今天的另外几篇文章串起来了:DeepMind 的 Hassabis 也把目光放在 2030 年的 AGI 与科学黄金时代,京东 GRAM 选择把生成式推荐压进 50ms,本质都是在抢人类愿意分给系统的那点注意力。
如果你是创业者或工程负责人,Brockman 的建议很简单:lean in。把 AI 系统应有的上下文、应有的工具、应有的可观察性今天就配齐,等模型继续变好,你才能跟着这股加速浪潮一起前进,而不是事到临头再补课。他的话翻译成产品语言,就是不要等下一代模型,而是把今天能做到的体验先完整地交付给用户,把"上下文齐整、动作可解释、效果可衡量"的基础底盘搭起来。完整访谈见 BestBlogs · Brockman 红杉访谈。
精讲三 · Claude Code 实战经验:Prompt Caching 就是一切,把缓存命中率当 SLA 来监控 Anthropic 这篇 Claude Code 团队的工程文章,正好是前两场对话的落地版。作者一开篇就引用工程界的老话--"cache rules everything around me",这句话对长程 Agent 同样成立。Claude Code 整套 harness 是围绕 Prompt Caching 设计的,因为高命中率直接降低成本,也让 Anthropic 能给订阅用户更宽的 rate limit。所以他们把缓存命中率当 SLA 来盯,命中率掉了就直接拉 SEV--把曾经的"性能优化技巧"上升到了线上故障级别的指标。
文章里给了几条非常硬核的工程纪律。第一是 prompt 的物理布局:Prompt 缓存的本质是前缀匹配,API 会把请求从开头一直缓存到每个 cache_control 断点,所以静态 system prompt 和工具定义放最前,CLAUDE.md 紧随其后,再是 session 上下文,最后才是会话消息。这样不同 session 之间能尽可能共享前缀缓存,把命中率拉满。Anthropic 团队曾经踩过的坑也很真实--把精确时间戳写进 system prompt、工具顺序非确定地洗牌、给 Agent 工具加新可调用的子智能体,都会让前缀失效。第二是更新机制:信息过期了不要去改 prompt,而是把更新追加到下一条 user message 或 tool result 的 <system-reminder> 里,这样就不会破坏已经热起来的缓存,模型也能在下一轮自然地读到新状态。
第三条是反直觉的"不要中途换模型"。Prompt 缓存是按模型独立维护的,所以如果你已经在 Opus 上跑了 100k token 的会话,遇到一个简单问题改用 Haiku 回答反而更贵,因为得给 Haiku 重新建一份缓存,这笔重建成本会一次性抵消掉小模型本身省下的钱。正确做法是派一个 subagent 让 Opus 准备 hand-off 给小模型--这套思路也已经用在 Claude Code 的 Explore agent 里,它专门用 Haiku 做大规模代码搜索。第四条是不要在会话中途增减工具,因为工具属于缓存前缀的一部分,加一个、减一个就把整段会话的缓存全部失效。直觉告诉我们应该"模型现在需要什么工具就给什么工具",但这正是大家最常踩的坑。Plan Mode 的实现就是个范例:他们没有去切换工具集,而是新增一个 EnterPlanMode 工具,把"我现在处于计划态"作为一个动作表达出来,模型在 Plan Mode 内只允许调用只读工具,但工具集本身一直保持稳定,缓存因此不被打破。最后一条针对超长会话的 compaction:当对话太长需要做摘要压缩时,新会话必须复用父会话的 system prompt 才能命中前缀缓存,否则压缩本身就先吃掉一大笔成本。
把这三条精讲连起来看:Karpathy 告诉我们编程的对象变了,Brockman 告诉我们瓶颈在注意力,Anthropic 告诉我们做长程 Agent 的真功夫是把上下文管理工程化,并把缓存命中率作为一条可监控、可报警的硬指标。如果你正在构建自己的 Coding Agent 或长程 Agent,这篇文章值得逐条复盘到自己的 harness 里,再把每一条做成 SLA 告警跑起来。完整内容见 BestBlogs · Claude Code Prompt Caching。
速览 长周期 AI Agent 工程拆解:跨上下文窗口和沙箱持续推进任务的五种生产模式
Addy Osmani 把过去两年"Agent = 聊天窗口 + 工具循环"那种范式正式翻篇。他指出真正的下一阶段是 long-running agent:能跨多个上下文窗口、跨多个沙箱持续推进任务,可恢复、可中断、并能留下结构化产物。文章对比了 Anthropic、Cursor 和 Google 三家的实现,把它们抽象成五种生产级模式,从执行计划的持久化、到对外可观测的产物层、再到多智能体之间的协作协议,每一种都给出了具体的取舍和落地代价。如果你正在落地长程 Agent,这是当前最系统的工程地图,配合精讲三的 Prompt Caching 经验一起读会有更立体的视角。原文见 BestBlogs · Long-running AI agents。
腾讯云开发者基于 Claude Code 泄露源码,给"RAG 是不是过时了"这个问题提供了一份具体答案。文章拆解了 Claude Code 在代码搜索场景下放弃向量检索、改用 LLM 驱动 Grep 多轮循环搜索的设计:模型像一个老练的工程师那样,先用关键字 Grep 大致定位,再读懂目录结构、缩小范围、精读片段,必要时再换关键字回头复查,最后给出答案。作者再把它和 Cursor、Codex 横向对比,论证在代码这种"结构高度规则、噪声低、变更频繁"的场景下,零索引方案的可行性、可解释性、对仓库变更的鲁棒性都更高,也避免了向量库的离线索引和漂移问题。读完你大概率会重新审视自己手里那套向量库到底解决的是什么问题。原文见 BestBlogs · RAG 已死?Grep 回归。
OpenAI 反思:GPT-5.1 之后突然冒出的"小妖怪"从哪来
OpenAI 这篇官方博文调查了一个非常生动的小事故:从 GPT-5.1 开始,他们的模型越来越爱在比喻里塞 goblin、gremlin 这种小妖怪。和那种"指标暴跌、训练 loss 飙升"的明显 bug 不同,这种奇怪的口头禅没法靠监控直接抓住,也不会指向某次具体的 commit 或某条数据。OpenAI 顺着内部日志一路回溯,最后追到了 Nerdy 个性化训练里一条被无意奖励的"用生物比喻"信号--一个微小的奖励倾斜,借模型迭代被放大成了可观察的群体性偏好,最终在用户对话里变成了大家都能看见的口头禅。这是一个很好的警示:当模型规模和迭代速度都进入新阶段,奖励工程里的微小偏置会以你想不到的方式表达自己,需要用更系统的"行为漂移"监控去配合传统的指标告警。原文见 BestBlogs · OpenAI 小妖怪反思。
DeepMind 创始人哈萨比斯红杉访谈:通向 AGI 的精确路径与科学黄金时代
把这一期 Sequoia Capital 三场访谈拼齐的,是 DeepMind 创始人 Demis Hassabis。他把自己的人生从国际象棋神童一路讲到 AGI 路线设计师,强调 AI 是描述生物学这种"高度复杂自然系统"最好的语言,并把 AGI 与一个真正意义上的"科学黄金时代"放在 2030 年这个时间点。他对路线的描述非常工程化:今天的多模态、规划、记忆、世界模型,每一块都对应一个明确的研究路标,缺哪一块、什么时候补上都有清晰的判断。配合 Karpathy、Brockman 的两段,你可以把当下三家头部实验室的方法论在脑子里拼成一张完整的时间线:DeepMind 偏向科学问题、OpenAI 偏向算力套利与产品扩张、Anthropic 偏向工程纪律与可观察性。完整访谈见 BestBlogs · Hassabis 红杉访谈。
Stripe Docdb:用零停机数据迁移平台支撑万亿美元支付的工程实战
InfoQ 这篇文章揭开了 Stripe 自研 DocDB 的内幕。他们基于开源 MongoDB 重做了一整套零停机数据迁移平台,把数据库分片从过去那种"得人工照看的宠物"变成了"可自动化、可水平扩展的群",整个迁移、扩容、回滚都在线上无感完成,DBA 团队再也不用半夜爬起来照顾某一台异常的分片。这套系统支撑着 Stripe 一年处理万亿美元规模支付的核心存储栈,每一笔交易都从这套平台的可用性里受益。对所有还在为大表迁移、分片改造头疼的工程团队来说,这是一份难得的"工业级"参考,给出了从控制面到数据面的一整套设计取舍。原文见 BestBlogs · Stripe Docdb。
DeepSeek 识图模式是个新模型?!一手实测在此
量子位拿到了 DeepSeek 灰度测试中的识图模式,做了一份扎实的一手实测。作者发现这个识图模式背后很可能不是 V4 的视觉分支,而是一个独立训练的新视觉模型--在 OCR、HTML 复原这类"高确定性"任务上表现亮眼,能把截图原样复刻成接近像素级的页面,连一些细小的图标和文字层级都能复原回来;但在空间推理、找不同等需要长链条视觉推理的任务上,依然会出现幻觉、思考过长,模型有时会自我纠结到失去结论。这条信息既是对 DeepSeek 路线的及时补充,也提醒我们多模态评测要分清"看清楚"和"看明白"两件事,前者更像是更高分辨率的视觉编码器,后者考的是真正的视觉推理能力。原文见 BestBlogs · DeepSeek 识图实测。
京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐?
InfoQ 中文这篇来自京东广告团队的实战分享,把"生成式推荐能不能进推荐主链路"这个老问题给出了肯定答案。GRAM 架构通过让用户意图与商品在语义空间里直接对齐,再叠加快慢双链路、知识工程与一系列工程优化,把生成式推荐压进了 50ms 以内的延迟预算,同时有效抑制了大模型在商品推荐场景里特别容易出现的幻觉问题。文章对预训练、后训练、业务领域微调的两年实践节奏也给了清晰描述,强调"从 2023 年底到 2025 年底"这条从基础能力到业务落地的演进路径走得越来越顺。对所有正在把 LLM 推进到电商、广告主链路的团队来说,这是一份能直接对照自家系统去打分的硬核工程文章。原文见 BestBlogs · 京东 GRAM。
扩展阅读 Scaling Pain:超大规模 Coding Agent 推理实践
智谱团队复盘了在超大规模 Coding Agent 推理场景中遇到的三类异常输出--乱码、复读、生僻字,详细讲了如何在高并发与长上下文叠加下做异常检测、定位与修复。其中复读相对容易抓,但乱码和生僻字尤其棘手,正则表达式和字符集匹配会漏判,纯模型判别又跟不上消融实验的效率。最终他们用投机采样指标作为异常检测的重要参考,并给出了 KV Cache 分层存储的优化方案。适合所有正在为推理稳定性头疼的基础设施团队。原文见 BestBlogs · 智谱 Scaling Pain。
Generalist 之后,罗剑岚团队推出 LWD,也要变革具身智能训练范式
机器之心介绍了智元机器人联合上海创智学院推出的 LWD(Learning While Deploying)系统。它首次让具身 VLA 策略走通了大规模分布式强化学习的预训练 + 后训练闭环,让机器人在真实世界部署中持续自主进化,5 分钟长程操作任务能做到 91% 的成功率。文章里那段机器人切水果、把梨和黄瓜打成饮料的演示也直接说明了:具身智能正在跨过"演示视频"的门槛,进入"日常作业"的阶段。具身智能从业者必读。原文见 BestBlogs · LWD。
Stripe 发布 288 项新功能,构建 AI 时代的经济基础设施
量子位整理了 Stripe 年度大会一次性放出的 288 项新功能,从 AI Agent 支付、流式支付、风控升级到全球企业账户。Stripe 联合创始人兼 CEO Patrick Collison 直接表态:"AI 是继互联网以来对经济影响最深远的平台变革,不远的未来绝大多数线上交易将由 AI 智能体完成。"对照本期 Brockman 那段对算力套利的论述一起看,这份清单是观察"AI 原生支付基础设施"的好窗口。原文见 BestBlogs · Stripe 288。
营收增长 33%、Meta 股价却大跌:扎克伯格宣布再烧 100 亿
腾讯科技解读了 Meta 这份"超预期但被市场惩罚"的财报。营收同比增长 33%,是 2021 年以来最快的营收增速,但因为扎克伯格把 2026 年资本支出上限拉到 1450 亿美元,市场担心 AI 投入回报周期被拉长、自由现金流被压缩。文章还提醒读者,本季净利润中藏着一笔一次性税务收益,剥离后的真实盈利能力没有看上去那么夸张。对于关注大厂 AI 资本支出节奏的读者,这是一份直接的现实读数。原文见 BestBlogs · Meta 财报。
Datawhale 报道了 DeepSeek 在五一节前突袭发布的论文《Thinking with Visual Primitives》,由 DeepSeek 联合北大、清华开源。论文提出在思维链中嵌入坐标 token 作为"视觉原语",专门解决多模态模型在拓扑推理任务上的引用差距问题,让模型在生成推理过程时能直接"指着图说话"。值得搭配前面那篇 DeepSeek 识图实测一起读,能更完整理解 DeepSeek 在视觉理解这条线的最新动作。原文见 BestBlogs · DeepSeek Visual Primitives。
今日阅读路径 Karpathy 红杉访谈(精讲一)--拿到这张新地图,后面所有内容才放得下位置:BestBlogs · Karpathy。 Claude Code Prompt Caching 实战(精讲三)--把"上下文是新代码"这件事变成你今天就能动手的工程动作:BestBlogs · Prompt Caching。 Long-running AI Agent 工程拆解(速览首条)--补上长程 Agent 的范式视角,让前两篇真正接得住产品:BestBlogs · Long-running Agents。 如果还想再读一篇,加上 Brockman 那场访谈,把"算力-注意力-工程"这条主线在脑子里完整跑一遍。再有余力的话,DeepSeek 识图实测和京东 GRAM 这两篇会让你更直观地感受到,新的视觉理解能力和生成式推荐已经在产品端、广告端落地,而不是仍停留在论文里。其他几篇放在桌上慢慢翻就好,今天值得记住的是这条主线:上下文是新代码,缓存命中率是新性能,注意力是新瓶颈。
OpenAI 联合创始人、特斯拉前 Autopilot 负责人 Andrej Karpathy 这次走进 Sequoia Capital 演播室,给当下的软件开发画了一张新地图。他把过去一二十年的实战经验压缩成一段时间线:Software 1.0 是人类一行行写下的显式规则,编译器和操作系统都属于这一层;Software 2.0 是用神经网络权重替代人写规则,编程变成数据集和网络结构的编排,深度学习时代的计算机视觉、语音识别都在这条线上;进入 Software 3.0,LLM 成了那台真正在跑的"计算机",上下文窗口才是主要的控制杆,编程不再是写代码,而是把对的 prompt、对的上下文喂进去,再用工具调用把外部世界接回来。
在这个新地图上,Karpathy 给两种姿态打了清晰的标签。Vibe Coding 是"抬升地板",让任何人都能凭一段描述让 AI 把原型跑出来,门槛被压到几乎为零;Agentic Engineering 则是专业团队的纪律,要求工程师协调多个能力参差不齐、行为带有随机性的 spiky 智能体,在面对生产环境的质量、安全、合规和性能时仍然保持系统级的可靠性。他还提醒,AI 进步本身是 jagged 的--在数学、代码这种可被强化学习自动验证的领域峰值很高,模型可以重构十万行代码,却可能在"该走路还是开车去洗车"这种生活化判断上翻车,因为后者落在了奖励信号之外,根本没机会被打磨。
Karpathy 还把人类工程师的角色重新做了定义。当智能体接管了那些"实习生级别"的活儿--比如记住 reshape 和 permute 的差别--人类应当向上一层走,承担起 director 的职责。他点名了三种最值钱的能力:第一是品味与判断力,要能决定什么值得做、做出来的审美是否过关;第二是系统设计,能写出高层规格说明,让一群智能体按照计划去执行;第三是真正的理解力,他原话是"你可以外包思考,但你没办法外包理解",理解力会成为引导 AI 价值的最终方向盘。
为什么这一段对今天的工程师重要?因为它直接对应到第三篇精讲里的 Prompt Caching 实践--当 LLM 真的成了一台计算机,prompt 就是程序,prompt 缓存就是 CPU cache,工程化的核心从此转向"如何稳定、可缓存地喂上下文"。Karpathy 的判断也呼应了 Brockman 那场对谈的主旋律:人类的角色正在从写代码的 coder 变成定义意图、把握品味、承担系统设计责任的 director。
如果你只听一段,请关注他对 2026 年的预测:神经网络可能成为主机进程,CPU 退化为协处理器,UI 由扩散模型按需即时渲染--这意味着用户每一次打开界面,看到的都是模型为他这一刻量身渲染出来的瞬时形态。这同时意味着我们今天写的产品形态、UI 框架、甚至 SaaS 的边界,都可能在两年内被重新定义。完整访谈见 BestBlogs · Karpathy 红杉访谈。
精讲二 · OpenAI 总裁布罗克曼红杉访谈:算力套利、Scaling Laws 没有墙、人类注意力是新瓶颈 如果说 Karpathy 给的是新地图,OpenAI 总裁 Greg Brockman 给的就是这张地图背后的商业模型。他直白地说,OpenAI 的本质就是一桩算力套利生意:买、租、自建算力,然后用更高的毛利卖出去;只要这个毛利还为正,公司就会持续扩张,因为人类对"解决问题"的需求几乎是无穷的,对应到 AI 上就是对智能的无穷需求。即便 OpenAI 已经是 GPU 市场的大客户,Brockman 仍坦言他们"始终在猎更多算力",自 ChatGPT 发布以来,需求始终跑赢硬件爬坡。
他对 Scaling Laws 的描述更激进。他把 Scaling Laws 比作牛顿定律一样的物理事实--往神经网络里多倒算力,模型能力就线性变强,这条规律目前还没有看到墙。他甚至追溯到神经网络在 1940 年代被设计出来的时候,那时连真正的计算机都还没普及,但同一套数学结构等到算力跟上之后立刻迸发出新的意义。他给出一个粗略估算:人类已经走完了通向 AGI 八成的路,并用内部模型在一夜之间自动完成系统优化、profiling、迭代闭环的实例作为佐证--模型在没人盯着的情况下,可以一晚上完成一套基础设施的性能调优工作。他还提到 OpenAI 内部的 Chronicle 工具,让模型直接看见用户整台电脑上发生的事,把上下文问题硬解决--他反问道:"你为什么要去给计算机解释正在发生什么?这件事本身就不合理。"这正回应了 Karpathy 关于"Software 3.0 的核心是上下文工程"的论断。
更值得敲黑板的是 Brockman 对瓶颈位置的迁移:当 AI 把"做事"变得便宜,真正稀缺的资源从执行能力变成人类注意力和判断力。重要的问题不再是"怎么做",而是"做这件事是否对、是否对齐我们想要的方向、是否就是我们真正想要的结果"。除此之外,Brockman 还分享了一个让他兴奋的观察:OpenAI 内部某个模型最近独立推导出了一条与量子引力相关的物理公式,过去专家普遍认为这种问题超出了现有 AI 的能力范围。他预测科学领域会迎来一次文艺复兴,因为模型正在学会在生物学、物理学这些"杂乱真实世界"里找路。这条线索把今天的另外几篇文章串起来了:DeepMind 的 Hassabis 也把目光放在 2030 年的 AGI 与科学黄金时代,京东 GRAM 选择把生成式推荐压进 50ms,本质都是在抢人类愿意分给系统的那点注意力。
如果你是创业者或工程负责人,Brockman 的建议很简单:lean in。把 AI 系统应有的上下文、应有的工具、应有的可观察性今天就配齐,等模型继续变好,你才能跟着这股加速浪潮一起前进,而不是事到临头再补课。他的话翻译成产品语言,就是不要等下一代模型,而是把今天能做到的体验先完整地交付给用户,把"上下文齐整、动作可解释、效果可衡量"的基础底盘搭起来。完整访谈见 BestBlogs · Brockman 红杉访谈。
精讲三 · Claude Code 实战经验:Prompt Caching 就是一切,把缓存命中率当 SLA 来监控 Anthropic 这篇 Claude Code 团队的工程文章,正好是前两场对话的落地版。作者一开篇就引用工程界的老话--"cache rules everything around me",这句话对长程 Agent 同样成立。Claude Code 整套 harness 是围绕 Prompt Caching 设计的,因为高命中率直接降低成本,也让 Anthropic 能给订阅用户更宽的 rate limit。所以他们把缓存命中率当 SLA 来盯,命中率掉了就直接拉 SEV--把曾经的"性能优化技巧"上升到了线上故障级别的指标。
文章里给了几条非常硬核的工程纪律。第一是 prompt 的物理布局:Prompt 缓存的本质是前缀匹配,API 会把请求从开头一直缓存到每个 cache_control 断点,所以静态 system prompt 和工具定义放最前,CLAUDE.md 紧随其后,再是 session 上下文,最后才是会话消息。这样不同 session 之间能尽可能共享前缀缓存,把命中率拉满。Anthropic 团队曾经踩过的坑也很真实--把精确时间戳写进 system prompt、工具顺序非确定地洗牌、给 Agent 工具加新可调用的子智能体,都会让前缀失效。第二是更新机制:信息过期了不要去改 prompt,而是把更新追加到下一条 user message 或 tool result 的 <system-reminder> 里,这样就不会破坏已经热起来的缓存,模型也能在下一轮自然地读到新状态。
第三条是反直觉的"不要中途换模型"。Prompt 缓存是按模型独立维护的,所以如果你已经在 Opus 上跑了 100k token 的会话,遇到一个简单问题改用 Haiku 回答反而更贵,因为得给 Haiku 重新建一份缓存,这笔重建成本会一次性抵消掉小模型本身省下的钱。正确做法是派一个 subagent 让 Opus 准备 hand-off 给小模型--这套思路也已经用在 Claude Code 的 Explore agent 里,它专门用 Haiku 做大规模代码搜索。第四条是不要在会话中途增减工具,因为工具属于缓存前缀的一部分,加一个、减一个就把整段会话的缓存全部失效。直觉告诉我们应该"模型现在需要什么工具就给什么工具",但这正是大家最常踩的坑。Plan Mode 的实现就是个范例:他们没有去切换工具集,而是新增一个 EnterPlanMode 工具,把"我现在处于计划态"作为一个动作表达出来,模型在 Plan Mode 内只允许调用只读工具,但工具集本身一直保持稳定,缓存因此不被打破。最后一条针对超长会话的 compaction:当对话太长需要做摘要压缩时,新会话必须复用父会话的 system prompt 才能命中前缀缓存,否则压缩本身就先吃掉一大笔成本。
把这三条精讲连起来看:Karpathy 告诉我们编程的对象变了,Brockman 告诉我们瓶颈在注意力,Anthropic 告诉我们做长程 Agent 的真功夫是把上下文管理工程化,并把缓存命中率作为一条可监控、可报警的硬指标。如果你正在构建自己的 Coding Agent 或长程 Agent,这篇文章值得逐条复盘到自己的 harness 里,再把每一条做成 SLA 告警跑起来。完整内容见 BestBlogs · Claude Code Prompt Caching。
速览 长周期 AI Agent 工程拆解:跨上下文窗口和沙箱持续推进任务的五种生产模式
Addy Osmani 把过去两年"Agent = 聊天窗口 + 工具循环"那种范式正式翻篇。他指出真正的下一阶段是 long-running agent:能跨多个上下文窗口、跨多个沙箱持续推进任务,可恢复、可中断、并能留下结构化产物。文章对比了 Anthropic、Cursor 和 Google 三家的实现,把它们抽象成五种生产级模式,从执行计划的持久化、到对外可观测的产物层、再到多智能体之间的协作协议,每一种都给出了具体的取舍和落地代价。如果你正在落地长程 Agent,这是当前最系统的工程地图,配合精讲三的 Prompt Caching 经验一起读会有更立体的视角。原文见 BestBlogs · Long-running AI agents。
腾讯云开发者基于 Claude Code 泄露源码,给"RAG 是不是过时了"这个问题提供了一份具体答案。文章拆解了 Claude Code 在代码搜索场景下放弃向量检索、改用 LLM 驱动 Grep 多轮循环搜索的设计:模型像一个老练的工程师那样,先用关键字 Grep 大致定位,再读懂目录结构、缩小范围、精读片段,必要时再换关键字回头复查,最后给出答案。作者再把它和 Cursor、Codex 横向对比,论证在代码这种"结构高度规则、噪声低、变更频繁"的场景下,零索引方案的可行性、可解释性、对仓库变更的鲁棒性都更高,也避免了向量库的离线索引和漂移问题。读完你大概率会重新审视自己手里那套向量库到底解决的是什么问题。原文见 BestBlogs · RAG 已死?Grep 回归。
OpenAI 反思:GPT-5.1 之后突然冒出的"小妖怪"从哪来
OpenAI 这篇官方博文调查了一个非常生动的小事故:从 GPT-5.1 开始,他们的模型越来越爱在比喻里塞 goblin、gremlin 这种小妖怪。和那种"指标暴跌、训练 loss 飙升"的明显 bug 不同,这种奇怪的口头禅没法靠监控直接抓住,也不会指向某次具体的 commit 或某条数据。OpenAI 顺着内部日志一路回溯,最后追到了 Nerdy 个性化训练里一条被无意奖励的"用生物比喻"信号--一个微小的奖励倾斜,借模型迭代被放大成了可观察的群体性偏好,最终在用户对话里变成了大家都能看见的口头禅。这是一个很好的警示:当模型规模和迭代速度都进入新阶段,奖励工程里的微小偏置会以你想不到的方式表达自己,需要用更系统的"行为漂移"监控去配合传统的指标告警。原文见 BestBlogs · OpenAI 小妖怪反思。
DeepMind 创始人哈萨比斯红杉访谈:通向 AGI 的精确路径与科学黄金时代
把这一期 Sequoia Capital 三场访谈拼齐的,是 DeepMind 创始人 Demis Hassabis。他把自己的人生从国际象棋神童一路讲到 AGI 路线设计师,强调 AI 是描述生物学这种"高度复杂自然系统"最好的语言,并把 AGI 与一个真正意义上的"科学黄金时代"放在 2030 年这个时间点。他对路线的描述非常工程化:今天的多模态、规划、记忆、世界模型,每一块都对应一个明确的研究路标,缺哪一块、什么时候补上都有清晰的判断。配合 Karpathy、Brockman 的两段,你可以把当下三家头部实验室的方法论在脑子里拼成一张完整的时间线:DeepMind 偏向科学问题、OpenAI 偏向算力套利与产品扩张、Anthropic 偏向工程纪律与可观察性。完整访谈见 BestBlogs · Hassabis 红杉访谈。
Stripe Docdb:用零停机数据迁移平台支撑万亿美元支付的工程实战
InfoQ 这篇文章揭开了 Stripe 自研 DocDB 的内幕。他们基于开源 MongoDB 重做了一整套零停机数据迁移平台,把数据库分片从过去那种"得人工照看的宠物"变成了"可自动化、可水平扩展的群",整个迁移、扩容、回滚都在线上无感完成,DBA 团队再也不用半夜爬起来照顾某一台异常的分片。这套系统支撑着 Stripe 一年处理万亿美元规模支付的核心存储栈,每一笔交易都从这套平台的可用性里受益。对所有还在为大表迁移、分片改造头疼的工程团队来说,这是一份难得的"工业级"参考,给出了从控制面到数据面的一整套设计取舍。原文见 BestBlogs · Stripe Docdb。
DeepSeek 识图模式是个新模型?!一手实测在此
量子位拿到了 DeepSeek 灰度测试中的识图模式,做了一份扎实的一手实测。作者发现这个识图模式背后很可能不是 V4 的视觉分支,而是一个独立训练的新视觉模型--在 OCR、HTML 复原这类"高确定性"任务上表现亮眼,能把截图原样复刻成接近像素级的页面,连一些细小的图标和文字层级都能复原回来;但在空间推理、找不同等需要长链条视觉推理的任务上,依然会出现幻觉、思考过长,模型有时会自我纠结到失去结论。这条信息既是对 DeepSeek 路线的及时补充,也提醒我们多模态评测要分清"看清楚"和"看明白"两件事,前者更像是更高分辨率的视觉编码器,后者考的是真正的视觉推理能力。原文见 BestBlogs · DeepSeek 识图实测。
京东广告大模型实战:GRAM 架构如何在 50ms 内完成生成式推荐?
InfoQ 中文这篇来自京东广告团队的实战分享,把"生成式推荐能不能进推荐主链路"这个老问题给出了肯定答案。GRAM 架构通过让用户意图与商品在语义空间里直接对齐,再叠加快慢双链路、知识工程与一系列工程优化,把生成式推荐压进了 50ms 以内的延迟预算,同时有效抑制了大模型在商品推荐场景里特别容易出现的幻觉问题。文章对预训练、后训练、业务领域微调的两年实践节奏也给了清晰描述,强调"从 2023 年底到 2025 年底"这条从基础能力到业务落地的演进路径走得越来越顺。对所有正在把 LLM 推进到电商、广告主链路的团队来说,这是一份能直接对照自家系统去打分的硬核工程文章。原文见 BestBlogs · 京东 GRAM。
扩展阅读 Scaling Pain:超大规模 Coding Agent 推理实践
智谱团队复盘了在超大规模 Coding Agent 推理场景中遇到的三类异常输出--乱码、复读、生僻字,详细讲了如何在高并发与长上下文叠加下做异常检测、定位与修复。其中复读相对容易抓,但乱码和生僻字尤其棘手,正则表达式和字符集匹配会漏判,纯模型判别又跟不上消融实验的效率。最终他们用投机采样指标作为异常检测的重要参考,并给出了 KV Cache 分层存储的优化方案。适合所有正在为推理稳定性头疼的基础设施团队。原文见 BestBlogs · 智谱 Scaling Pain。
Generalist 之后,罗剑岚团队推出 LWD,也要变革具身智能训练范式
机器之心介绍了智元机器人联合上海创智学院推出的 LWD(Learning While Deploying)系统。它首次让具身 VLA 策略走通了大规模分布式强化学习的预训练 + 后训练闭环,让机器人在真实世界部署中持续自主进化,5 分钟长程操作任务能做到 91% 的成功率。文章里那段机器人切水果、把梨和黄瓜打成饮料的演示也直接说明了:具身智能正在跨过"演示视频"的门槛,进入"日常作业"的阶段。具身智能从业者必读。原文见 BestBlogs · LWD。
Stripe 发布 288 项新功能,构建 AI 时代的经济基础设施
量子位整理了 Stripe 年度大会一次性放出的 288 项新功能,从 AI Agent 支付、流式支付、风控升级到全球企业账户。Stripe 联合创始人兼 CEO Patrick Collison 直接表态:"AI 是继互联网以来对经济影响最深远的平台变革,不远的未来绝大多数线上交易将由 AI 智能体完成。"对照本期 Brockman 那段对算力套利的论述一起看,这份清单是观察"AI 原生支付基础设施"的好窗口。原文见 BestBlogs · Stripe 288。
营收增长 33%、Meta 股价却大跌:扎克伯格宣布再烧 100 亿
腾讯科技解读了 Meta 这份"超预期但被市场惩罚"的财报。营收同比增长 33%,是 2021 年以来最快的营收增速,但因为扎克伯格把 2026 年资本支出上限拉到 1450 亿美元,市场担心 AI 投入回报周期被拉长、自由现金流被压缩。文章还提醒读者,本季净利润中藏着一笔一次性税务收益,剥离后的真实盈利能力没有看上去那么夸张。对于关注大厂 AI 资本支出节奏的读者,这是一份直接的现实读数。原文见 BestBlogs · Meta 财报。
Datawhale 报道了 DeepSeek 在五一节前突袭发布的论文《Thinking with Visual Primitives》,由 DeepSeek 联合北大、清华开源。论文提出在思维链中嵌入坐标 token 作为"视觉原语",专门解决多模态模型在拓扑推理任务上的引用差距问题,让模型在生成推理过程时能直接"指着图说话"。值得搭配前面那篇 DeepSeek 识图实测一起读,能更完整理解 DeepSeek 在视觉理解这条线的最新动作。原文见 BestBlogs · DeepSeek Visual Primitives。
今日阅读路径 Karpathy 红杉访谈(精讲一)--拿到这张新地图,后面所有内容才放得下位置:BestBlogs · Karpathy。 Claude Code Prompt Caching 实战(精讲三)--把"上下文是新代码"这件事变成你今天就能动手的工程动作:BestBlogs · Prompt Caching。 Long-running AI Agent 工程拆解(速览首条)--补上长程 Agent 的范式视角,让前两篇真正接得住产品:BestBlogs · Long-running Agents。 如果还想再读一篇,加上 Brockman 那场访谈,把"算力-注意力-工程"这条主线在脑子里完整跑一遍。再有余力的话,DeepSeek 识图实测和京东 GRAM 这两篇会让你更直观地感受到,新的视觉理解能力和生成式推荐已经在产品端、广告端落地,而不是仍停留在论文里。其他几篇放在桌上慢慢翻就好,今天值得记住的是这条主线:上下文是新代码,缓存命中率是新性能,注意力是新瓶颈。