# OpenAI 启动 GPT-5.6 系列有限预览，LangChain 提示词缓存降本，Sean Goedecke 算推理盈利

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-27 08:23
- AIHOT 分数：54
- AIHOT 链接：https://aihot.virxact.com/items/cmqvoeeys0etgsl807kv4v1gl
- 原文链接：https://x.com/hongming731/status/2070664357596545454

## AI 摘要

OpenAI 推出 GPT-5.6 系列有限预览，包括旗舰 Sol、均衡 Terra 和低成本 Luna。Sol 在 Terminal-Bench 2.1 达 88.8%，ultra 模式升至 91.9%；Terra 性能对标 GPT-5.5 但价格减半。LangChain 提示词缓存将 token 成本降低 49%-80%（claude-haiku 降 77%，gpt-5.4-mini 降 80%）。Sean Goedecke 测算：4 张 A100 推理 70B 模型成本约 1 美元/百万 token，对比 GPT-5.4-mini 定价 4.5 美元，推理业务明显盈利。

## 正文

http://x.com/i/article/2070663412787576832

# BestBlogs 早报 · 06-27|OpenAI 启动 GPT-5.6 Sol 受限预览，LangChain 提示词缓存，Sean Goedecke 算推理

在线阅读本期早报

BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。

## 导语

OpenAI 把 GPT-5.6 Sol、Terra、Luna 一起摆上台面，新的 max 与 ultra 模式让旗舰在编码评测上再进一步，发布节奏却因安全审查而格外克制。模型更强之后，如何把 Agent 用得起、跑得久成了更现实的问题。LangChain 用提示词缓存把 token 成本砍掉近八成，Sean Goedecke 则算了一笔账，证明被唱衰的推理生意其实稳稳赚钱。能力竞赛之外，今天更像一堂 AI 经济账。

今天还有翁荔时隔一年更新的 Scaling Laws 长文、腾讯混元与字节火山引擎的工业级推理与 Agent 架构实践、阿里 OpenSandbox 的凭据隔离方案，以及一组关于职业能力、具身数据与英特尔翻身的延伸阅读，适合在能力与成本两条线索之间来回对照着读。

如果说过去一年大家比的是「谁的模型分数更高」，那么今天这批内容更像是在回答下一个阶段的真问题：模型已经足够强，接下来拼的是工程化落地与单位经济。三篇精讲分别从能力前沿、成本压缩与盈利账本切入，速览与补充阅读则补上了底层推理优化、企业级 Agent 架构、安全沙箱与人才能力等多个侧面。建议读的时候带着一个问题：当能力不再稀缺，真正的护城河会落在哪里。

## ★ 精讲一：GPT-5.6 Sol 前瞻：下一代模型预览

来源：OpenAI News | 评分 93 | 详见

OpenAI 启动了 GPT-5.6 系列的有限预览，一口气推出三款定位不同的模型：旗舰款 Sol、面向日常工作的均衡款 Terra，以及主打速度与低成本的 Luna。官方给出的口径是，Terra 在性能上可与上一代 GPT-5.5 掰手腕，价格却便宜一半；Luna 则在 OpenAI 自家最低成本档位上提供了相当强的能力。换句话说，这次更新不是单点拔高，而是把「同等能力更便宜、更便宜也够用」这件事一次性铺到了三个价位段上。

能力层面最值得关注的是两项新机制。GPT-5.6 引入了全新的 max 推理档，给 Sol 留出最充分的深度推理时间；同时新增 ultra 模式，通过调用子智能体（subagents）来加速复杂任务，突破了单一智能体的能力上限。在编码场景里，Sol 在 Terminal-Bench 2.1 这一考验命令行规划、迭代与工具协调的评测上刷新了 SOTA，得分 88.8%，而 ultra 模式更进一步达到 91.9%。生物学方面，它在 GeneBench v1 的长程基因组分析上以更少 token 取得了优于 GPT-5.5 的结果；网络安全方向，Sol 在 ExploitBench 上用约三分之一的输出 token 就追平了更高规格的对手，并在 UC Berkeley 联合多家前沿实验室构建的 ExploitGym 上，随推理预算增加而稳定提升。值得注意的是，这些收益往往伴随更高的 token 效率--同样的任务用更少的 token 完成，这本身就是一种变相的成本下降。

但这次发布真正的信号，藏在「克制」二字里。Sol 配备了 OpenAI 迄今最稳健的安全栈，团队花了数周做对抗测试与加固。更关键的是，首发只面向少数可信伙伴，且这些伙伴名单已与美国政府共享--这是 OpenAI 配合政府网络安全审查、分阶段放开能力的一部分。OpenAI 明确表示并不希望这种政府准入流程成为长期默认，但作为短期步骤接受了它，目标是在未来几周内走向更广泛可用。

值得留意的是这次发布的叙事重心转移。过去 OpenAI 的版本更新往往把笔墨放在「能力又强了多少」，这次却用相当篇幅解释「为什么要先做有限预览」。Sol、Terra、Luna 三档并行的产品线，本质上是在把同一波能力提升，按成本和场景重新切分给开发者、企业与终端用户；而政府准入流程的引入，则说明随着模型在网络安全等高风险方向的能力跃升，发布这件事本身正在被纳入更复杂的治理框架。能力越强，放开越要讲方法，这是和以往「发布即全面开放」最大的不同之处。

把它放进今天的脉络看，这条新闻代表的是能力竞赛的最前沿：模型在变强、变便宜，也在变得更难「随手就能用」。而接下来的两篇，恰好接力回答了「拿到更强模型之后，怎么把它用得起、用得久」。建议先读它建立坐标，再去看成本侧的两篇。

## ★ 精讲二：Deep Agents 的提示词缓存

来源：LangChain Blog | 评分 91 | 详见

如果说精讲一在比拼模型能力的天花板，这一篇就把视线拉回到生产环境最现实的地板：成本。LangChain 拆解了在规模化运行 Agent 时最关键的一根省钱杠杆--提示词缓存（Prompt Caching）。它的原理并不复杂：聊天模型每收到一条新消息，都得重新处理此前所有 token，包括系统提示、工具描述、已加载的技能、历史消息和新消息；开启缓存后，模型会保存处理完某段提示后的状态快照，下一次请求就从快照接着算，只处理新增文本。文中引用 Manus AI 的判断颇为犀利：「如果只能选一个指标，KV-cache 命中率就是生产级 AI Agent 最重要的单一指标。」

难点在于各家厂商的缓存策略并不统一。Anthropic 与 Gemini 支持显式缓存断点，OpenAI 走最长前缀自动缓存，而 Gemini 还另有隐式缓存；可配置 TTL、缓存预热、路由键等特性的支持情况也各不相同。这种割裂让「跨厂商都能拿到最大节省」变成一道难题--尤其是当加载一个新技能或工具会改动提示靠前的部分时，很容易触发整段缓存失效。显式断点的价值正在于此：它允许在提示靠前处设置缓存点，让一部分前缀仍然命中缓存，而不是因为一处改动就把整段重新计算一遍。

LangChain 的 Deep Agents 框架给出的解法是做 provider 无关的封装：支持的厂商自动设置显式断点，不支持的就退而启用厂商侧隐式缓存，并主动调整提示结构以最大化缓存读取。效果用真实 Agent 轨迹说话--在三家厂商的中端模型上跑评测，token 成本被砍掉 49% 到 80%，其中 claude-haiku 降了 77%，gpt-5.4-mini 降了 80%。规律也很清晰：会话越长、任务越偏长程，缓存带来的收益越大。

这里有一个容易被忽视但很关键的工程细节：缓存的收益会随着上下文的增长而非线性放大。一个简单的单轮问答几乎用不上缓存，但一个需要反复调用工具、加载多个技能、维持长对话历史的 Agent，每一步都要重新处理前面累积的全部上下文，缓存命中率因此直接决定了它的运行成本。这也是为什么 Manus AI 会把 KV-cache 命中率抬到「最重要的单一指标」的高度--对长程 Agent 而言，它几乎等价于单位任务的边际成本。Deep Agents 把这层复杂性封装进框架，让开发者在切换厂商时仍能拿到接近最优的节省，省去了为每家厂商单独调缓存策略的工程负担。

这正好和精讲三形成呼应：一边是用工程手段把单位调用成本压下去，一边是从账面证明推理本就有利可图。对正在把 Agent 推向生产的团队来说，这是今天最该立刻动手实践的一篇。

## ★ 精讲三：AI 推理显然是盈利的

来源：Sean Goedecke | 评分 89 | 详见

不少声音坚持认为 AI 推理服务本身在亏钱，只能靠投资人「不聪明的钱」持续输血，一旦热钱退潮，AI 产品就会随之消失。Sean Goedecke 直接算了一笔账来反驳，结论很干脆：AI 推理显然是赚钱的。

他的估算是这样的：一张 Nvidia A100 满载约耗 400W，跑一个稠密的 70B 模型，四张 A100 可以较为宽裕地承载、大约每小时产出 200 万 token。按美国工业电价，这部分电费约每小时 13 美分；即便悲观地假设散热成本与电费持平，折算下来每百万输出 token 的能耗成本也仅约 13 美分。再把最贵的 GPU 折旧摊进去--一张 A100 约 2 万美元、按五年寿命计，需要每年回收约 1.6 万美元（约每小时 1.8 美元）--综合算下来，每百万 token 的推理成本大约在 1 美元上下。

对照之下，GPT-5.4-mini 的定价是每百万 token 4.5 美元，更强的 OpenAI 或 Anthropic 模型还要贵上三到六倍。虽然我们并不知道这些闭源模型的真实规模、无法精确比较，但厂商对外宣称的 70%-80% 毛利率，从这笔账看完全站得住。开放模型也提供了旁证：DeepSeek-V4-Pro 的市场价约 87 美分，已经相当贴近成本线。

作者也提醒，这套估算是粗略的上界，真实情况里服务器并非始终满载、利用率、批处理效率、上下文长度都会影响最终单价，但即便把这些不利因素都考虑进去，推理的毛利空间依然宽裕。换个角度看，开放模型的市场价格就是一面镜子：如果推理真的注定亏本，DeepSeek-V4-Pro 这类靠市场竞争定价、又必须自负盈亏的开放模型，不可能把价格稳定在贴近成本的位置还有人愿意提供服务。

那么钱到底亏在哪？文章点破：真正在烧钱的不是推理这门生意，而是 AI 实验室拿推理赚来的利润去补贴训练端的军备竞赛。这也解释了为什么外界对「AI 在亏钱」的直觉并不算错--亏的确实存在，只是亏在训练而非推理。把这点和前两篇连起来看，今天的三条主线其实构成了一条完整的链路--精讲一展示模型能力还在往上冲、训练投入有增无减，精讲二给出压缩单位成本的工程手段，而这一篇则厘清了「推理盈利、训练烧钱」的真实账本。想看清 AI 行业的财务底色，这是绕不开的一篇。

## 速览

翁荔最新万字长文：大模型 Scaling Laws，要谨慎理解 | AINLP | 评分 90

翁荔（Lilian Weng）时隔一年更新长文，系统梳理 Scaling Laws 这条研究脉络：从早期机器学习里损失随规模变化的可预测性，到 Kaplan、Chinchilla 关于计算最优分配的经典结论，再到数据受限场景和现实拟合中的种种陷阱。文章的核心不是停在「模型越大越好」，而是讨论训练算力、模型规模、数据 token、重复数据与外推拟合之间究竟如何相互影响。她特别提醒，缩放定律虽然形式简单（在 log-log 图上呈一条直线），但实际拟合与外推时对超参数和数据分布相当敏感，盲目套用很容易踩坑。在精讲一展示模型能力还在攀升的当下，这篇恰好提供了理解「能力提升从何而来、又会在哪里遇到边界」的理论底座。对想真正吃透缩放定律、而非记住一句口号的人，这是一份值得完整读一遍的导览。详见

新一代学习 AI，苹果端侧模型配方，GLM-5.2 攻克开放性问题 | The Batch | DeepLearning.AI | 评分 92

吴恩达在本期信里分享了指导 AI 原生产品构建的三个关键开发循环：智能体编码循环（让 Agent 自动写码、测试、迭代到符合规格）、开发者反馈循环，以及面向外部用户的反馈循环--三者的节奏从几分钟到数小时不等，共同决定了从 0 到 1 产品的打磨效率。他特别强调，这些循环不仅决定「怎么写软件」，也反过来决定「该写什么软件」，因为快速闭环让试错成本骤降。本期还覆盖了 GLM-5.2 在智能体任务上的领先表现与低成本优势，以及美国高校 AI 学位快速兴起的趋势。适合想把「Loop Engineering」落到自己工作流里的读者。详见

科技爱好者周刊（第 401 期）：如何赚到 10 亿美元 | 阮一峰的网络日志 | 评分 92

本期周刊摘录了 Paul Graham 在牛津的演讲「如何赚到 10 亿美元」。他的核心观点是：保持高增长率并进入足够大的市场。文中用一组增长复利计算给人留下深刻印象--若净资产 200 万美元、每月维持 93% 增长，约九个半月就能放大 500 倍；即便降到每月 15%，五年也能增长约 4384 倍。Graham 强调，增长率之所以是他最先问创始人的问题，是因为它最能反映产品是否做对了--只有产品足够好、能让人口口相传，才会有源源不断的顾客支撑这样的增长。他还提到，YC 投资约 6500 家公司、2 万名创始人里，已有约 30 人成为十亿美元级富翁，机会并没有想象中那么小。除创业话题外，还有一批日常科技资讯值得一翻。详见

腾讯混元 AI Infra 如何优化 Hy3 Preview：一次大模型推理性能提升的技术拆解 | 腾讯技术工程 | 评分 91

腾讯混元 AI Infra 团队从算子优化与融合、并行策略、多级缓存、MTP 与异步调度、量化与稀疏五大维度，拆解了旗舰大模型 Hy3 preview 在 NVIDIA Hopper 卡上的全栈推理优化实践。Hy3 采用 GQA + MoE 混合架构、原生支持 256K 超长上下文，却要在算力与显存都更紧张的 Hopper 卡上满足 SLO 约束。文中的实测收益颇为可观，例如 Attention 动态调度在长文本单 batch 下单算子最高加速 2.95 倍，混合长度 batch 场景也有 1.59 到 1.76 倍的加速。这类底层优化正是把每百万 token 成本压到「推理稳赚」区间的关键工程基础。与精讲二相互对照，这是从底层硬件视角理解「推理为什么能赚钱」的极佳补充。详见

OpenSandbox 再进化：Credential Vault 让真实密钥不再进入沙箱 | 阿里技术 | 评分 91

阿里开源的 AI Agent 沙箱平台 OpenSandbox 推出 Credential Vault 能力，解决「真实凭据如何在沙箱里安全使用」的难题。过去最直接的做法是把 API Key、Git Token 等塞进环境变量或配置文件，但沙箱本就是用来隔离不可信代码的，一旦真实密钥进入，Prompt Injection、恶意依赖、日志泄露等风险都会被放大。Credential Vault 的思路是把真实凭据保存在沙箱之外，由 egress sidecar 在出站请求经过时按 scheme、host、port、method、path 精确匹配后再注入认证 Header；沙箱进程只拿到假值，真实密钥不会出现在环境变量、命令行、文件系统和日志里。这样 Claude Code、Git、curl、包管理器都能照常工作，却把风险面大幅收敛。对正在把 Agent 推向生产的团队是一份实用的安全范式。详见

火山引擎 AI 搜索千万级 Agent 架构演进与实践：从 ReAct 三节点到 Unified Policy | 字节跳动技术团队 | 评分 90

火山引擎 AI 搜索团队复盘了标准 ReAct 架构在千万级并发下暴露的工程原罪--节点臃肿、延迟高、状态管理混乱，并给出了 Unified Policy Agent（UP-ReAct）的演进方案：把 Workflow 与 Agent 分层，统一控制流、行为与状态管理，剥离确定性流程与开放式决策。在标准三节点 ReAct 里，模型每完成一次有效动作都要经历三次独立的决策流转，延迟代价被成倍放大；UP-ReAct 把确定性的流程交给 Workflow、把开放式判断留给 Agent，从源头削减了无谓的模型调用。结果是在推荐与对话效果提升的同时，把首字返回时间（TTFT）降低了约 30%。文章把「上下文工程不是垃圾桶、而是昂贵有限的计算资源」讲得很透，适合做企业级 Agent 架构的人深读。详见

Zynga 创始人 Mark Pincus：消费者产品「现在没法投」，恰恰是你该入场的理由 | Y Combinator | 评分 91

Zynga 创始人 Mark Pincus 在 YC 做了一次反向立论：正因为当下资本普遍认为消费者产品「不可投」，这才是押注它的最佳时机。他把互联网划为三波浪潮--早期网络、社交与移动、如今的 AI 与 Agent，并认为 AI 正像当年社交网络一样，从昂贵的奢侈品变成像水一样随处可得的公用品。他强调做出优秀产品需要「全栈式思考」，不能只盯着产品本身而回避管理、融资与长期战略。视频里他还分享了「Proven Better New」框架、用「鱼群来袭」来检验产品市场契合，以及 AI 消费革命将在 2029 年到来的判断。和今天偏工程与成本的主线相比，这是一条难得的产品与周期视角，适合做消费产品、对入场时机感兴趣的创业者。详见

## 补充阅读

- 饮水机闲聊第 11 期：RAG 评估中的过拟合 | Towards Data Science | 评分 90：提醒一个常见误区--反复依据同一测试集修问题，会把评估集悄悄变成训练集、虚高分数。文章用经典的训练集 / 验证集 / 测试集划分讲清了为什么「测着测着就到 97% 分」往往是个危险信号。做 RAG 评估、想知道线上效果与离线分数为何脱节的工程师值得一看。详见

- QoderWork Skills 开发实践：从传统数科到 AI 数科的转型探索 | 大淘宝技术 | 评分 91：系统讲解 Skills 的四层工程架构（编排 / 参数 / 实现 / 知识），并结合用户洞察与 AB 实验两个自研 Skill 案例，总结了 Description 定义、流程编排、配置模板化与渐进式披露等关键技巧。作者强调 Skill 的本质是把领域知识、标准流程与避坑指南封装成 Agent 可执行的「数字助手」。想把团队知识沉淀成可复用 Agent 能力的人适合参考。详见

- 具身数据采集产业链调查：被机器人采集的人 | 甲子光年 | 评分 91：一篇有现场感的产业调查，揭示具身智能背后真机遥操、可穿戴采集、工厂与劳务中介构成的「数据底座」。文中提到要让具身模型达到类似 GPT-3.5 的开箱即用能力大约需要一亿小时量级数据，而当前全球有效数据仅约几十万小时，差距高达两三个数量级。文章也写到数采员从真机遥操到无本体可穿戴采集的真实工作状态，颇能让人重新理解「机器人智能」背后的人力底色。关注机器人与数据产业的读者别错过。详见

- 未来五年，比技术更值钱的是这些基础能力 | 哈佛商业评论 | 评分 90：基于覆盖 7000 万次工作转换的大规模研究，论证在技术半衰期缩短的时代，协作、数学思维与适应力等基础技能更能决定职业上限--它们可跨岗位迁移，也让人学专业技能更快。和今天「能力会贬值、底层素养更保值」的主题一脉相承，适合做人才发展与个人长期规划的读者。详见

- 教你的 AI 如何做决策 | HBR.org | 评分 90：指出 AI 落地的真正瓶颈不在技术--大家用的模型、工具、基础设施都差不多--而在组织能否把隐性的判断过程显性化，并给出为智能体构建「判断力基础设施」的三个结构性转变。适合推动 AI 规模化落地的管理者。详见

- 英特尔，10000 亿市值还有多远？ | 腾讯科技 | 评分 90：复盘 CEO 陈立武上任 14 个月的「纠错」打法--裁员、股权重组、押注 18A 制程，股价从约 20.7 美元一路冲到 132 美元以上、市值回到 6600 亿美元之上，并探讨 AI Agent 对 CPU 需求的潜在利好。关心半导体格局与老牌巨头翻身故事的读者可读。详见

## 今日阅读路径

如果时间有限，建议按这个顺序读三篇：先看 精讲一（GPT-5.6 Sol 前瞻） 把握能力竞赛与发布节奏的最新坐标；再看 精讲三（AI 推理显然是盈利的） 厘清「推理盈利、训练烧钱」的行业财务底色；最后读 精讲二（Deep Agents 的提示词缓存），拿走一个能立刻动手、把 Agent 成本压低近八成的工程手段。三篇连起来，就是今天这堂 AI 经济账的完整逻辑。

如果还有余力，做底层推理与架构的同学可以接着读腾讯混元 Hy3 与火山引擎 Unified Policy 两篇，把成本与延迟的优化看得更细；关心理论的可以读翁荔的 Scaling Laws 长文；偏产品与战略的，则不妨看看 Mark Pincus 谈消费产品入场时机，以及哈佛商业评论关于基础能力的研究--它们共同回答了「能力不再稀缺之后，价值会沉淀到哪里」这个问题。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。
