# GPT-5.6 Sol 预览 / Deep Agents 提示词缓存 / AI 推理成本分析

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-27 08:24
- AIHOT 分数：53
- AIHOT 链接：https://aihot.virxact.com/items/cmqvoeeys0etfsl80mrb4bnhx
- 原文链接：https://x.com/hongming731/status/2070664408037216558

## AI 摘要

OpenAI 启动 GPT-5.6 系列有限预览：旗舰 Sol、均衡款 Terra（性能比肩 GPT-5.5 但便宜一半）和低成本 Luna。新增 max 深度推理档与 ultra 模式，Sol 在 Terminal-Bench 2.1 以 88.8% 刷新编码 SOTA。LangChain 拆解 Deep Agents 提示词缓存，可削减 token 成本 49%-80%（claude-haiku -77%、gpt-5.4-mini -80%）。Sean Goedecke 核算 AI 推理服务毛利率可达 70%-80%，DeepSeek-V4-Pro 市场价约 87 美分已贴近成本。

## 正文

BestBlogs 早报 · 06-27

# GPT-5.6 Sol / Deep Agents 提示词缓存 / AI 推理成本 / Scaling Laws / 翁荔

【1】 ★ 精讲|GPT-5.6 Sol 前瞻：下一代模型预览
OpenAI 启动 GPT-5.6 系列有限预览：旗舰 Sol、均衡款 Terra（性能比肩 GPT-5.5 但便宜一半）、低成本 Luna。新增 max 深度推理档与调用子智能体的 ultra 模式，Sol 在 Terminal-Bench 2.1 上以 88.8% 刷新编码 SOTA。这次首发只面向少数可信伙伴，并配合美国政府网络安全审查分阶段放开--能力跃升与安全门槛同步收紧，才是本次发布最值得关注的信号。
来源：OpenAI News
https://www.bestblogs.dev/article/97e62d58

【2】 ★ 精讲|Deep Agents 的提示词缓存
LangChain 拆解了把生产级 Agent 成本压下来的关键杠杆--提示词缓存。难点在于各家策略割裂：Anthropic、Gemini 支持显式断点，OpenAI 走最长前缀自动缓存，Gemini 仅有隐式缓存。其 Deep Agents 框架做了 provider 无关封装，在真实 Agent 轨迹上把 token 成本砍掉 49%-80%（claude-haiku -77%、gpt-5.4-mini -80%）。会话越长收益越大，长程任务最受益。
来源：LangChain Blog
https://www.bestblogs.dev/article/91444258

【3】 ★ 精讲|AI 推理显然是盈利的
不少人认为 AI 推理服务本身在亏钱、只能靠投资人输血续命，Sean Goedecke 算了一笔账反驳：4 张 A100 跑 70B 模型约 2M token/小时，电费加散热每百万 token 仅约 13 美分，摊上 GPU 折旧综合成本约 1 美元；而 GPT-5.4-mini 卖 4.5 美元，70%-80% 毛利完全成立。DeepSeek-V4-Pro 市场价约 87 美分已贴近成本佐证。真正亏的不是推理，而是 AI 实验室拿推理利润补贴训练军备竞赛。
来源：Sean Goedecke
https://www.bestblogs.dev/article/262173e6

【4】 新一代学习 AI，苹果端侧模型配方，GLM-5.2 攻克开放性问题
吴恩达分享了指导 AI 原生产品构建的三个关键软件开发循环（智能体编码、开发者反馈、外部反馈），同时涵盖了 GLM-5.2 领先的智能体表现以及美国大学 AI 学位兴起的相关资讯。
来源：The Batch | http://DeepLearning.AI
https://www.bestblogs.dev/article/6a65696f

【5】 科技爱好者周刊（第 401 期）：如何赚到 10 亿美元
本文摘录了 Paul Graham 关于如何通过创业赚取 10 亿美元的演讲，核心观点是保持高增长率并进入大市场，并辅以增长计算示例和其他科技资讯。
来源：阮一峰的网络日志
https://www.bestblogs.dev/article/a93f6c93

【6】 腾讯混元 AI Infra 如何优化 Hy3 Preview：一次大模型推理性能提升的技术拆解
本文拆解腾讯混元 Hy3 大模型在 Hopper 卡上从算子、融合、并行、缓存到量化的全栈推理优化方案，实测性能提升显著。
来源：腾讯技术工程
https://www.bestblogs.dev/article/a0f9d2c7

【7】 OpenSandbox 再进化：Credential Vault 让真实密钥不再进入沙箱
OpenSandbox 推出 Credential Vault 功能，通过出站代理在沙箱外注入凭据，使 AI Agent 沙箱不再需要保存真实密钥。
来源：阿里技术
https://www.bestblogs.dev/article/eb89e83b

【8】 Zynga 创始人 Mark Pincus：消费者产品「现在没法投」，恰恰是你该入场的理由 【视频】
Zynga 创始人 Mark Pincus 反向立论，指出现在正是押注消费者产品的时机，并分享了「Proven Better New」框架、「鱼群来袭」产品市场契合测试法，以及 AI 消费革命将在 2029 年到来的预测。
来源：Y Combinator
https://www.bestblogs.dev/video/39f15d3

【9】 翁荔最新万字长文：大模型 Scaling Laws，要谨慎理解
本文系统梳理大模型 Scaling Laws 的研究脉络，从早期机器学习损失可预测性、Kaplan 与 Chinchilla 的计算最优分配，到数据受限区域及实际拟合中的敏感陷阱，为理解缩放定律提供了全面且深入的导览。
来源：AINLP
https://www.bestblogs.dev/article/f547eb02

【10】 火山引擎 AI 搜索千万级 Agent 架构演进与实践：从 ReAct 三节点到 Unified Policy
本文详细解析火山引擎 AI 搜索团队如何将标准 ReAct 架构演进为 Unified Policy Agent 架构，通过 Workflow 与 Agent 分层、统一控制/行为/状态，实现 TTFT 降低 30%与推荐质量提升。
来源：字节跳动技术团队
https://www.bestblogs.dev/article/b02cc219

---
http://BestBlogs.dev · 发现真正适合你的高质量内容
BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。
在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-27

### 引用推文

> ginobefun：http://x.com/i/article/2070663412787576832
