OpenAI 启动 GPT-5.6 系列有限预览,LangChain 提示词缓存降本,Sean Goedecke 算推理 · AI HOT
ginobefun @hongming731 54
2026-06-27 08:23 ·6天前
AI 摘要 OpenAI 推出 GPT-5.6 系列有限预览,包括旗舰 Sol、均衡 Terra 和低成本 Luna。Sol 在 Terminal-Bench 2.1 达 88.8%,ultra 模式升至 91.9%;Terra 性能对标 GPT-5.5 但价格减半。LangChain 提示词缓存将 token 成本降低 49%-80%(claude-haiku 降 77%,gpt-5.4-mini 降 80%)。Sean Goedecke 测算:4 张 A100 推理 70B 模型成本约 1 美元/百万 token,对比 GPT-5.4-mini 定价 4.5 美元,推理业务明显盈利。
ginobefun @hongming731 · X 2026-06-27 08:23 · 6天前
在 X 看原推 · x.com AI 摘要 OpenAI 推出 GPT-5.6 系列有限预览,包括旗舰 Sol、均衡 Terra 和低成本 Luna。Sol 在 Terminal-Bench 2.1 达 88.8%,ultra 模式升至 91.9%;Terra 性能对标 GPT-5.5 但价格减半。LangChain 提示词缓存将 token 成本降低 49%-80%(claude-haiku 降 77%,gpt-5.4-mini 降 80%)。Sean Goedecke 测算:4 张 A100 推理 70B 模型成本约 1 美元/百万 token,对比 GPT-5.4-mini 定价 4.5 美元,推理业务明显盈利。
把它放进今天的脉络看,这条新闻代表的是能力竞赛的最前沿:模型在变强、变便宜,也在变得更难「随手就能用」。而接下来的两篇,恰好接力回答了「拿到更强模型之后,怎么把它用得起、用得久」。建议先读它建立坐标,再去看成本侧的两篇。
★ 精讲二:Deep Agents 的提示词缓存 来源:LangChain Blog | 评分 91 | 详见
如果说精讲一在比拼模型能力的天花板,这一篇就把视线拉回到生产环境最现实的地板:成本。LangChain 拆解了在规模化运行 Agent 时最关键的一根省钱杠杆--提示词缓存(Prompt Caching)。它的原理并不复杂:聊天模型每收到一条新消息,都得重新处理此前所有 token,包括系统提示、工具描述、已加载的技能、历史消息和新消息;开启缓存后,模型会保存处理完某段提示后的状态快照,下一次请求就从快照接着算,只处理新增文本。文中引用 Manus AI 的判断颇为犀利:「如果只能选一个指标,KV-cache 命中率就是生产级 AI Agent 最重要的单一指标。」
难点在于各家厂商的缓存策略并不统一。Anthropic 与 Gemini 支持显式缓存断点,OpenAI 走最长前缀自动缓存,而 Gemini 还另有隐式缓存;可配置 TTL、缓存预热、路由键等特性的支持情况也各不相同。这种割裂让「跨厂商都能拿到最大节省」变成一道难题--尤其是当加载一个新技能或工具会改动提示靠前的部分时,很容易触发整段缓存失效。显式断点的价值正在于此:它允许在提示靠前处设置缓存点,让一部分前缀仍然命中缓存,而不是因为一处改动就把整段重新计算一遍。
LangChain 的 Deep Agents 框架给出的解法是做 provider 无关的封装:支持的厂商自动设置显式断点,不支持的就退而启用厂商侧隐式缓存,并主动调整提示结构以最大化缓存读取。效果用真实 Agent 轨迹说话--在三家厂商的中端模型上跑评测,token 成本被砍掉 49% 到 80%,其中 claude-haiku 降了 77%,gpt-5.4-mini 降了 80%。规律也很清晰:会话越长、任务越偏长程,缓存带来的收益越大。
这里有一个容易被忽视但很关键的工程细节:缓存的收益会随着上下文的增长而非线性放大。一个简单的单轮问答几乎用不上缓存,但一个需要反复调用工具、加载多个技能、维持长对话历史的 Agent,每一步都要重新处理前面累积的全部上下文,缓存命中率因此直接决定了它的运行成本。这也是为什么 Manus AI 会把 KV-cache 命中率抬到「最重要的单一指标」的高度--对长程 Agent 而言,它几乎等价于单位任务的边际成本。Deep Agents 把这层复杂性封装进框架,让开发者在切换厂商时仍能拿到接近最优的节省,省去了为每家厂商单独调缓存策略的工程负担。
这正好和精讲三形成呼应:一边是用工程手段把单位调用成本压下去,一边是从账面证明推理本就有利可图。对正在把 Agent 推向生产的团队来说,这是今天最该立刻动手实践的一篇。
★ 精讲三:AI 推理显然是盈利的 来源:Sean Goedecke | 评分 89 | 详见
不少声音坚持认为 AI 推理服务本身在亏钱,只能靠投资人「不聪明的钱」持续输血,一旦热钱退潮,AI 产品就会随之消失。Sean Goedecke 直接算了一笔账来反驳,结论很干脆:AI 推理显然是赚钱的。
他的估算是这样的:一张 Nvidia A100 满载约耗 400W,跑一个稠密的 70B 模型,四张 A100 可以较为宽裕地承载、大约每小时产出 200 万 token。按美国工业电价,这部分电费约每小时 13 美分;即便悲观地假设散热成本与电费持平,折算下来每百万输出 token 的能耗成本也仅约 13 美分。再把最贵的 GPU 折旧摊进去--一张 A100 约 2 万美元、按五年寿命计,需要每年回收约 1.6 万美元(约每小时 1.8 美元)--综合算下来,每百万 token 的推理成本大约在 1 美元上下。
对照之下,GPT-5.4-mini 的定价是每百万 token 4.5 美元,更强的 OpenAI 或 Anthropic 模型还要贵上三到六倍。虽然我们并不知道这些闭源模型的真实规模、无法精确比较,但厂商对外宣称的 70%-80% 毛利率,从这笔账看完全站得住。开放模型也提供了旁证:DeepSeek-V4-Pro 的市场价约 87 美分,已经相当贴近成本线。
作者也提醒,这套估算是粗略的上界,真实情况里服务器并非始终满载、利用率、批处理效率、上下文长度都会影响最终单价,但即便把这些不利因素都考虑进去,推理的毛利空间依然宽裕。换个角度看,开放模型的市场价格就是一面镜子:如果推理真的注定亏本,DeepSeek-V4-Pro 这类靠市场竞争定价、又必须自负盈亏的开放模型,不可能把价格稳定在贴近成本的位置还有人愿意提供服务。
那么钱到底亏在哪?文章点破:真正在烧钱的不是推理这门生意,而是 AI 实验室拿推理赚来的利润去补贴训练端的军备竞赛。这也解释了为什么外界对「AI 在亏钱」的直觉并不算错--亏的确实存在,只是亏在训练而非推理。把这点和前两篇连起来看,今天的三条主线其实构成了一条完整的链路--精讲一展示模型能力还在往上冲、训练投入有增无减,精讲二给出压缩单位成本的工程手段,而这一篇则厘清了「推理盈利、训练烧钱」的真实账本。想看清 AI 行业的财务底色,这是绕不开的一篇。
速览 翁荔最新万字长文:大模型 Scaling Laws,要谨慎理解 | AINLP | 评分 90
翁荔(Lilian Weng)时隔一年更新长文,系统梳理 Scaling Laws 这条研究脉络:从早期机器学习里损失随规模变化的可预测性,到 Kaplan、Chinchilla 关于计算最优分配的经典结论,再到数据受限场景和现实拟合中的种种陷阱。文章的核心不是停在「模型越大越好」,而是讨论训练算力、模型规模、数据 token、重复数据与外推拟合之间究竟如何相互影响。她特别提醒,缩放定律虽然形式简单(在 log-log 图上呈一条直线),但实际拟合与外推时对超参数和数据分布相当敏感,盲目套用很容易踩坑。在精讲一展示模型能力还在攀升的当下,这篇恰好提供了理解「能力提升从何而来、又会在哪里遇到边界」的理论底座。对想真正吃透缩放定律、而非记住一句口号的人,这是一份值得完整读一遍的导览。详见
新一代学习 AI,苹果端侧模型配方,GLM-5.2 攻克开放性问题 | The Batch | DeepLearning.AI | 评分 92
吴恩达在本期信里分享了指导 AI 原生产品构建的三个关键开发循环:智能体编码循环(让 Agent 自动写码、测试、迭代到符合规格)、开发者反馈循环,以及面向外部用户的反馈循环--三者的节奏从几分钟到数小时不等,共同决定了从 0 到 1 产品的打磨效率。他特别强调,这些循环不仅决定「怎么写软件」,也反过来决定「该写什么软件」,因为快速闭环让试错成本骤降。本期还覆盖了 GLM-5.2 在智能体任务上的领先表现与低成本优势,以及美国高校 AI 学位快速兴起的趋势。适合想把「Loop Engineering」落到自己工作流里的读者。详见
科技爱好者周刊(第 401 期):如何赚到 10 亿美元 | 阮一峰的网络日志 | 评分 92
本期周刊摘录了 Paul Graham 在牛津的演讲「如何赚到 10 亿美元」。他的核心观点是:保持高增长率并进入足够大的市场。文中用一组增长复利计算给人留下深刻印象--若净资产 200 万美元、每月维持 93% 增长,约九个半月就能放大 500 倍;即便降到每月 15%,五年也能增长约 4384 倍。Graham 强调,增长率之所以是他最先问创始人的问题,是因为它最能反映产品是否做对了--只有产品足够好、能让人口口相传,才会有源源不断的顾客支撑这样的增长。他还提到,YC 投资约 6500 家公司、2 万名创始人里,已有约 30 人成为十亿美元级富翁,机会并没有想象中那么小。除创业话题外,还有一批日常科技资讯值得一翻。详见
腾讯混元 AI Infra 如何优化 Hy3 Preview:一次大模型推理性能提升的技术拆解 | 腾讯技术工程 | 评分 91
腾讯混元 AI Infra 团队从算子优化与融合、并行策略、多级缓存、MTP 与异步调度、量化与稀疏五大维度,拆解了旗舰大模型 Hy3 preview 在 NVIDIA Hopper 卡上的全栈推理优化实践。Hy3 采用 GQA + MoE 混合架构、原生支持 256K 超长上下文,却要在算力与显存都更紧张的 Hopper 卡上满足 SLO 约束。文中的实测收益颇为可观,例如 Attention 动态调度在长文本单 batch 下单算子最高加速 2.95 倍,混合长度 batch 场景也有 1.59 到 1.76 倍的加速。这类底层优化正是把每百万 token 成本压到「推理稳赚」区间的关键工程基础。与精讲二相互对照,这是从底层硬件视角理解「推理为什么能赚钱」的极佳补充。详见
OpenSandbox 再进化:Credential Vault 让真实密钥不再进入沙箱 | 阿里技术 | 评分 91
阿里开源的 AI Agent 沙箱平台 OpenSandbox 推出 Credential Vault 能力,解决「真实凭据如何在沙箱里安全使用」的难题。过去最直接的做法是把 API Key、Git Token 等塞进环境变量或配置文件,但沙箱本就是用来隔离不可信代码的,一旦真实密钥进入,Prompt Injection、恶意依赖、日志泄露等风险都会被放大。Credential Vault 的思路是把真实凭据保存在沙箱之外,由 egress sidecar 在出站请求经过时按 scheme、host、port、method、path 精确匹配后再注入认证 Header;沙箱进程只拿到假值,真实密钥不会出现在环境变量、命令行、文件系统和日志里。这样 Claude Code、Git、curl、包管理器都能照常工作,却把风险面大幅收敛。对正在把 Agent 推向生产的团队是一份实用的安全范式。详见
火山引擎 AI 搜索千万级 Agent 架构演进与实践:从 ReAct 三节点到 Unified Policy | 字节跳动技术团队 | 评分 90
火山引擎 AI 搜索团队复盘了标准 ReAct 架构在千万级并发下暴露的工程原罪--节点臃肿、延迟高、状态管理混乱,并给出了 Unified Policy Agent(UP-ReAct)的演进方案:把 Workflow 与 Agent 分层,统一控制流、行为与状态管理,剥离确定性流程与开放式决策。在标准三节点 ReAct 里,模型每完成一次有效动作都要经历三次独立的决策流转,延迟代价被成倍放大;UP-ReAct 把确定性的流程交给 Workflow、把开放式判断留给 Agent,从源头削减了无谓的模型调用。结果是在推荐与对话效果提升的同时,把首字返回时间(TTFT)降低了约 30%。文章把「上下文工程不是垃圾桶、而是昂贵有限的计算资源」讲得很透,适合做企业级 Agent 架构的人深读。详见
Zynga 创始人 Mark Pincus:消费者产品「现在没法投」,恰恰是你该入场的理由 | Y Combinator | 评分 91
Zynga 创始人 Mark Pincus 在 YC 做了一次反向立论:正因为当下资本普遍认为消费者产品「不可投」,这才是押注它的最佳时机。他把互联网划为三波浪潮--早期网络、社交与移动、如今的 AI 与 Agent,并认为 AI 正像当年社交网络一样,从昂贵的奢侈品变成像水一样随处可得的公用品。他强调做出优秀产品需要「全栈式思考」,不能只盯着产品本身而回避管理、融资与长期战略。视频里他还分享了「Proven Better New」框架、用「鱼群来袭」来检验产品市场契合,以及 AI 消费革命将在 2029 年到来的判断。和今天偏工程与成本的主线相比,这是一条难得的产品与周期视角,适合做消费产品、对入场时机感兴趣的创业者。详见
补充阅读 饮水机闲聊第 11 期:RAG 评估中的过拟合 | Towards Data Science | 评分 90:提醒一个常见误区--反复依据同一测试集修问题,会把评估集悄悄变成训练集、虚高分数。文章用经典的训练集 / 验证集 / 测试集划分讲清了为什么「测着测着就到 97% 分」往往是个危险信号。做 RAG 评估、想知道线上效果与离线分数为何脱节的工程师值得一看。详见 QoderWork Skills 开发实践:从传统数科到 AI 数科的转型探索 | 大淘宝技术 | 评分 91:系统讲解 Skills 的四层工程架构(编排 / 参数 / 实现 / 知识),并结合用户洞察与 AB 实验两个自研 Skill 案例,总结了 Description 定义、流程编排、配置模板化与渐进式披露等关键技巧。作者强调 Skill 的本质是把领域知识、标准流程与避坑指南封装成 Agent 可执行的「数字助手」。想把团队知识沉淀成可复用 Agent 能力的人适合参考。详见 具身数据采集产业链调查:被机器人采集的人 | 甲子光年 | 评分 91:一篇有现场感的产业调查,揭示具身智能背后真机遥操、可穿戴采集、工厂与劳务中介构成的「数据底座」。文中提到要让具身模型达到类似 GPT-3.5 的开箱即用能力大约需要一亿小时量级数据,而当前全球有效数据仅约几十万小时,差距高达两三个数量级。文章也写到数采员从真机遥操到无本体可穿戴采集的真实工作状态,颇能让人重新理解「机器人智能」背后的人力底色。关注机器人与数据产业的读者别错过。详见 未来五年,比技术更值钱的是这些基础能力 | 哈佛商业评论 | 评分 90:基于覆盖 7000 万次工作转换的大规模研究,论证在技术半衰期缩短的时代,协作、数学思维与适应力等基础技能更能决定职业上限--它们可跨岗位迁移,也让人学专业技能更快。和今天「能力会贬值、底层素养更保值」的主题一脉相承,适合做人才发展与个人长期规划的读者。详见 教你的 AI 如何做决策 | HBR.org | 评分 90:指出 AI 落地的真正瓶颈不在技术--大家用的模型、工具、基础设施都差不多--而在组织能否把隐性的判断过程显性化,并给出为智能体构建「判断力基础设施」的三个结构性转变。适合推动 AI 规模化落地的管理者。详见 英特尔,10000 亿市值还有多远? | 腾讯科技 | 评分 90:复盘 CEO 陈立武上任 14 个月的「纠错」打法--裁员、股权重组、押注 18A 制程,股价从约 20.7 美元一路冲到 132 美元以上、市值回到 6600 亿美元之上,并探讨 AI Agent 对 CPU 需求的潜在利好。关心半导体格局与老牌巨头翻身故事的读者可读。详见
今日阅读路径 如果时间有限,建议按这个顺序读三篇:先看 精讲一(GPT-5.6 Sol 前瞻) 把握能力竞赛与发布节奏的最新坐标;再看 精讲三(AI 推理显然是盈利的) 厘清「推理盈利、训练烧钱」的行业财务底色;最后读 精讲二(Deep Agents 的提示词缓存),拿走一个能立刻动手、把 Agent 成本压低近八成的工程手段。三篇连起来,就是今天这堂 AI 经济账的完整逻辑。
如果还有余力,做底层推理与架构的同学可以接着读腾讯混元 Hy3 与火山引擎 Unified Policy 两篇,把成本与延迟的优化看得更细;关心理论的可以读翁荔的 Scaling Laws 长文;偏产品与战略的,则不妨看看 Mark Pincus 谈消费产品入场时机,以及哈佛商业评论关于基础能力的研究--它们共同回答了「能力不再稀缺之后,价值会沉淀到哪里」这个问题。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。
今天还有翁荔时隔一年更新的 Scaling Laws 长文、腾讯混元与字节火山引擎的工业级推理与 Agent 架构实践、阿里 OpenSandbox 的凭据隔离方案,以及一组关于职业能力、具身数据与英特尔翻身的延伸阅读,适合在能力与成本两条线索之间来回对照着读。
如果说过去一年大家比的是「谁的模型分数更高」,那么今天这批内容更像是在回答下一个阶段的真问题:模型已经足够强,接下来拼的是工程化落地与单位经济。三篇精讲分别从能力前沿、成本压缩与盈利账本切入,速览与补充阅读则补上了底层推理优化、企业级 Agent 架构、安全沙箱与人才能力等多个侧面。建议读的时候带着一个问题:当能力不再稀缺,真正的护城河会落在哪里。
★ 精讲一:GPT-5.6 Sol 前瞻:下一代模型预览 来源:OpenAI News | 评分 93 | 详见
OpenAI 启动了 GPT-5.6 系列的有限预览,一口气推出三款定位不同的模型:旗舰款 Sol、面向日常工作的均衡款 Terra,以及主打速度与低成本的 Luna。官方给出的口径是,Terra 在性能上可与上一代 GPT-5.5 掰手腕,价格却便宜一半;Luna 则在 OpenAI 自家最低成本档位上提供了相当强的能力。换句话说,这次更新不是单点拔高,而是把「同等能力更便宜、更便宜也够用」这件事一次性铺到了三个价位段上。
能力层面最值得关注的是两项新机制。GPT-5.6 引入了全新的 max 推理档,给 Sol 留出最充分的深度推理时间;同时新增 ultra 模式,通过调用子智能体(subagents)来加速复杂任务,突破了单一智能体的能力上限。在编码场景里,Sol 在 Terminal-Bench 2.1 这一考验命令行规划、迭代与工具协调的评测上刷新了 SOTA,得分 88.8%,而 ultra 模式更进一步达到 91.9%。生物学方面,它在 GeneBench v1 的长程基因组分析上以更少 token 取得了优于 GPT-5.5 的结果;网络安全方向,Sol 在 ExploitBench 上用约三分之一的输出 token 就追平了更高规格的对手,并在 UC Berkeley 联合多家前沿实验室构建的 ExploitGym 上,随推理预算增加而稳定提升。值得注意的是,这些收益往往伴随更高的 token 效率--同样的任务用更少的 token 完成,这本身就是一种变相的成本下降。
但这次发布真正的信号,藏在「克制」二字里。Sol 配备了 OpenAI 迄今最稳健的安全栈,团队花了数周做对抗测试与加固。更关键的是,首发只面向少数可信伙伴,且这些伙伴名单已与美国政府共享--这是 OpenAI 配合政府网络安全审查、分阶段放开能力的一部分。OpenAI 明确表示并不希望这种政府准入流程成为长期默认,但作为短期步骤接受了它,目标是在未来几周内走向更广泛可用。
值得留意的是这次发布的叙事重心转移。过去 OpenAI 的版本更新往往把笔墨放在「能力又强了多少」,这次却用相当篇幅解释「为什么要先做有限预览」。Sol、Terra、Luna 三档并行的产品线,本质上是在把同一波能力提升,按成本和场景重新切分给开发者、企业与终端用户;而政府准入流程的引入,则说明随着模型在网络安全等高风险方向的能力跃升,发布这件事本身正在被纳入更复杂的治理框架。能力越强,放开越要讲方法,这是和以往「发布即全面开放」最大的不同之处。
把它放进今天的脉络看,这条新闻代表的是能力竞赛的最前沿:模型在变强、变便宜,也在变得更难「随手就能用」。而接下来的两篇,恰好接力回答了「拿到更强模型之后,怎么把它用得起、用得久」。建议先读它建立坐标,再去看成本侧的两篇。
★ 精讲二:Deep Agents 的提示词缓存 来源:LangChain Blog | 评分 91 | 详见
如果说精讲一在比拼模型能力的天花板,这一篇就把视线拉回到生产环境最现实的地板:成本。LangChain 拆解了在规模化运行 Agent 时最关键的一根省钱杠杆--提示词缓存(Prompt Caching)。它的原理并不复杂:聊天模型每收到一条新消息,都得重新处理此前所有 token,包括系统提示、工具描述、已加载的技能、历史消息和新消息;开启缓存后,模型会保存处理完某段提示后的状态快照,下一次请求就从快照接着算,只处理新增文本。文中引用 Manus AI 的判断颇为犀利:「如果只能选一个指标,KV-cache 命中率就是生产级 AI Agent 最重要的单一指标。」
难点在于各家厂商的缓存策略并不统一。Anthropic 与 Gemini 支持显式缓存断点,OpenAI 走最长前缀自动缓存,而 Gemini 还另有隐式缓存;可配置 TTL、缓存预热、路由键等特性的支持情况也各不相同。这种割裂让「跨厂商都能拿到最大节省」变成一道难题--尤其是当加载一个新技能或工具会改动提示靠前的部分时,很容易触发整段缓存失效。显式断点的价值正在于此:它允许在提示靠前处设置缓存点,让一部分前缀仍然命中缓存,而不是因为一处改动就把整段重新计算一遍。
LangChain 的 Deep Agents 框架给出的解法是做 provider 无关的封装:支持的厂商自动设置显式断点,不支持的就退而启用厂商侧隐式缓存,并主动调整提示结构以最大化缓存读取。效果用真实 Agent 轨迹说话--在三家厂商的中端模型上跑评测,token 成本被砍掉 49% 到 80%,其中 claude-haiku 降了 77%,gpt-5.4-mini 降了 80%。规律也很清晰:会话越长、任务越偏长程,缓存带来的收益越大。
这里有一个容易被忽视但很关键的工程细节:缓存的收益会随着上下文的增长而非线性放大。一个简单的单轮问答几乎用不上缓存,但一个需要反复调用工具、加载多个技能、维持长对话历史的 Agent,每一步都要重新处理前面累积的全部上下文,缓存命中率因此直接决定了它的运行成本。这也是为什么 Manus AI 会把 KV-cache 命中率抬到「最重要的单一指标」的高度--对长程 Agent 而言,它几乎等价于单位任务的边际成本。Deep Agents 把这层复杂性封装进框架,让开发者在切换厂商时仍能拿到接近最优的节省,省去了为每家厂商单独调缓存策略的工程负担。
这正好和精讲三形成呼应:一边是用工程手段把单位调用成本压下去,一边是从账面证明推理本就有利可图。对正在把 Agent 推向生产的团队来说,这是今天最该立刻动手实践的一篇。
★ 精讲三:AI 推理显然是盈利的 来源:Sean Goedecke | 评分 89 | 详见
不少声音坚持认为 AI 推理服务本身在亏钱,只能靠投资人「不聪明的钱」持续输血,一旦热钱退潮,AI 产品就会随之消失。Sean Goedecke 直接算了一笔账来反驳,结论很干脆:AI 推理显然是赚钱的。
他的估算是这样的:一张 Nvidia A100 满载约耗 400W,跑一个稠密的 70B 模型,四张 A100 可以较为宽裕地承载、大约每小时产出 200 万 token。按美国工业电价,这部分电费约每小时 13 美分;即便悲观地假设散热成本与电费持平,折算下来每百万输出 token 的能耗成本也仅约 13 美分。再把最贵的 GPU 折旧摊进去--一张 A100 约 2 万美元、按五年寿命计,需要每年回收约 1.6 万美元(约每小时 1.8 美元)--综合算下来,每百万 token 的推理成本大约在 1 美元上下。
对照之下,GPT-5.4-mini 的定价是每百万 token 4.5 美元,更强的 OpenAI 或 Anthropic 模型还要贵上三到六倍。虽然我们并不知道这些闭源模型的真实规模、无法精确比较,但厂商对外宣称的 70%-80% 毛利率,从这笔账看完全站得住。开放模型也提供了旁证:DeepSeek-V4-Pro 的市场价约 87 美分,已经相当贴近成本线。
作者也提醒,这套估算是粗略的上界,真实情况里服务器并非始终满载、利用率、批处理效率、上下文长度都会影响最终单价,但即便把这些不利因素都考虑进去,推理的毛利空间依然宽裕。换个角度看,开放模型的市场价格就是一面镜子:如果推理真的注定亏本,DeepSeek-V4-Pro 这类靠市场竞争定价、又必须自负盈亏的开放模型,不可能把价格稳定在贴近成本的位置还有人愿意提供服务。
那么钱到底亏在哪?文章点破:真正在烧钱的不是推理这门生意,而是 AI 实验室拿推理赚来的利润去补贴训练端的军备竞赛。这也解释了为什么外界对「AI 在亏钱」的直觉并不算错--亏的确实存在,只是亏在训练而非推理。把这点和前两篇连起来看,今天的三条主线其实构成了一条完整的链路--精讲一展示模型能力还在往上冲、训练投入有增无减,精讲二给出压缩单位成本的工程手段,而这一篇则厘清了「推理盈利、训练烧钱」的真实账本。想看清 AI 行业的财务底色,这是绕不开的一篇。
速览 翁荔最新万字长文:大模型 Scaling Laws,要谨慎理解 | AINLP | 评分 90
翁荔(Lilian Weng)时隔一年更新长文,系统梳理 Scaling Laws 这条研究脉络:从早期机器学习里损失随规模变化的可预测性,到 Kaplan、Chinchilla 关于计算最优分配的经典结论,再到数据受限场景和现实拟合中的种种陷阱。文章的核心不是停在「模型越大越好」,而是讨论训练算力、模型规模、数据 token、重复数据与外推拟合之间究竟如何相互影响。她特别提醒,缩放定律虽然形式简单(在 log-log 图上呈一条直线),但实际拟合与外推时对超参数和数据分布相当敏感,盲目套用很容易踩坑。在精讲一展示模型能力还在攀升的当下,这篇恰好提供了理解「能力提升从何而来、又会在哪里遇到边界」的理论底座。对想真正吃透缩放定律、而非记住一句口号的人,这是一份值得完整读一遍的导览。详见
新一代学习 AI,苹果端侧模型配方,GLM-5.2 攻克开放性问题 | The Batch | DeepLearning.AI | 评分 92
吴恩达在本期信里分享了指导 AI 原生产品构建的三个关键开发循环:智能体编码循环(让 Agent 自动写码、测试、迭代到符合规格)、开发者反馈循环,以及面向外部用户的反馈循环--三者的节奏从几分钟到数小时不等,共同决定了从 0 到 1 产品的打磨效率。他特别强调,这些循环不仅决定「怎么写软件」,也反过来决定「该写什么软件」,因为快速闭环让试错成本骤降。本期还覆盖了 GLM-5.2 在智能体任务上的领先表现与低成本优势,以及美国高校 AI 学位快速兴起的趋势。适合想把「Loop Engineering」落到自己工作流里的读者。详见
科技爱好者周刊(第 401 期):如何赚到 10 亿美元 | 阮一峰的网络日志 | 评分 92
本期周刊摘录了 Paul Graham 在牛津的演讲「如何赚到 10 亿美元」。他的核心观点是:保持高增长率并进入足够大的市场。文中用一组增长复利计算给人留下深刻印象--若净资产 200 万美元、每月维持 93% 增长,约九个半月就能放大 500 倍;即便降到每月 15%,五年也能增长约 4384 倍。Graham 强调,增长率之所以是他最先问创始人的问题,是因为它最能反映产品是否做对了--只有产品足够好、能让人口口相传,才会有源源不断的顾客支撑这样的增长。他还提到,YC 投资约 6500 家公司、2 万名创始人里,已有约 30 人成为十亿美元级富翁,机会并没有想象中那么小。除创业话题外,还有一批日常科技资讯值得一翻。详见
腾讯混元 AI Infra 如何优化 Hy3 Preview:一次大模型推理性能提升的技术拆解 | 腾讯技术工程 | 评分 91
腾讯混元 AI Infra 团队从算子优化与融合、并行策略、多级缓存、MTP 与异步调度、量化与稀疏五大维度,拆解了旗舰大模型 Hy3 preview 在 NVIDIA Hopper 卡上的全栈推理优化实践。Hy3 采用 GQA + MoE 混合架构、原生支持 256K 超长上下文,却要在算力与显存都更紧张的 Hopper 卡上满足 SLO 约束。文中的实测收益颇为可观,例如 Attention 动态调度在长文本单 batch 下单算子最高加速 2.95 倍,混合长度 batch 场景也有 1.59 到 1.76 倍的加速。这类底层优化正是把每百万 token 成本压到「推理稳赚」区间的关键工程基础。与精讲二相互对照,这是从底层硬件视角理解「推理为什么能赚钱」的极佳补充。详见
OpenSandbox 再进化:Credential Vault 让真实密钥不再进入沙箱 | 阿里技术 | 评分 91
阿里开源的 AI Agent 沙箱平台 OpenSandbox 推出 Credential Vault 能力,解决「真实凭据如何在沙箱里安全使用」的难题。过去最直接的做法是把 API Key、Git Token 等塞进环境变量或配置文件,但沙箱本就是用来隔离不可信代码的,一旦真实密钥进入,Prompt Injection、恶意依赖、日志泄露等风险都会被放大。Credential Vault 的思路是把真实凭据保存在沙箱之外,由 egress sidecar 在出站请求经过时按 scheme、host、port、method、path 精确匹配后再注入认证 Header;沙箱进程只拿到假值,真实密钥不会出现在环境变量、命令行、文件系统和日志里。这样 Claude Code、Git、curl、包管理器都能照常工作,却把风险面大幅收敛。对正在把 Agent 推向生产的团队是一份实用的安全范式。详见
火山引擎 AI 搜索千万级 Agent 架构演进与实践:从 ReAct 三节点到 Unified Policy | 字节跳动技术团队 | 评分 90
火山引擎 AI 搜索团队复盘了标准 ReAct 架构在千万级并发下暴露的工程原罪--节点臃肿、延迟高、状态管理混乱,并给出了 Unified Policy Agent(UP-ReAct)的演进方案:把 Workflow 与 Agent 分层,统一控制流、行为与状态管理,剥离确定性流程与开放式决策。在标准三节点 ReAct 里,模型每完成一次有效动作都要经历三次独立的决策流转,延迟代价被成倍放大;UP-ReAct 把确定性的流程交给 Workflow、把开放式判断留给 Agent,从源头削减了无谓的模型调用。结果是在推荐与对话效果提升的同时,把首字返回时间(TTFT)降低了约 30%。文章把「上下文工程不是垃圾桶、而是昂贵有限的计算资源」讲得很透,适合做企业级 Agent 架构的人深读。详见
Zynga 创始人 Mark Pincus:消费者产品「现在没法投」,恰恰是你该入场的理由 | Y Combinator | 评分 91
Zynga 创始人 Mark Pincus 在 YC 做了一次反向立论:正因为当下资本普遍认为消费者产品「不可投」,这才是押注它的最佳时机。他把互联网划为三波浪潮--早期网络、社交与移动、如今的 AI 与 Agent,并认为 AI 正像当年社交网络一样,从昂贵的奢侈品变成像水一样随处可得的公用品。他强调做出优秀产品需要「全栈式思考」,不能只盯着产品本身而回避管理、融资与长期战略。视频里他还分享了「Proven Better New」框架、用「鱼群来袭」来检验产品市场契合,以及 AI 消费革命将在 2029 年到来的判断。和今天偏工程与成本的主线相比,这是一条难得的产品与周期视角,适合做消费产品、对入场时机感兴趣的创业者。详见
补充阅读 饮水机闲聊第 11 期:RAG 评估中的过拟合 | Towards Data Science | 评分 90:提醒一个常见误区--反复依据同一测试集修问题,会把评估集悄悄变成训练集、虚高分数。文章用经典的训练集 / 验证集 / 测试集划分讲清了为什么「测着测着就到 97% 分」往往是个危险信号。做 RAG 评估、想知道线上效果与离线分数为何脱节的工程师值得一看。详见 QoderWork Skills 开发实践:从传统数科到 AI 数科的转型探索 | 大淘宝技术 | 评分 91:系统讲解 Skills 的四层工程架构(编排 / 参数 / 实现 / 知识),并结合用户洞察与 AB 实验两个自研 Skill 案例,总结了 Description 定义、流程编排、配置模板化与渐进式披露等关键技巧。作者强调 Skill 的本质是把领域知识、标准流程与避坑指南封装成 Agent 可执行的「数字助手」。想把团队知识沉淀成可复用 Agent 能力的人适合参考。详见 具身数据采集产业链调查:被机器人采集的人 | 甲子光年 | 评分 91:一篇有现场感的产业调查,揭示具身智能背后真机遥操、可穿戴采集、工厂与劳务中介构成的「数据底座」。文中提到要让具身模型达到类似 GPT-3.5 的开箱即用能力大约需要一亿小时量级数据,而当前全球有效数据仅约几十万小时,差距高达两三个数量级。文章也写到数采员从真机遥操到无本体可穿戴采集的真实工作状态,颇能让人重新理解「机器人智能」背后的人力底色。关注机器人与数据产业的读者别错过。详见 未来五年,比技术更值钱的是这些基础能力 | 哈佛商业评论 | 评分 90:基于覆盖 7000 万次工作转换的大规模研究,论证在技术半衰期缩短的时代,协作、数学思维与适应力等基础技能更能决定职业上限--它们可跨岗位迁移,也让人学专业技能更快。和今天「能力会贬值、底层素养更保值」的主题一脉相承,适合做人才发展与个人长期规划的读者。详见 教你的 AI 如何做决策 | HBR.org | 评分 90:指出 AI 落地的真正瓶颈不在技术--大家用的模型、工具、基础设施都差不多--而在组织能否把隐性的判断过程显性化,并给出为智能体构建「判断力基础设施」的三个结构性转变。适合推动 AI 规模化落地的管理者。详见 英特尔,10000 亿市值还有多远? | 腾讯科技 | 评分 90:复盘 CEO 陈立武上任 14 个月的「纠错」打法--裁员、股权重组、押注 18A 制程,股价从约 20.7 美元一路冲到 132 美元以上、市值回到 6600 亿美元之上,并探讨 AI Agent 对 CPU 需求的潜在利好。关心半导体格局与老牌巨头翻身故事的读者可读。详见
今日阅读路径 如果时间有限,建议按这个顺序读三篇:先看 精讲一(GPT-5.6 Sol 前瞻) 把握能力竞赛与发布节奏的最新坐标;再看 精讲三(AI 推理显然是盈利的) 厘清「推理盈利、训练烧钱」的行业财务底色;最后读 精讲二(Deep Agents 的提示词缓存),拿走一个能立刻动手、把 Agent 成本压低近八成的工程手段。三篇连起来,就是今天这堂 AI 经济账的完整逻辑。
如果还有余力,做底层推理与架构的同学可以接着读腾讯混元 Hy3 与火山引擎 Unified Policy 两篇,把成本与延迟的优化看得更细;关心理论的可以读翁荔的 Scaling Laws 长文;偏产品与战略的,则不妨看看 Mark Pincus 谈消费产品入场时机,以及哈佛商业评论关于基础能力的研究--它们共同回答了「能力不再稀缺之后,价值会沉淀到哪里」这个问题。
BestBlogs 是 AI 驱动的私人阅读助手,帮助你发现真正适合你的高质量内容,欢迎体验。