# GPT-5.6 发布：Sol 旗舰、Terra 均衡、Luna 速度型，发布受政府限制

- 来源：ginobefun (@hongming731)
- 发布时间：2026-06-28 10:34
- AIHOT 分数：48
- AIHOT 链接：https://aihot.virxact.com/items/cmqx85vex03o2slp0bzq29vwh
- 原文链接：https://x.com/hongming731/status/2071059562401275957

## AI 摘要

OpenAI 发布 GPT-5.6 系列，包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%（Ultra 模式 91.9%），领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%；GeneBench v1 以更少输出 tokens 获更强结果，ExploitBench 接近此前 Mythos 但仅用约 1/3 输出 tokens。价格：Sol 输入 $5/百万 tokens、输出 $30，缓存读取九折。发布前 OpenAI 向美国政府展示能力，按政府要求先以有限预览上线，首批约 20 家合作伙伴可访问。

## 正文

http://x.com/i/article/2071059009222901760

# BestBlogs 早报 · 06-28|GPT-5.6 发布但首发受政府限制，魏小康谈招聘哲学，HBR 称 AI 落地卡在中层经理

在线阅读本期早报

BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。

## 导语

今天的三条精讲，刚好串成一条从「模型」到「组织」再到「人」的线。

OpenAI 正式发布了 GPT-5.6 系列，旗舰款 Sol 在编程、生物信息学和网络安全几个方向刷新了基准。不过比性能更值得留意的，是它的发布方式：模型先以「有限预览」上线，首批仅约 20 家获批合作伙伴能访问，个人用户暂时没有申请通道，前沿模型的发布节奏正在被纳入国家安全框架。两周前 Anthropic 因为类似的政府要求停用过自己最强的模型之一，这条线索在今天的补充阅读里还会再出现一次。

另外两篇把视线从模型拉回组织和人。魏小康是少见的、先后深度参与过字节和美团组织建设的样本，他在 42 章经的对谈里抛出一个挺硬的判断：创业公司八成到九成的时间都该花在招聘上，而招聘里最重要的既不是面试、谈 offer 时也不是钱。哈佛商业评论则访谈了两家咨询公司的 18 个人，得出一个反直觉的结论：AI 落地的真正卡点不在技术，而在被高管雄心和一线现实夹在中间的中层管理者。

如果说模型在变强、发布在变紧，那么真正决定这些能力能否落地的，可能还是组织怎么招人、中层怎么扛事这些「旧问题」。今天的速览和补充阅读也大多围绕这条线索展开：从 AI Native 团队的工程实践，到本地编码智能体、Agent 架构里 harness 与 loop 的争论，再到 Notion 砍掉自家邮件产品的取舍，几乎都在回答同一个问题--当模型本身不再是瓶颈，我们该把工程和组织的重心放到哪里。

## ★ 精讲一：刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了

先给不熟悉背景的读者补一句：GPT-5.6 是 OpenAI 最新一代模型，这次一口气端出三款，命名也换了思路--Sol（太阳）是旗舰、也是官方口中目前最强的模型；Terra（地球）是面向日常工作的均衡款，性能对标上一代 GPT-5.5 但价格便宜一半；Luna（月亮）主打速度和低成本。数字代表代际，三个名字对应不同的能力、速度与成本档位，相当于 OpenAI 顺手把整条产品线重新分了层。来源：爱范儿。

关键事实：Sol 的能力展示集中在编程、生物信息学和网络安全三个方向，共同特征都是复杂、长链条、强依赖上下文的 agentic 任务，模型需要在任务里持续规划、推理、调用工具、修正错误并不断推进。在 Terminal-Bench 2.1 上，GPT-5.6 Sol Ultra 得分 91.9%、Sol 得分 88.8%，作为对照 GPT-5.5 为 88.0%、Terra 为 82.5%、Luna 为 84.3%；横向看 Claude Mythos 5 为 84.3%、Gemini 3.1 Pro Preview 为 70.7%。这次还新增了一个 Ultra 模式，会调度多个子 Agent 把复杂任务拆开处理再汇总结果，对应「理解项目结构、读文件、改代码、跑命令、看报错、再修改」这类一次回答做不完的真实开发流程。生物方向上 Sol 在 GeneBench v1 上用更少的输出 tokens 取得了更强结果；网络安全方向，Sol 在 ExploitBench 上接近此前的 Mythos Preview，但只用了约三分之一的输出 tokens。价格方面，按每百万 tokens 计费，Sol 输入 5 美元、输出 30 美元，Terra 与 Luna 依次更低，并引入了缓存读取九折、写入 1.25 倍的 prompt caching 机制，缓存生命周期至少 30 分钟。

为什么值得关注：这次发布说明里，安全罕见地占了很大篇幅。OpenAI 一边要证明 Sol 在网络安全任务上确实强了很多，一边又刻意强调它「尚未跨过 Preparedness Framework 里的网络安全关键风险阈值」--在涉及 Chromium 和 Firefox 的评估中，Sol 能识别漏洞，但在测试条件下没有自主生成可运行的完整攻击链。为此 OpenAI 在自动化红队测试上投入了超过 70 万 A100 等效 GPU 小时。更值得玩味的是发布机制本身：OpenAI 在博客中承认，发布前已向美国政府展示能力与计划，按政府要求先以有限预览形式上线，首批合作伙伴名单也已与政府共享。彭博社报道首批约 20 家，《华盛顿邮报》则提到联邦政府将审核哪些公司可以访问。OpenAI 自己也说，不认为政府介入访问流程应当成为长期默认机制，但现实是它还是接受了这套安排。

和今天其他内容的关系：这条线索并不孤立。两周前 Anthropic 就因美国政府的国家安全要求停用过 Fable 5，今天补充阅读里那篇「美国大模型走向封闭」会把整条「叫停-谈判-有条件放行」的时间线讲得更完整。把这两篇对照着读，能更清楚地看到一个趋势：模型能力越往上走，发布的自由度可能越往下收。

阅读建议：如果你关心模型能力本身，重点看基准对比和安全栈那两段；如果你更关心行业格局，可以直接跳到发布机制部分，再接着读补充阅读里那篇政府管制的复盘。需要提醒的是，OpenAI 也坦言基准无法覆盖所有真实用法，这些数字更适合当参考而非定论。详见

## ★ 精讲二：唯一深度参与过字节、美团组织建设的人|对谈 AI 创业者魏小康

先交代下嘉宾：魏小康可能是国内最懂组织建设和招聘的人之一，也是个稀缺样本--2017 到 2020 年他在字节担任招聘负责人，经历了抖音的高速增长与国际化；2020 到 2026 年又在美团担任招聘负责人兼 AI 产品经理。他早年创办的猎头公司 Offercome 被字节收购，如今正在创业做一款 AI 招聘产品。这期 42 章经的对谈，就从他在这两家公司的一手经历聊起。

关键观点：魏小康把组织建设拆成两件事--一是怎么让人运转起来，包括人的「选、用、育、励、汰」以及文化、薪酬、职级；二是怎么让人和业务一起运转，包括目标拆解、分工协作。在这个框架之上，他抛出最硬的一句判断：创业公司组织建设里，80% 到 90% 的时间都应该花在招聘上，而很多创业者恰恰把劲使错了地方。他还有一连串非共识观点：创业公司不需要花很多时间搞文化、也不需要搞绩效体系，纯属浪费时间；人其实是培养不出来的；面试并不是人才评估中最重要的一环，谈 offer 时重点也不是谈钱；他甚至认为 OPC 是对这个时代和自己的浪费，00 后创始人在这一波里其实是吃亏的。节目里他也聊到一个有意思的角度：怎么区分一个创始人是 ego 大还是真自信，以及张一鸣、王兴这样的优秀创业者身上有哪些共同特征。这些判断没有停在结论上，而是配着两家公司的具体场景一路讲下来。

为什么值得一听：这些判断之所以有分量，是因为它们都来自字节和美团两套不同组织思路的一手对照，而不是二手方法论。比如他点出招聘里最难的事其实是「扩大人才供给」，而不是把面试做得多漂亮；又比如他解释字节、拼多多溢价招人到底算的是一笔什么账。对正在搭团队的 AI 创业者来说，这是一份关于「把劲用对地方」的经验，提醒你别在文化墙和绩效表上消耗，而要把注意力放到真正稀缺的人身上。

和今天其他内容的关系：这条恰好能和速览里 Claude Code 负责人 Fiona Fung 那篇对照着看--Fiona 谈的是 AI Native 团队怎么招人、怎么把验证和衡量当成新瓶颈，魏小康谈的是更底层的招聘哲学，两者一个偏实践、一个偏认知，叠在一起就是一套相对完整的「AI 时代怎么搭团队」。

收听建议：时间紧可以直接奔着 Part 2「怎么让人运转起来」去听，那里集中了招聘的核心判断；如果对组织形态感兴趣，再补 Part 3 里 Google、字节类公司和亚马逊、美团类公司的对比。（节目里对嘉宾声音做了变声处理，不影响内容。）详见

## ★ 精讲三：AI 普及正在压垮中层管理者

先讲清楚这篇在说什么：大多数组织把 AI 落地当成一个技术问题--一次由 IT 部门推动、由高管庆祝的软件铺开，有的甚至直接当成裁员的快车道。哈佛商业评论为了搞清楚 AI 在真实场景里到底怎么落地，对两家大型咨询公司的合伙人、经理和初级顾问做了 18 场半结构化访谈，问的不是泛泛的态度，而是每个层级具体怎么用 AI、得到了什么支持、卡在哪里。结果浮现出来的不是一个技术故事，而是一个组织故事，两家公司的压力点高度一致：中层管理者。来源：HBR.org。

关键事实：调研引用的数据显示，约 88% 的组织已经在至少一个业务职能里用上了 AI，但只有约四分之一真正发展出了能产生切实价值的能力。麦肯锡的研究把差距归因于工作流重构，而非技术先进度--这一点访谈给出了具体的解释。在高层，领导们正拥抱 AI 的战略潜力，用更精简的团队扩大业务范围、加速交付、重新设计服务；在基层，初级顾问报告了惊人的效率提升：原本要几天的桌面调研现在 30 分钟搞定，原本几周的分析现在只要几小时，从早期繁琐工作里被解放出来后，他们比以往任何一代都更早地参与战略综合、更早地坐进客户访谈。但顶部的雄心和底部的效率，最终都汇聚到同一个压力点上：中层经理。研究特别指出，这个模式虽然来自咨询行业，但「被夹在高管雄心与运营现实之间、又缺乏正式支持」的处境，在各类知识密集型行业的管理者身上大概都不陌生。

为什么值得关注：文章用一个「典型经理的一天」把这种困境讲得很具体--她一早要先学新的提示词技巧再等团队上线，白天在客户会议上回答「你们怎么用 AI」，中午要替 AI 生成的客户成果纠错、带一个从没从零做过 deck 的新分析师、还要揣摩合伙人嘴里那份所谓「AI 增强」的备忘录到底指什么，到了下班再把当天的经验记录下来好让团队复用。研究把中层正在做的事概括为：在交付压力不减甚至增加、又缺乏正式支持结构的情况下，去验证 AI 产出、识别错误、纠正那些看着专业却没有实质的「workslop」，同时还要给团队做 AI 技能和基本职业素养的双重辅导。

和今天其他内容的关系：把这篇和前两条放在一起看会更有意思。精讲一里模型在变强、发布在变紧，精讲二里魏小康强调把时间花在招对人上，而这篇恰恰提醒：哪怕模型再强、人招得再对，如果中层这一环没有被重新设计和支撑，AI 落地依然会卡住。它和速览里 Fiona Fung 那篇也能呼应--Fiona 谈的是怎么把验证体系建起来，而这篇谈的是当下这套验证负担正实实在在地压在谁身上。

阅读建议：管理者尤其是带团队的中层值得完整读一遍，把「典型经理的一天」当成一面镜子；如果你是高管，重点看「能力-现实差距」那一节，它解释了为什么单纯加大 AI 投入不一定换来价值。文章给的是观察和访谈，不是处方，结论还需要结合自己组织的情况再判断。详见

## 速览

今天的七条精选，主线集中在 AI 工程实践与产品取舍，几条放在一起读能看出当下从业者关心的共同问题。

Claude Code 工程负责人 Fiona Fung：如何打造全世界最 AI Native 的工程团队？ Fiona 统管 Claude Code 与 Cowork 两条产品线，有 25 年以上工程经验。她的核心判断是：写代码本身不再是瓶颈，验证和衡量才是--当设计师和 PM 都在提交代码，约束就从「谁来写」变成「怎么验证」，办法是把「什么算好」写成规范放进仓库让 Claude 比对。她招人只认两类：会做梦的产品型 builder 和啃硬骨头的系统专家，底层逻辑是 trust but verify；管理动作也在被一个挂在所有代码库上的常驻 Claude 自动化。和今天精讲二魏小康的招聘哲学对照着读很合适。

使用本地编码智能体（Ahead of AI）。 Sebastian Raschka 写的一份实操教程，讲怎么用开源工具（Ollama、Qwen-Code）和开放权重模型（Qwen3.6、North Mini Code）搭一套完全本地、可读文件、能改代码、会跑命令并自行验证的编码智能体，包含安装步骤和性能基准。作者把模型比作提供推理与代码生成的「引擎」，把周边 harness 看作让引擎能在本地项目里干实事的「运行环境」。本地方案的好处是透明、可检查、除硬件和电费外免费，整条链路完全在自己掌控之中，还能随意改造 harness。适合想摆脱专有服务、亲手搭一套本地栈的开发者照着动手。

金融科技工程手册（Hacker News）。 一份系统梳理「以钱为核心的系统」该用哪些工程模式的手册，覆盖货币表示、账本记录和执行流程。它把一切归结为三条原则：不凭空造数据（靠幂等、去重、对账）、不丢数据（靠全精度、至少一次投递、事件溯源、审计与不可变）、不轻信（验证 webhook、跨源交叉校验、假设被打破时大声失败）。手册也专门讨论了在动账之前「怎么表示一笔钱」这件容易被忽视的事--金额怎么建模、存储、计算和换算，一旦这层错了，上面每一层都会继承这个错误。要进金融科技、已经在金融科技、或想理解「为钱写代码」和普通业务有何不同的人，都值得收藏当参考。

别再写单一语气指令了，把它们分层（AI Engineer，视频）。 Isadora Martin-Dye 提出用四层提示词堆栈替代单一的语气指令：与其指望一个系统提示词同时做到情境化、有表达力又能自我检查，不如把品牌对齐当成一个结构性的架构问题来工程化。她把大模型比作高 IQ、零 EQ 的实习生--记忆力惊人却毫无看场合的本能，所以要像管理实习生一样设结构化护栏并主动复核。做 AI 产品、又在意品牌一致性的人会有共鸣。

Loop 不是 Agent 架构，Harness 才是（浮之静）。 作者吐槽近期被 Loop Engineering 各种讨论刷屏，亮明观点：harness > all（除 LLM 外），没必要一直造词。他用「恒温器、PID、TCP 拥塞控制、Raft」等例子说明，loop 只是外观，真正的工程含量藏在控制律、状态语义、边界条件、失败处理、验证机制和系统不变量里--「loop 不是工程，受控的 loop 才可能成为工程」。对正在搭 Agent 系统、又被各种新词绕晕的人是一剂清醒剂。

上线 14 个月，Notion 关掉了自己的 AI 邮件产品（Founder Park）。 Notion 宣布将于 9 月 22 日全面关闭 Notion Mail，理由很直接：随着 Agent 能力变强，超过一半的 Notion Mail 用户已经在不打开收件箱的情况下管理邮件，所以干脆全面转向由 Agent 来管理收件箱。这个决定折射出 AI 邮件赛道的一次转向--从「优化用户体验的功能叠加」转向「为 Agent 打造通信基础设施」，邮件的未来可能不是让人用得更好，而是让人根本不用再看。关心 AI 产品形态演进的人值得一读。

我把自己的 IP 配图技能开源了，顺手做了 31 个现成角色（小互 AI）。 作者把日常在用的个人 IP 配图技能「小互 IP Studio」开源（MIT），还做了 31 个统一画风的原创角色，解决了「别人没有自己 IP 形象就没法用」的问题。技能能自己读完整篇文章、判断哪段该配图、决定配哪种图（情绪图 / 示意图 / 四格漫画）、写提示词、定横竖尺寸并自查返工，使用者基本只需要拍两次板。角色分手绘线稿和谐音梗 meme 两大系列，写哪类文章就调哪个主角，一篇锁定一个形象整组图的气质就立住了。常写公众号、需要稳定配图风格的创作者可以直接拿来用。详见

## 补充阅读

下面几条是今天的延伸内容，按需取用。

- 「尴尬」的智能眼镜，终于不用说「明年是元年了」（腾讯科技）。 Rokid 创始人 Misa 称「火箭已经点火升空」，但发令枪还没响，行业仍缺 killer app。他公布销量同比增长 800%、覆盖 166 个国家，并强调最看重的是复购率和用户时长而非市占率。关心 AI 硬件落地节奏的人可以读。详见

- 对话蔡崇信：人们都坐在户外喝咖啡，享受生活，这就是 AI 的未来（砺石商业评论）。 阿里董事长蔡崇信认为 AI 的总盘子可达 50 万亿美元，阿里采取四层全面布局，并强调开源模型对欧洲主权需求的价值。适合想了解大厂 AI 战略全景的读者。详见

- 探访北京探月学校：AI 时代的「第三种可能」（硅谷 101）。 一篇关于创新教育的深度报道，记录了探月学校如何用项目式学习和真实创业，为学生提供高考与留学之外的另一条路，同时也呈现了它在学费与升学结果上的争议。报道里既有 17 岁学生论文被马斯克点赞这样的高光，也有对二十多万学费和升学结果的质疑，呈现得相对克制。关心教育与 AI 时代人才培养的人值得一看。详见

- Mark Pincus 在 YC 访谈中分享 30 年产品哲学与创始人 playbook（Y Combinator）。 Zynga 创始人在 YC Main Function 节目里复盘历经三次平台变革的创业历程，分享如何识别真正的产品-市场契合（PMF）以及创始人模式。做消费级产品的创业者会感兴趣。详见

- 具身智能风口来了，普通人怎么分钱？（第一财经）。 眸深智能 CEO 穆泽林拆解具身智能赛道的技术逻辑、产业链分工与泡沫真相，从资本、技术、落地三个维度讲清这条赛道的赚钱逻辑。对机器人投资和创业方向感兴趣的人可以听。详见

- 美国大模型走向封闭，以安全之名（腾讯科技）。 这是今天精讲一的最佳延伸：文章梳理了从 6 月 2 日特朗普签署 AI 行政令，到 Anthropic、OpenAI 前沿模型被「叫停-谈判-有条件放行」的完整时间线，并点出最核心的矛盾--审批标准不公开、没有明确阈值、也没有申诉程序，连政府部门自己似乎都说不清要求是什么。想把今天的模型管制看透，建议和精讲一连着读。详见

## 今日阅读路径

如果今天时间有限，建议按这个顺序读三篇：

1. 精讲一《GPT-5.6 正式发布》 -- 先掌握今天最重要的产品与行业动向，尤其是发布机制背后的政府审批变化。详见

1. 补充阅读《美国大模型走向封闭》 -- 紧接着读这篇，把模型管制的完整时间线和深层矛盾补齐，两篇合起来才是一个完整的故事。详见

1. 精讲三《AI 普及正在压垮中层管理者》 -- 最后把视线拉回组织，看看模型能力之外，AI 真正落地时卡在哪里。如果你在带团队，这篇可能比前两篇更切身。详见

读完还有余力，再去听精讲二魏小康那期，把「AI 时代怎么搭团队」这条线补完整；它和速览里 Fiona Fung 谈 AI Native 工程团队那篇，正好是一对从认知到实践的互补阅读。

BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。
