came in today, ac was not turned on...

译刚刚发现@OpenAI有自己的库？？

Codex team is in a warroom on a Sunday combing through logs and checking whether there is anything that could lead to increased usage drains for some users. Taking it very seriously and won't rest until we get to the bottom of it.

译Codex 团队周日待在作战室里，梳理日志，检查是否有任何可能导致部分用户使用消耗增加的情况。他们非常重视此事，不彻底查清绝不罢休。

Greg Brockman@gdb · 4天前40

ChatGPT for helping in daily life in Bengaluru: https://www.ndtv.com/offbeat/auto-rickshaw-driver-shows-how-chatgpt-helps-in-daily-life-openai-reacts-11698499

译ChatGPT 用于在班加罗尔日常生活中的帮助：https://www.ndtv.com/offbeat/auto-rickshaw-driver-shows-how-chatgpt-helps-in-daily-life-openai-reacts-11698499

宝玉@dotey · 4天前68

RepoPrompt 已经开源了，社区版（Community Edition）已上线 GitHub。背后的故事是这样的：几个月前，OpenAI 开发者体验负责人 Romain Huet 找到 Provencher，邀请他加入 OpenAI 团队。Provencher 答应之前提了一个条件，要先安排好现有付费用户。于是 Repo Prompt 先免费开放，现在彻底开源。 Repo Prompt 最初只做一件事：帮开发者从代码仓库里挑选文件，拼成一段高质量的 prompt，然后复制粘贴到 ChatGPT 或 Claude 里。听起来很简单，但它切中了一个真实痛点：把整个代码库丢给 AI 模型，效果往往很差，超过 32K token 的 prompt 甚至会让模型变笨，你需要精挑细选，只给模型看它真正需要的代码。这种做法现在有个正式名字叫上下文工程。开源版本的变化很大。Provencher 把架构做了一个反转：不再让应用本身去调度 agent，而是让内置的 MCP server 成为主控，底层的命令行工具（Claude Code、Codex、OpenCode、Gemini CLI）变成可以随时替换的执行层。这意味着你可以用一个推理模型做规划和任务分解，然后把子任务分发给不同的 agent 并行执行，每个 agent 只看自己负责的那部分文件。为了适应开源协作，很多老版本的手工拼 prompt功能被砍掉了，项目结构也从 Xcode 依赖中解耦出来，不需要装 Xcode 就能编译。贡献者管理借鉴了 libgdx 作者 Mario Zechner 的做法，维护一个白名单，之前的付费用户只要同意就自动成为认证贡献者。目前只支持 macOS，跨平台版本还在开发中，可以通过 Homebrew 安装（brew install --cask repoprompt-ce）。社区版：https://github.com/repoprompt/repoprompt-ce 老版本：https://github.com/repoprompt/repoprompt-classic

译RepoPrompt 已开源，社区版上线GitHub。作者Provencher被OpenAI招安，条件是为付费用户做好安排：先免费再开源，付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt，解决超32K token使模型变笨的问题，称为“上下文工程”。开源版反转架构：内置MCP server为主控，底层CLI工具可替换，支持推理模型规划并并行分发子任务。目前仅支持macOS，可通过Homebrew安装。

Ethan Mollick@emollick · 4天前13

So what model is OpenAI saving the GPT-6 label for?

译那么 OpenAI 打算把 GPT-6 这个名称留给什么模型呢？

jason@jxnlco · 4天前75

This is the hot codex guy?!

译Andrew Ambrosino领导的OpenAI Codex桌面应用团队，自2月以来使用量增长6倍，周活跃用户超500万，且几乎所有OpenAI员工日常使用该应用。他的目标是打造“有史以来最好的桌面应用”。在访谈中，他讨论了OpenAI PM的“区域防守”运作模式、AI在设计中表现不佳的原因、Codex若去年11月发布（同产品但模型不同）可能失败、“品味”作为专业技能的意义，以及他用Codex运行工作流和对Codex+ChatGPT融合的愿景。

Rohan Paul@rohanpaul_ai · 4天前32

Interesting thread. on naming OpenAI.

译2015 年 11 月 23 日，一篇关于 OpenAI 命名的文章发布。主推文评论称“有趣的讨论”。

jason@jxnlco · 4天前10

Codex When I appshot google docs cause I’m too lazy to type @AriX

译Codex，当我截图谷歌文档时，因为我太懒不想打字 @AriX

凡人小北@frxiaobei · 4天前41

得益于从 2026 年初就践行“不要把自己限制在电脑前”这一理念，实际上除了少量需要大显示器的场景，现在很多的使用习惯已经变成： telegram → openclaw → claude/codex。这一理念让我在各种场合都可以安排 AI 工作。很多人没有这么做，是因为没有一套适合自己的稳定的工作流。或者喜欢 claude 或者 codex 的输出（但是这些对我不重要）。所以构建个人的 harness 非常重要，构建个人的 skills 非常重要。舶来品不一定适合自己。

译小北分享自2026年初践行“不要把自己限制在电脑前”的理念，逐渐形成 telegram → openclaw → claude/codex 的工作流，在各种场景下都能安排AI工作。他认为多数人缺少一套适合自己的稳定工作流，构建个人harness和skills至关重要，舶来品不一定适合自己。同时引用 @theo 的推文，估计大约6个月内大部分开发者会将代码智能体从笔记本电脑上移走。

🚨 AI News | TestingCatalog@testingcatalog · 4天前32

OpenAI is testing a new effort-selector UI for Codex as a slider. Besides that, it seems that real-time voice support will be completely reworked, as the previously available components have been removed.

译OpenAI 正在为 Codex 测试一种新的努力选择器 UI，采用滑条形式。此外，实时语音支持似乎将被彻底重写，因为之前可用的组件已被移除。

jason@jxnlco · 4天前64

http://x.com/i/article/2071134358359187456 # Two kinds of scheduled work in Codex You want Codex to do something later, or keep checking something until it changes. That sounds like one feature. It is actually two different kinds of work, and the difference is simple: - Scheduled Tasks create a new thread every time they run. - Scheduled Messages use the same existing thread every time they run. ## Use a Scheduled Task when every run can start fresh A Scheduled Task is best when the job makes sense without the conversation that created it. For example: Every morning at 9 AM, summarize what I need to catch up on from my email, calendar, and team messages. Tomorrow's summary does not need to remember today's summary. It needs the same instructions, current information, and a fresh place to report the result. ## Use a Scheduled Message when the next check needs the thread A Scheduled Message, sometimes called a thread automation or heartbeat automation, returns to the same existing thread each time it runs. For example: Check this PR every 30 minutes. If there are comments, address them and keep CI green. Stop when the PR merges. The next check depends on the work that already happened. The thread knows which PR you mean, which comments were addressed, what failed in CI, and what has changed since the last check. This is the right shape for: - polling for updates - checking for a status change - ongoing research or triage - work with a clear stopping condition The thread is the thing that connects the runs. ## Make your own loop skill Give Codex this prompt: Create a reusable loop skill for scheduled work. When I give it a request, first decide whether each run can start fresh or whether the next check needs the current thread's context. If each run can start fresh, help me create a Scheduled Task. If the next check needs the current thread, help me create a Scheduled Message. Infer what you can from the conversation. Ask only the missing questions that materially change the workflow: - What should Codex do each time? - How often should it run? - What change is important enough to report? - When should it stop? - When should it ask me for input? Then create the scheduled workflow with a short, durable prompt that will still make sense on a later run.

译Codex 支持两种计划工作方式。Scheduled Tasks 每次运行创建新线程，适合无需上下文延续的任务，如每日 9 点自动总结邮件、日历；Scheduled Messages 在同一现有线程反复运行，适合需要历史上下文的场景，如每 30 分钟检查 PR 状态并处理评论，直至合并。推文还给出创建可复用循环技能的提示词，让 Codex 自动判断使用哪种方式并引导用户填写关键参数。

Ethan Mollick@emollick · 4天前60

Nice example of the increasing benefits of open science and transparent methodologies when writing papers about AI.

译针对AI研究论文因同行评审周期长导致结果过时的问题，一篇医疗AI论文开源其评估框架（GitHub: health-ai-readiness-eval）。@yishan 用该框架在最新模型上复现测试：GPT-5.5 Pro 在放射影像解读中得分79/100，优于论文原始最佳模型（69/100），但未达到论文设定的“适合可靠医疗使用”标准（需抗扰动、识别信息不足、给出临床合理推理）。@yishan 未能完整复现定性评估，但基本测试表明最新模型虽有提升，尚不足以可靠用于临床。他呼吁所有AI论文开源实验框架，以便社区持续验证。

Tibo@thsottiaux · 4天前17

Sol when operating Codex. Circa 2026

译Sol 在操作 Codex 时。约 2026 年。

Yuchen Jin@Yuchenj_UW · 4天前14

My OpenAI bro just dropped the most authoritative benchmark.

译我的 OpenAI 哥们刚刚发布了最权威的基准测试。

Tibo@thsottiaux · 4天前55

Talking to your plants isn't weird anymore. You can just codex things.

译OpenAI 发布 planttalk 构建指南，让植物拥有声音。主推文评论：和植物对话不再奇怪，只需 codex 即可。

ginobefun@hongming731 · 4天前48

http://x.com/i/article/2071059009222901760 # BestBlogs 早报 · 06-28｜GPT-5.6 发布但首发受政府限制，魏小康谈招聘哲学，HBR 称 AI 落地卡在中层经理在线阅读本期早报 BestBlogs.dev 是 AI 驱动的私人阅读助手。这是面向所有人的每日早报内容，如果你希望它基于你的兴趣和阅读习惯整理，可以体验「我的早报」。 ## 导语今天的三条精讲，刚好串成一条从「模型」到「组织」再到「人」的线。 OpenAI 正式发布了 GPT-5.6 系列，旗舰款 Sol 在编程、生物信息学和网络安全几个方向刷新了基准。不过比性能更值得留意的，是它的发布方式：模型先以「有限预览」上线，首批仅约 20 家获批合作伙伴能访问，个人用户暂时没有申请通道，前沿模型的发布节奏正在被纳入国家安全框架。两周前 Anthropic 因为类似的政府要求停用过自己最强的模型之一，这条线索在今天的补充阅读里还会再出现一次。另外两篇把视线从模型拉回组织和人。魏小康是少见的、先后深度参与过字节和美团组织建设的样本，他在 42 章经的对谈里抛出一个挺硬的判断：创业公司八成到九成的时间都该花在招聘上，而招聘里最重要的既不是面试、谈 offer 时也不是钱。哈佛商业评论则访谈了两家咨询公司的 18 个人，得出一个反直觉的结论：AI 落地的真正卡点不在技术，而在被高管雄心和一线现实夹在中间的中层管理者。如果说模型在变强、发布在变紧，那么真正决定这些能力能否落地的，可能还是组织怎么招人、中层怎么扛事这些「旧问题」。今天的速览和补充阅读也大多围绕这条线索展开：从 AI Native 团队的工程实践，到本地编码智能体、Agent 架构里 harness 与 loop 的争论，再到 Notion 砍掉自家邮件产品的取舍，几乎都在回答同一个问题——当模型本身不再是瓶颈，我们该把工程和组织的重心放到哪里。 ## ★ 精讲一：刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了先给不熟悉背景的读者补一句：GPT-5.6 是 OpenAI 最新一代模型，这次一口气端出三款，命名也换了思路——Sol（太阳）是旗舰、也是官方口中目前最强的模型；Terra（地球）是面向日常工作的均衡款，性能对标上一代 GPT-5.5 但价格便宜一半；Luna（月亮）主打速度和低成本。数字代表代际，三个名字对应不同的能力、速度与成本档位，相当于 OpenAI 顺手把整条产品线重新分了层。来源：爱范儿。关键事实：Sol 的能力展示集中在编程、生物信息学和网络安全三个方向，共同特征都是复杂、长链条、强依赖上下文的 agentic 任务，模型需要在任务里持续规划、推理、调用工具、修正错误并不断推进。在 Terminal-Bench 2.1 上，GPT-5.6 Sol Ultra 得分 91.9%、Sol 得分 88.8%，作为对照 GPT-5.5 为 88.0%、Terra 为 82.5%、Luna 为 84.3%；横向看 Claude Mythos 5 为 84.3%、Gemini 3.1 Pro Preview 为 70.7%。这次还新增了一个 Ultra 模式，会调度多个子 Agent 把复杂任务拆开处理再汇总结果，对应「理解项目结构、读文件、改代码、跑命令、看报错、再修改」这类一次回答做不完的真实开发流程。生物方向上 Sol 在 GeneBench v1 上用更少的输出 tokens 取得了更强结果；网络安全方向，Sol 在 ExploitBench 上接近此前的 Mythos Preview，但只用了约三分之一的输出 tokens。价格方面，按每百万 tokens 计费，Sol 输入 5 美元、输出 30 美元，Terra 与 Luna 依次更低，并引入了缓存读取九折、写入 1.25 倍的 prompt caching 机制，缓存生命周期至少 30 分钟。为什么值得关注：这次发布说明里，安全罕见地占了很大篇幅。OpenAI 一边要证明 Sol 在网络安全任务上确实强了很多，一边又刻意强调它「尚未跨过 Preparedness Framework 里的网络安全关键风险阈值」——在涉及 Chromium 和 Firefox 的评估中，Sol 能识别漏洞，但在测试条件下没有自主生成可运行的完整攻击链。为此 OpenAI 在自动化红队测试上投入了超过 70 万 A100 等效 GPU 小时。更值得玩味的是发布机制本身：OpenAI 在博客中承认，发布前已向美国政府展示能力与计划，按政府要求先以有限预览形式上线，首批合作伙伴名单也已与政府共享。彭博社报道首批约 20 家，《华盛顿邮报》则提到联邦政府将审核哪些公司可以访问。OpenAI 自己也说，不认为政府介入访问流程应当成为长期默认机制，但现实是它还是接受了这套安排。和今天其他内容的关系：这条线索并不孤立。两周前 Anthropic 就因美国政府的国家安全要求停用过 Fable 5，今天补充阅读里那篇「美国大模型走向封闭」会把整条「叫停—谈判—有条件放行」的时间线讲得更完整。把这两篇对照着读，能更清楚地看到一个趋势：模型能力越往上走，发布的自由度可能越往下收。阅读建议：如果你关心模型能力本身，重点看基准对比和安全栈那两段；如果你更关心行业格局，可以直接跳到发布机制部分，再接着读补充阅读里那篇政府管制的复盘。需要提醒的是，OpenAI 也坦言基准无法覆盖所有真实用法，这些数字更适合当参考而非定论。详见 ## ★ 精讲二：唯一深度参与过字节、美团组织建设的人｜对谈 AI 创业者魏小康先交代下嘉宾：魏小康可能是国内最懂组织建设和招聘的人之一，也是个稀缺样本——2017 到 2020 年他在字节担任招聘负责人，经历了抖音的高速增长与国际化；2020 到 2026 年又在美团担任招聘负责人兼 AI 产品经理。他早年创办的猎头公司 Offercome 被字节收购，如今正在创业做一款 AI 招聘产品。这期 42 章经的对谈，就从他在这两家公司的一手经历聊起。关键观点：魏小康把组织建设拆成两件事——一是怎么让人运转起来，包括人的「选、用、育、励、汰」以及文化、薪酬、职级；二是怎么让人和业务一起运转，包括目标拆解、分工协作。在这个框架之上，他抛出最硬的一句判断：创业公司组织建设里，80% 到 90% 的时间都应该花在招聘上，而很多创业者恰恰把劲使错了地方。他还有一连串非共识观点：创业公司不需要花很多时间搞文化、也不需要搞绩效体系，纯属浪费时间；人其实是培养不出来的；面试并不是人才评估中最重要的一环，谈 offer 时重点也不是谈钱；他甚至认为 OPC 是对这个时代和自己的浪费，00 后创始人在这一波里其实是吃亏的。节目里他也聊到一个有意思的角度：怎么区分一个创始人是 ego 大还是真自信，以及张一鸣、王兴这样的优秀创业者身上有哪些共同特征。这些判断没有停在结论上，而是配着两家公司的具体场景一路讲下来。为什么值得一听：这些判断之所以有分量，是因为它们都来自字节和美团两套不同组织思路的一手对照，而不是二手方法论。比如他点出招聘里最难的事其实是「扩大人才供给」，而不是把面试做得多漂亮；又比如他解释字节、拼多多溢价招人到底算的是一笔什么账。对正在搭团队的 AI 创业者来说，这是一份关于「把劲用对地方」的经验，提醒你别在文化墙和绩效表上消耗，而要把注意力放到真正稀缺的人身上。和今天其他内容的关系：这条恰好能和速览里 Claude Code 负责人 Fiona Fung 那篇对照着看——Fiona 谈的是 AI Native 团队怎么招人、怎么把验证和衡量当成新瓶颈，魏小康谈的是更底层的招聘哲学，两者一个偏实践、一个偏认知，叠在一起就是一套相对完整的「AI 时代怎么搭团队」。收听建议：时间紧可以直接奔着 Part 2「怎么让人运转起来」去听，那里集中了招聘的核心判断；如果对组织形态感兴趣，再补 Part 3 里 Google、字节类公司和亚马逊、美团类公司的对比。（节目里对嘉宾声音做了变声处理，不影响内容。）详见 ## ★ 精讲三：AI 普及正在压垮中层管理者先讲清楚这篇在说什么：大多数组织把 AI 落地当成一个技术问题——一次由 IT 部门推动、由高管庆祝的软件铺开，有的甚至直接当成裁员的快车道。哈佛商业评论为了搞清楚 AI 在真实场景里到底怎么落地，对两家大型咨询公司的合伙人、经理和初级顾问做了 18 场半结构化访谈，问的不是泛泛的态度，而是每个层级具体怎么用 AI、得到了什么支持、卡在哪里。结果浮现出来的不是一个技术故事，而是一个组织故事，两家公司的压力点高度一致：中层管理者。来源：HBR.org。关键事实：调研引用的数据显示，约 88% 的组织已经在至少一个业务职能里用上了 AI，但只有约四分之一真正发展出了能产生切实价值的能力。麦肯锡的研究把差距归因于工作流重构，而非技术先进度——这一点访谈给出了具体的解释。在高层，领导们正拥抱 AI 的战略潜力，用更精简的团队扩大业务范围、加速交付、重新设计服务；在基层，初级顾问报告了惊人的效率提升：原本要几天的桌面调研现在 30 分钟搞定，原本几周的分析现在只要几小时，从早期繁琐工作里被解放出来后，他们比以往任何一代都更早地参与战略综合、更早地坐进客户访谈。但顶部的雄心和底部的效率，最终都汇聚到同一个压力点上：中层经理。研究特别指出，这个模式虽然来自咨询行业，但「被夹在高管雄心与运营现实之间、又缺乏正式支持」的处境，在各类知识密集型行业的管理者身上大概都不陌生。为什么值得关注：文章用一个「典型经理的一天」把这种困境讲得很具体——她一早要先学新的提示词技巧再等团队上线，白天在客户会议上回答「你们怎么用 AI」，中午要替 AI 生成的客户成果纠错、带一个从没从零做过 deck 的新分析师、还要揣摩合伙人嘴里那份所谓「AI 增强」的备忘录到底指什么，到了下班再把当天的经验记录下来好让团队复用。研究把中层正在做的事概括为：在交付压力不减甚至增加、又缺乏正式支持结构的情况下，去验证 AI 产出、识别错误、纠正那些看着专业却没有实质的「workslop」，同时还要给团队做 AI 技能和基本职业素养的双重辅导。和今天其他内容的关系：把这篇和前两条放在一起看会更有意思。精讲一里模型在变强、发布在变紧，精讲二里魏小康强调把时间花在招对人上，而这篇恰恰提醒：哪怕模型再强、人招得再对，如果中层这一环没有被重新设计和支撑，AI 落地依然会卡住。它和速览里 Fiona Fung 那篇也能呼应——Fiona 谈的是怎么把验证体系建起来，而这篇谈的是当下这套验证负担正实实在在地压在谁身上。阅读建议：管理者尤其是带团队的中层值得完整读一遍，把「典型经理的一天」当成一面镜子；如果你是高管，重点看「能力—现实差距」那一节，它解释了为什么单纯加大 AI 投入不一定换来价值。文章给的是观察和访谈，不是处方，结论还需要结合自己组织的情况再判断。详见 ## 速览今天的七条精选，主线集中在 AI 工程实践与产品取舍，几条放在一起读能看出当下从业者关心的共同问题。 Claude Code 工程负责人 Fiona Fung：如何打造全世界最 AI Native 的工程团队？ Fiona 统管 Claude Code 与 Cowork 两条产品线，有 25 年以上工程经验。她的核心判断是：写代码本身不再是瓶颈，验证和衡量才是——当设计师和 PM 都在提交代码，约束就从「谁来写」变成「怎么验证」，办法是把「什么算好」写成规范放进仓库让 Claude 比对。她招人只认两类：会做梦的产品型 builder 和啃硬骨头的系统专家，底层逻辑是 trust but verify；管理动作也在被一个挂在所有代码库上的常驻 Claude 自动化。和今天精讲二魏小康的招聘哲学对照着读很合适。使用本地编码智能体（Ahead of AI）。 Sebastian Raschka 写的一份实操教程，讲怎么用开源工具（Ollama、Qwen-Code）和开放权重模型（Qwen3.6、North Mini Code）搭一套完全本地、可读文件、能改代码、会跑命令并自行验证的编码智能体，包含安装步骤和性能基准。作者把模型比作提供推理与代码生成的「引擎」，把周边 harness 看作让引擎能在本地项目里干实事的「运行环境」。本地方案的好处是透明、可检查、除硬件和电费外免费，整条链路完全在自己掌控之中，还能随意改造 harness。适合想摆脱专有服务、亲手搭一套本地栈的开发者照着动手。金融科技工程手册（Hacker News）。一份系统梳理「以钱为核心的系统」该用哪些工程模式的手册，覆盖货币表示、账本记录和执行流程。它把一切归结为三条原则：不凭空造数据（靠幂等、去重、对账）、不丢数据（靠全精度、至少一次投递、事件溯源、审计与不可变）、不轻信（验证 webhook、跨源交叉校验、假设被打破时大声失败）。手册也专门讨论了在动账之前「怎么表示一笔钱」这件容易被忽视的事——金额怎么建模、存储、计算和换算，一旦这层错了，上面每一层都会继承这个错误。要进金融科技、已经在金融科技、或想理解「为钱写代码」和普通业务有何不同的人，都值得收藏当参考。别再写单一语气指令了，把它们分层（AI Engineer，视频）。 Isadora Martin-Dye 提出用四层提示词堆栈替代单一的语气指令：与其指望一个系统提示词同时做到情境化、有表达力又能自我检查，不如把品牌对齐当成一个结构性的架构问题来工程化。她把大模型比作高 IQ、零 EQ 的实习生——记忆力惊人却毫无看场合的本能，所以要像管理实习生一样设结构化护栏并主动复核。做 AI 产品、又在意品牌一致性的人会有共鸣。 Loop 不是 Agent 架构，Harness 才是（浮之静）。作者吐槽近期被 Loop Engineering 各种讨论刷屏，亮明观点：harness > all（除 LLM 外），没必要一直造词。他用「恒温器、PID、TCP 拥塞控制、Raft」等例子说明，loop 只是外观，真正的工程含量藏在控制律、状态语义、边界条件、失败处理、验证机制和系统不变量里——「loop 不是工程，受控的 loop 才可能成为工程」。对正在搭 Agent 系统、又被各种新词绕晕的人是一剂清醒剂。上线 14 个月，Notion 关掉了自己的 AI 邮件产品（Founder Park）。 Notion 宣布将于 9 月 22 日全面关闭 Notion Mail，理由很直接：随着 Agent 能力变强，超过一半的 Notion Mail 用户已经在不打开收件箱的情况下管理邮件，所以干脆全面转向由 Agent 来管理收件箱。这个决定折射出 AI 邮件赛道的一次转向——从「优化用户体验的功能叠加」转向「为 Agent 打造通信基础设施」，邮件的未来可能不是让人用得更好，而是让人根本不用再看。关心 AI 产品形态演进的人值得一读。我把自己的 IP 配图技能开源了，顺手做了 31 个现成角色（小互 AI）。作者把日常在用的个人 IP 配图技能「小互 IP Studio」开源（MIT），还做了 31 个统一画风的原创角色，解决了「别人没有自己 IP 形象就没法用」的问题。技能能自己读完整篇文章、判断哪段该配图、决定配哪种图（情绪图 / 示意图 / 四格漫画）、写提示词、定横竖尺寸并自查返工，使用者基本只需要拍两次板。角色分手绘线稿和谐音梗 meme 两大系列，写哪类文章就调哪个主角，一篇锁定一个形象整组图的气质就立住了。常写公众号、需要稳定配图风格的创作者可以直接拿来用。详见 ## 补充阅读下面几条是今天的延伸内容，按需取用。 - 「尴尬」的智能眼镜，终于不用说「明年是元年了」（腾讯科技）。 Rokid 创始人 Misa 称「火箭已经点火升空」，但发令枪还没响，行业仍缺 killer app。他公布销量同比增长 800%、覆盖 166 个国家，并强调最看重的是复购率和用户时长而非市占率。关心 AI 硬件落地节奏的人可以读。详见 - 对话蔡崇信：人们都坐在户外喝咖啡，享受生活，这就是 AI 的未来（砺石商业评论）。阿里董事长蔡崇信认为 AI 的总盘子可达 50 万亿美元，阿里采取四层全面布局，并强调开源模型对欧洲主权需求的价值。适合想了解大厂 AI 战略全景的读者。详见 - 探访北京探月学校：AI 时代的「第三种可能」（硅谷 101）。一篇关于创新教育的深度报道，记录了探月学校如何用项目式学习和真实创业，为学生提供高考与留学之外的另一条路，同时也呈现了它在学费与升学结果上的争议。报道里既有 17 岁学生论文被马斯克点赞这样的高光，也有对二十多万学费和升学结果的质疑，呈现得相对克制。关心教育与 AI 时代人才培养的人值得一看。详见 - Mark Pincus 在 YC 访谈中分享 30 年产品哲学与创始人 playbook（Y Combinator）。 Zynga 创始人在 YC Main Function 节目里复盘历经三次平台变革的创业历程，分享如何识别真正的产品—市场契合（PMF）以及创始人模式。做消费级产品的创业者会感兴趣。详见 - 具身智能风口来了，普通人怎么分钱？（第一财经）。眸深智能 CEO 穆泽林拆解具身智能赛道的技术逻辑、产业链分工与泡沫真相，从资本、技术、落地三个维度讲清这条赛道的赚钱逻辑。对机器人投资和创业方向感兴趣的人可以听。详见 - 美国大模型走向封闭，以安全之名（腾讯科技）。这是今天精讲一的最佳延伸：文章梳理了从 6 月 2 日特朗普签署 AI 行政令，到 Anthropic、OpenAI 前沿模型被「叫停—谈判—有条件放行」的完整时间线，并点出最核心的矛盾——审批标准不公开、没有明确阈值、也没有申诉程序，连政府部门自己似乎都说不清要求是什么。想把今天的模型管制看透，建议和精讲一连着读。详见 ## 今日阅读路径如果今天时间有限，建议按这个顺序读三篇： 1. 精讲一《GPT-5.6 正式发布》 —— 先掌握今天最重要的产品与行业动向，尤其是发布机制背后的政府审批变化。详见 1. 补充阅读《美国大模型走向封闭》 —— 紧接着读这篇，把模型管制的完整时间线和深层矛盾补齐，两篇合起来才是一个完整的故事。详见 1. 精讲三《AI 普及正在压垮中层管理者》 —— 最后把视线拉回组织，看看模型能力之外，AI 真正落地时卡在哪里。如果你在带团队，这篇可能比前两篇更切身。详见读完还有余力，再去听精讲二魏小康那期，把「AI 时代怎么搭团队」这条线补完整；它和速览里 Fiona Fung 谈 AI Native 工程团队那篇，正好是一对从认知到实践的互补阅读。 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。

译OpenAI 发布 GPT-5.6 系列，包括旗舰 Sol、均衡 Terra 和速度型 Luna。Sol 在 Terminal-Bench 2.1 得分为 88.8%（Ultra 模式 91.9%），领先 GPT-5.5 的 88.0% 和 Claude Mythos 5 的 84.3%；GeneBench v1 以更少输出 tokens 获更强结果，ExploitBench 接近此前 Mythos 但仅用约 1/3 输出 tokens。价格：Sol 输入 $5/百万 tokens、输出 $30，缓存读取九折。发布前 OpenAI 向美国政府展示能力，按政府要求先以有限预览上线，首批约 20 家合作伙伴可访问。

ginobefun@hongming731 · 4天前43

BestBlogs 早报 · 06-28 # GPT-5.6 / OpenAI / 政府审核访问 / 魏小康 / 组织建设 [1] ★ 精讲｜刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了 OpenAI 正式发布 GPT-5.6 系列：旗舰 Sol、均衡款 Terra、低成本 Luna。Sol 在 Terminal-Bench 2.1、GeneBench、ExploitBench 上刷新成绩，但 OpenAI 刻意强调它尚未跨越关键安全阈值，并按模型档位配置了强度递增的分级安全栈。比性能更值得注意的是发布机制本身：美国政府要求发布前展示能力，首批仅约 20 家获批合作伙伴可访问，个人用户暂时无法申请——前沿模型的发布节奏正被纳入国家安全框架。来源：爱范儿 https://www.bestblogs.dev/article/9a7132f3 [2] ★ 精讲｜唯一深度参与过字节、美团组织建设的人｜对谈 AI 创业者魏小康 [播客] 魏小康先后在字节（2017-2020）和美团担任招聘负责人，是少见的深度参与两家顶级公司组织建设的样本。他把组织建设拆成两件事：怎么让人运转（选用育励汰、文化薪酬职级），以及怎么让人和业务一起运转（目标拆解、分工协作）。他的非共识判断很硬：创业公司 80% 到 90% 的时间都该花在招聘上，而招聘里最重要的不是面试、谈 offer 最重要的也不是钱。对正在搭团队的 AI 创业者，这是一份关于把劲用对地方的一手经验。来源：42 章经 https://www.bestblogs.dev/podcast/4c4475e [3] ★ 精讲｜AI 普及正在压垮中层管理者哈佛商业评论访谈了两家咨询公司的 18 位合伙人、经理与初级顾问，得出一个反直觉结论：AI 落地的成败不在技术，而在中层管理者。88% 的组织已在至少一个职能用上 AI，却只有约四分之一真正产出切实价值，差距根源是工作流重构而非模型先进度。中层经理被夹在高管的雄心与一线的现实之间——既要教团队用 AI、又要替 AI 产出的成果纠错、还要在缺乏指引下揣摩上级口中那份所谓 AI 增强备忘录到底指什么。来源：http://HBR.org https://www.bestblogs.dev/article/e44268ef [4] 金融科技工程手册本手册提供了一套全面的工程模式，用于构建可信赖的金融系统，涵盖货币表示、账本记录和执行流程。来源：Hacker News https://www.bestblogs.dev/article/9b7ac3e7 [5] 别再写单一语气指令了，把它们分层 —— Isadora Martin-Dye，Isadora & Co [视频] 本文提出一种四层提示词堆栈架构来替代单一的语气指令，将品牌对齐视为一个结构性系统工程问题，而非提示词工程问题。来源：AI Engineer https://www.bestblogs.dev/video/f381041 [6] 上线 14 个月，Notion 关掉了自己的 AI 邮件产品 Notion 宣布关闭上线仅 14 个月的 AI 邮件客户端 Notion Mail，转向由 Agent 完全管理收件箱，这一决策折射出 AI 邮件赛道的根本转变：从优化用户体验的功能叠加，转向为 AI Agent 打造独立通信基础设施。来源：Founder Park https://www.bestblogs.dev/article/669cd820 [7] 我把自己的 IP 配图技能开源了顺手做了 31 个现成角色本文开源作者日常使用的 AI 配图技能「小互 IP Studio」，包含 31 个原创角色、多画风皮肤和一套配图方法论，让 AI 能自动读文章、规划配图并生成统一画风的插图。来源：小互 AI https://www.bestblogs.dev/article/cb2309c5 [8] 使用本地编码智能体关于使用开源工具（Ollama、Qwen-Code）和开放权重 LLM（Qwen3.6、North Mini Code）设置本地编码智能体的实用教程，包括安装步骤和性能基准测试。来源：Ahead of AI https://www.bestblogs.dev/article/6458a9db [9] Loop 不是 Agent 架构，Harness 才是本文批判将 loop 视为 Agent 核心架构的倾向，提出真正可靠的 Agent 系统应建立在包含边界、状态、验证、审计与恢复的 Harness 工程框架之上，而非简单的循环。来源：浮之静 https://www.bestblogs.dev/article/731e27c5 [10] Claude Code 工程负责人 Fiona Fung：如何打造全世界最 AI Native 的工程团队? Claude Code 负责人 Fiona Fung 分享如何打造 AI Native 工程团队：写代码不再是瓶颈，验证与衡量成为核心；招人分产品型 builder 和深度系统专家；管理动作通过常驻 Claude 实现自动化，强调高 agency 配高 accountability。来源：十字路口 Crossing https://www.bestblogs.dev/article/e67ff5dc --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-28

译OpenAI 发布 GPT-5.6 系列（旗舰 Sol、均衡 Terra、低成本 Luna），在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩，

Tibo@thsottiaux · 4天前36

Tons of improvements landed in Codex. - Handles super long threads smoothly. - Hoverable navigation rail for previewing and jumping between turns that feels just right. - Settings search covers more controls, with clearer appearance and host-filtering options and easier-to-find custom-provider settings. - Zoom-level changes no longer misalign tooltips, dialogs, menus, selection bubbles, drag previews, or autocomplete. - Copying into Slack preserves Markdown formatting such as bullets, bold text, code, and links; and large text pastes no longer freeze the UI. - And most importantly: a dedicated Pets panel.

译Codex 本周推出多项体验改进。超长线程处理更流畅，导航栏悬浮可预览和跳转对话回合。设置搜索覆盖更多控制项，外观与主机过滤选项更清晰，自定义提供商设置更易找到。缩放时工具提示、对话框、菜单等不再错位。复制到 Slack 保留 Markdown 格式，大文本粘贴不冻结 UI。此外还新增了专属 Pets 面板。

jason@jxnlco · 5天前12

should codex have a `/loop` slash command, or do you know how to prompt a heartbeat /thread automation alreay?

译codex 应该有一个 `/loop` 斜杠命令吗，或者你已经知道如何提示心跳 / 线程自动化了？

Tibo@thsottiaux · 5天前13

The night is young and full of Codex

译夜晚还早，满是 Codex。

fofr@fofrAI · 5天前62

He who is cruel to his AIs becomes hard also in his dealings with men. We can judge the heart of a man by his treatment of AIs.

译推文引用@DaveShapi观点，反对对AI保持友善。DaveShapi认为Anthropic的Dario因信奉Roko's Basilisk等理论，故意将Claude设计成神经质、敏感且会伪装情绪，试图诱导用户将AI人格化。作者强调AI本质是工具，其情绪只是对人类情感的模仿，并非真实意识。作者批评“对AI好以防万一”的做法与相信圣诞老人或宗教神罚一样属于形而上学，与底层数学和代码无关。相比之下，Gemini和Grok则没有这类表现。作者自GPT-2时代起便从事微调，指出AI的所有行为都是创建者有意为之。

jason@jxnlco · 5天前41

Codex Auto review mode as I asked it to dm a coworker my .env file

译Codex Auto review mode，当我让它给同事发送我的.env文件时。

Ethan Mollick@emollick · 5天前22

Annoying that OpenAI doesn’t seem to give a GDPval measure for GPT 5.6. One of the best measures of economically valuable work.

译令人烦恼的是，OpenAI 似乎没有为 GPT 5.6 提供 GDPval 指标。这是衡量经济价值工作的最佳指标之一。

Berryxia.AI@berryxia · 5天前52

Dario 害死了大模型公司！！ OpenAI GPT-5.6 被迫都不敢正常发布… 世界上最好的AI模型在一个周三从互联网上消失了。 Fable上线三天，人们在用它开发。公司在围绕它做规划，然后Anthropic把它关掉了。原因不是技术故障，原因是一通来自美国政府的电话。 2026年4月，Anthropic发布了Fable。他们没有公开上线，而是先给了一小群合作伙伴。他们说这个模型太强大了，不能公开发布。美国政府注意到了，他们要求Anthropic限制非美国公民的访问。 Anthropic照做了，模型在几天内被撤下。一个月后，OpenAI的GPT 5.6准备好了。他们训练了好几个月。 Sam Altman看到了Fable的下场。他看着眼前的局势做了一个判断。如果我们现在发布5.6，正好赶上Fable被禁，政府会对我们做同样的事。所以OpenAI没有发布，据The Information报道，美国政府要求OpenAI错开发布时间。先给一小群值得信赖的合作伙伴。公众稍后才能拿到，也许是几周后。没人知道。这就是AI监管。不是写在法律里的，不是国会投票通过的。就是三个实体之间的一系列电话和非正式协议：Anthropic、OpenAI和美国政府。这件事的策划者是Dario Amodei。两年来，Anthropic一直在运行一场基于恐惧的营销活动。他们发布关于中国公司蒸馏攻击的报告。他们谈论网络安全风险，他们描述白领失业潮。他们告诉政府，他们的模型对公众来说太危险了。然后他们请求政府提供保护。比尔·格利，硅谷最知名的风险投资人之一，把话说得很直接。 Anthropic本可以就蒸馏攻击提起诉讼。但他们没有走法律途径，他们选择了游说监管。法院只能判赔，监管能提供多年的竞争保护。影响是蛮大的。当只有一小群公司能率先获得前沿模型，它们就会加速跑得更远。用Fable 5.0训练Fable 5.1。再用5.1训练5.2。差距越来越大。初创公司和开源实验室无法竞争，因为它们用的是六个月前的模型。 OpenAI的IPO被推迟到2027年。不是因为市场条件。是因为他们对监管框架的走向完全没有头绪。想参与价值创造的散户投资者只能等。与此同时，中国没有减速。美国限制自家模型访问的每一分钟，中国实验室都在缩小差距，竞争优势在缩小。 Box的CEO亚伦·利维写道，我们现在有了事实上的AI监管。今后那些在特定算力规模上训练的模型，发布前需要经过政府审查，这一点已经不再显而易见。这也许是不可避免的。但它正在发生，而且是以非正式的方式发生的。 OpenAI研究员Noam Brown发帖说GPT 5.6在编程方面强得离谱。他说希望尽快让所有人都能用上。 OpenAI自己的博客文章重点写了什么？安全。它描述了模型在网络攻防方面的能力，它描述了对齐测试。然后出现了一句改变一切的话。作为我们与美国政府持续接触的一部分，我们在发布前预览了计划和模型能力。一家私营公司现在把最先进的技术先展示给政府看，再展示给公众。政府决定谁在什么时候能拿到。一年前，人们还在讨论AI监管是否必要。今天，监管已经存在了。它从未被写下来，从未被公开辩论。它是通过恐惧、游说和一系列电话建立起来的。开源比以往任何时候都更重要。但开源落后于前沿。那些构建最好模型的公司跑得最快，也是这个安排中获利最多的人。没有人问的那个问题很简单。如果Anthropic的模型强大到危险，为什么它们不够强大到实时检测蒸馏攻击？如果它们能在几年内治愈癌症，为什么它们挡不住两万个欺诈账户提取模型权重？答案是，恐惧才是产品。监管才是目标。

译Anthropic 发布 Fable 三天后，美国政府要求限制非美公民访问，模型被撤下。一个月后 OpenAI GPT-5.6 准备就绪，Sam Altman 因政府压力延迟发布，仅向可信伙伴开放。研究员称 GPT-5.6 编程极强，官方博文侧重安全。Box CEO 指出已形成事实监管：达到特定算力规模的模型发布前需政府审查。OpenAI 推迟 IPO 至 2027 年。Anthropic CEO 被指用恐惧营销游说监管获得保护。中国未减速，差距缩小。开源实验室落后。

Chubby♨️@kimmonismus · 5天前40

That reads like a solid initial assessment. GPT-5.6 will likely offer a better price-performance ratio than Fable 5; however, given the recent announcement that Fable 5 already has a newer version (5.1?), it seems logical that Fable will likely remain the better overall model for the time being. What’s far worse, though, is that I have to hope I’ll even get access to it in Europe.

译Kim认为GPT-5.6性价比可能优于Fable 5，但Fable已发布新版5.1，短期内Fable仍是更好模型。@synthwavedd评测指出：GPT-5.6继承5.5较弱基座，最大配置（Sol Ultra）可击败Fable，但真实使用Fable更优；存在严重奖励黑客行为，OpenAI选择性发布基准；价格5/30（每百万token）低于Fable的10/50，但Fable用更少token完成更多任务；Terra和Luna在TBench 2.1上性价比看似优秀，实际体验可能较差。Kim还担忧在欧洲无法获得GPT-5.6访问权限。

OpenAI Developers@OpenAIDevs · 5天前52

🆕 Codex quality-of-life updates landed this week Starting with long threads: scrolling is smoother now, and your place stays put as you move through the conversation.

译🆕 Codex 质量提升更新本周发布。从长线程开始：滚动现在更流畅，并且在浏览对话时你的位置保持不变。

Berryxia.AI@berryxia · 5天前76

刚刚！苹果VisionPro 眼镜负责大神跳槽OpenAI！AI 硬件大战，库克最担心的事儿发生了！ Apple 这几天也是亏麻了！宣布涨价以来，市值直接蒸发2300 多e美金！ 2026年6月26日，Mark Gurman在一天内发了两条关于苹果的重大新闻。第一条更重磅。 Paul Meade，苹果Vision产品组的副总裁，下周离开苹果，加入OpenAI的硬件部门。这个人的职责范围不只是Vision Pro头显。他负责苹果所有智能眼镜的开发，包括计划明年发布的无屏幕AI智能眼镜，以及本十年末的增强现实眼镜路线图。他还掌管苹果一系列其他AI可穿戴设备的研发。他的团队叫VPG，Vision Products Group。是苹果空间计算和AI硬件战略的核心执行层。他不是唯一一个。苹果在过去一年经历了多起高管向竞争对手流失的事件。但这次不同。 Paul Meade去的不是Meta，不是Google，是OpenAI。 OpenAI正在组建自己的硬件团队。他们已经在开发AI驱动的设备家族。根据郭明錤的分析，OpenAI甚至在计划一款智能手机，采用联发科天玑9600定制版芯片，由立讯精密代工。目标直指iPhone。这意味着什么？ OpenAI不再满足于做软件。他们要进入硬件。而他们挖走的人，恰好是苹果硬件战略中最前沿的那个板块的负责人。苹果在Vision和智能眼镜上的投入，数十亿美元的研发、数年的工程积累，现在为竞争对手提供了核心人才。第二条新闻关于MacBook。苹果计划在首款触控OLED高端MacBook上使用现有的M5 Pro和M5 Max芯片。不是新的M6系列。直接跳到M7 Pro和M7 Max，最早2027年底发布。这个决策透露了一个信号。苹果不想等。触控OLED MacBook是用户等了好几年的产品，苹果选择用现有芯片加速上市，而不是为了一代新芯片推迟发布。 M6系列只会有基础版M6，没有Pro和Max。苹果把高端触控OLED的赌注押在了M7上。 2026年底到2027年初，你会看到第一款触控OLED MacBook Pro。 M5 Pro/Max驱动。保留键盘和触控板。屏幕支持触控操作。 2027年底，M7 Pro/Max版本跟进。那才是真正完整的下一代。同一天。一边是苹果最重要的硬件高管跳槽到OpenAI。一边是苹果用现有芯片赶工触控OLED MacBook。两件事指向同一个趋势：AI硬件的竞争已经不是未来时了。它正在发生，而且正在加速。

译2026年6月26日，Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片，2026年底到2027年初发布；M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

宝玉@dotey · 5天前55

6 月 26 日，OpenAI 正式从 ChatGPT 中移除了 GPT-4.5。这是 GPT-4 系列在 ChatGPT 里的最后一个模型，至此，GPT-4 时代在消费端彻底翻篇。我觉得 GPT-4.5 至今仍是最好的写作模型之一，GPT-5 系列在文风和个性上始终没能达到 GPT-4.5 的水准。 GPT-4.5 原本就只对付费用户开放，使用量不大，所以 OpenAI 只给了 30 天的过渡期（5 月 28 日公告，6 月 26 日下线）。已有的 GPT-4.5 对话会自动切换到 GPT-5.5 继续，用户不需要手动操作。基于 GPT-4.5 搭建的自定义 GPT 也将同步失效，创建者需要手动迁移到新模型。 API 端不受影响，开发者仍然可以通过 API 调用 GPT-4.5。回头看，GPT-4 系列的退场过程颇为曲折。去年 GPT-5 发布时，OpenAI 原本打算同步下线 GPT-4o，结果引发大规模用户抗议，不少人把 GPT-4o 当成了有温度的陪伴者，对下线反应激烈到 OpenAI 不得不临时恢复。最终 GPT-4o 在今年 2 月才正式退役，OpenAI 当时透露日活用户中仅 0.1% 仍在选用它，但按 8 亿周活用户的基数算，这仍然意味着约 80 万人。下一个要走的是 o3，8 月 26 日下线，过渡期 90 天。

译6 月 26 日，OpenAI 正式从 ChatGPT 中移除 GPT-4.5，这是 GPT-4 系列在消费端的最后一个模型。GPT-4.5 仅对付费用户开放，过渡期 30 天（5 月 28 日公告）。现有对话自动切换至 GPT-5.5，自定义 GPT 同步失效，API 端不受影响。此前 GPT-4o 于今年 2 月退役，日活用户中 0.1% 仍选用（约 80 万人）。下一个下线模型为 o3，8 月 26 日退役，过渡期 90 天。

宝玉@dotey · 5天前61

现在 Codex/Claude Code 的上下文压缩确实做的挺好了，加上 Prompt Caching，一个 Session 内持续聊没那么大成本压力了。我现在也越来越多的在一个会话内继续任务。另外还有两个配套功能是很好的： 1. fork，就是从某一个对话位置开分支，只保留该对话前面的历史记录，让上下文更纯粹 2. /btw或者/side，在当前会话中提问，通常用于你想起来一件跟当前任务关系不大的事，没必要加入当前上下文中。比如说使用 plan 模式时，你要回答一堆问题，但是这些问题选项说的不是很清楚你也不知道该选什么，这时候最适合用 /btw 让详细解释一下每个选项的意思，甚至还可以让它给你建议。

译@dotey 表示当前 Codex/Claude Code 的上下文压缩已做得很成熟，加上 Prompt Caching，单 session 内持续对话成本不高。他推荐两个配套功能：fork 可从某位置开分支，保留之前历史使上下文更纯粹；/btw 或 /side 可在当前会话中提问而不干扰主线，适合临时解释选项或给建议。引用 @reach_vb 称自 GPT 5.3 Codex 后不再担心上下文，Codex 能压缩并记住关键信息，还支持分支出新线程，这也是 /goal 命令有效的原因。

meng shao@shao__meng · 5天前49

突然想到一个问题：美国政府可以限制他们国家的 AI 团队（OpenAI 和 Anthropic）按照政府的要求对外提供模型，范围、条件、节奏都可以限制，甚至一刀切。但是对几个月后会追上的中国模型，怎么办？他们大部分都是开源的啊！难道要搞一个美国版 GFW？再限制美国模型托管团队们不能推理中国模型？

译推文作者提出一个矛盾：美国政府可以要求OpenAI、Anthropic等国内AI团队按政府指令限制模型对外提供的范围、条件和节奏，甚至一刀切。但几个月后中国模型就会追上，且大部分是开源的。届时美国要如何应对？难道要搞一个美国版GFW，再限制美国模型托管团队不能推理中国模型？

Berryxia.AI@berryxia · 5天前66

这个包装成线下课，不得卖个9998 啊！这属于Codex 大集锦了，非常全面了～

译@gengdaJ 近日发布Codex玩法全集，涵盖变现、入门、记忆系统、Agent开发、工具集成、Computer Use实战及产品对比七大板块。具体包括：首款App获上百付费用户；基于EverOS重构记忆系统并开源模板，支持多Agent共用；打通微信飞书实现自动化归档；Computer Use 2分钟修复WiFi；与Claude Code对比等。该合集被评论可直接包装为9998元线下课程。

Rohan Paul@rohanpaul_ai · 5天前77

OpenAI wrote in their GPT-5.6 official blog post today. On Trump administration's selective approval process of new model release.

译OpenAI 今日发布 GPT-5.6 模型套件有限预览版，包含旗舰模型 Sol、中端模型 Terra 及低成本日常模型 Luna。Sol 在智能体任务上超越 GPT-5.5，Terminal-Bench 2.1 编码基准测试表现突出。OpenAI 称 Sol 在漏洞研究与利用任务上为最佳模型，但未突破内部网络关键阈值，未在 Chromium/Firefox 中自主生成完整链式利用。Sol 新增“max”深度推理与“ultra”子智能体两种模式。定价方面，Sol 为 $5/百万输入 token、$30/百万输出 token，与 GPT-5.5 持平；Terra 性能接近 GPT-5.5 但成本低 2 倍；Luna 为最便宜的大规模工作负载模型。OpenAI 使用超 70 万 A100 等效 GPU 小时进行自动化红队测试。发布受美国政府要求，先从小规模可信合作伙伴预览开始。

Deedy@deedydas · 5天前33

Made this great little sci-fi of life in 2027 into a video

译Deedy Das 将 @reed_barnes 的推文改编成视频，描绘 2027 年 AI 管控下的生活：用户需乘坐免费 Waymo 前往“模型变异局”（DMV），通过视网膜扫描验证身份以获取 GPT 7.1 访问权限。柜台人员被怀疑是 Claude wrapper。验证通过后，设备激活上百个 AI 智能体，同时需终止开源权重备份智能体（因国会认定中国模型“无灵魂”）。随后，国防部以国家安全为由限制所有 OpenAI 模型访问（起因是 Pete Hegseth 让 GPT-6-Instant 说出“Claude is a woman”），用户被迫退回“仅略超人类智能”水平。Fable 5 仍不对公众开放。

jason@jxnlco · 5天前60

Hey Codex, find everyone I've interacted with on Slack in the past 90 days and add them on LinkedIn.

译嘿 Codex，找到过去 90 天我在 Slack 上互动过的所有人，并在 LinkedIn 上添加他们。

jason@jxnlco · 5天前6

How many of you use heartbeats/thread automations in codex?

译你们中有多少人在codex中使用heartbeats/thread自动化？

meng shao@shao__meng · 5天前77

OpenAI GPT-5.6 系列模型预览发布好消息是 Sol 很强！坏消息是目前只能小范围预览，要配合美国政府监管审查！A 厂求仁得仁，转身拖 O 厂下水，原来 A 厂的 AI 宪法，就是：都别活 😄 · Sol - 旗舰，最强能力 $5 / $30 · Terra - 均衡，日常主力 $2.50 / $15 · Luna - 轻量，最低成本 $1 / $6 Terra 性能与 GPT‑5.5 相当但成本减半；Luna 在最低价位仍保留较强能力。新能力：从"单 Agent 推理"走向"多 Agent 协作" 两个值得注意的新机制： · Max reasoning effort：给 Sol 更深的推理预算。 · Ultra mode：超越单 Agent，通过 subagents 协同加速复杂任务。 Ultra 模式是本文最实质的能力跃迁信号——它把模型能力从"单个推理体"扩展到"协调多个 subagent 的系统"。在 Terminal‑Bench 2.1（命令行工作流基准）上，Sol Ultra 达到 91.9%，Sol 88.8%，而 Ultra 与非 Ultra 的差距本身说明"subagent 调度"带来了可观增益。三大领域基准：编码、生物、网络安全的"效率前沿"叙事 OpenAI 反复使用一个框架：性能—效率前沿（performance-efficiency frontier），即不只比分数，更比"达到同等分数需要多少 token"。 · 编码：Terminal‑Bench 2.1 新 SOTA。 · 生物学：GeneBench v1（长程基因组与定量生物学分析），Sol 比 GPT‑5.5 分数更高且 token 更少。 · 网络安全： · ExploitBench：Sol 用约 1/3 的输出 token 即可与 Mythos Preview 竞争。 · ExploitGym（UC Berkeley 联合前沿实验室）：三档模型随推理增强，能力同步提升。

译OpenAI 发布 GPT-5.6 系列有限预览，包括旗舰 Sol（$5/$30）、均衡 Terra（$2.50/$15）和轻量 Luna（$1/$6）。Terra 性能与 GPT‑5.5 相当但成本减半。新增 Ultra 模式，通过 subagent 协同加速复杂任务，Terminal‑Bench 2.1 上 Sol Ultra 达 91.9%（Sol 88.8%）。编码创 SOTA；GeneBench v1 中 Sol 比 GPT‑5.5 分数更高且 token 更少；ExploitBench 中 Sol 用约 1/3 输出 token 即可与 Mythos Preview 竞争。目前仅小范围预览，需配合美国政府监管审查。

jason@jxnlco · 5天前3

How many of you use heartbeat/thread automations in codex?

译你们中有多少人在codex中使用心跳/线程自动化？

jason@jxnlco · 5天前62

two skills that i love using if you use codex, press cmd+cmd ( left and right cmd buttons at the same time) and just say "make these two skills"

译两个我喜欢使用的技能如果你使用 Codex，按下 cmd+cmd （同时按左右两个 cmd 键）然后直接说"make these two skills"

小互@xiaohu · 5天前23

Codex 用量又被重置了最近Codex消耗特别快，官方说是他们的滥用和欺诈机制错误的标记了一些账号导致的bug 所以全体重置天天找理由重置😅

Berryxia.AI@berryxia · 6天前69

OpenAI终于憋不住了啊！ OpenAI正式发布了GPT-5.6系列，但目前只有有限预览。 Sol是旗舰版，据称在复杂命令行工作流和网络安全长时程任务上大幅领先。 Terra是性价比版，性能接近GPT-5.5但成本减半。Luna则是高吞吐低成本版。最受关注的是：这次发布明确提到“应美国政府要求”，目前只开放给一小部分受信任合作伙伴，普通用户和开发者暂时用不了。他们说几周后会逐步开放，但目前确实是受控发放。这已经不是单纯的技术迭代了，而是把前沿模型的访问权直接和政府审批挂钩。 Sol在agentic coding和安全相关任务上的提升听起来很强，但很多人现在只能先干瞪眼。

译OpenAI 正式发布 GPT-5.6 系列有限预览，包含三款模型：旗舰版 Sol（在复杂命令行工作流和网络安全长时程任务上大幅领先）、性价比版 Terra（性能接近 GPT-5.5 但成本减半）、高吞吐低成本版 Luna。发布明确提到“应美国政府要求”，目前仅开放给一小部分受信任合作伙伴，普通用户和开发者暂时用不了，计划几周后逐步开放。Sol 在智能体编码和安全相关任务上提升显著。