Grok Build daily updates

译Grok Build 更新至 v0.2.73，新增文本选择高亮保持设置，修复了 tmux 或编辑器终端中切换标签后出现重复行的问题，以及剪贴板复制只在通过可信路径接收文本时显示成功。

Claude最近实在没法用了，Opus 4.8幻觉问题爆炸，还总是莫名其妙出现一些别人的信息串到我的对话里，整个周末我代码都被幻觉问题改崩了好几次，每次任务做到一半就会被各种带偏，用Codex修到今天才把坑全部修完。忍无可忍了，重开了ChatGPT的200刀会员，重回Codex怀抱，坐等GPT-5.6。。。而且有一说一，Codex的远程控制体验真的吊打Claude N个数量级。

译用户反映 Claude Opus 4.8 幻觉问题严重，导致代码多次被改崩，且对话中频繁出现他人信息串扰。最终放弃 Claude，重新订阅 ChatGPT 200 美元会员（Codex），并称赞 Codex 远程控制体验远超 Claude。

eric zakariasson@ericzakariasson · 3天前46

its going to be a good model

译Elon Musk透露，Cursor团队为v9模型SFT & RL训练做出重大工程贡献。1.5T训练中已加入Cursor数据作为补充训练，而几周前开始的2T训练在数据范围和规模上大幅改进，并升级训练配方，预计7月底完成，8月发布。Eric Zakariasson表示这将是个好模型。

数字生命卡兹克@Khazix0918 · 3天前64

http://x.com/i/article/2071459685358792704 # 分享2个Vibe Coding必备的超实用Prompt。周末跟几个之前的老朋友吃饭。大家也都不由自主的聊到了AI，然后也聊到了Vibe Coding。因为几乎都不是专业的程序员，都是各个其他职业的，有基金经理、设计师、老师、产品经理、媒体人等等等等，所以大家也都说了蛮多自己使用Vibe Coding的心得，也聊了不少过程中遇到的坑。然后他们就问我，你几乎每天都在Coding，也写了那么多的教程和分享，问我说如果让你给大家安利几个Vibe Coding中最实用的小技巧，你觉得是什么。我当时还真的想了半天。最后，我想到了两个技巧，同时也是两个神级Prompt，是我觉得上至巨佬，下至萌新都有用的超级好用的东西： 1. 第一性原理。 2. 对抗式审查。可以说，我自己在这将近1年的Vibe Coding时间里，这两个词，绝对是我如今每天跟AI说的最高频词汇。前者管生成，后者管验证，基本能保证你在Vie Coding的时候，写出来的代码和最后的运行，有质的飞跃。其他的技巧当然也有用，比如我自己一直在说的约束先行、洁癖skill做文档迭代等等，这些也都是好东西。但如果你只能选两个，那我就选这两个，它们加在一起构成了一个完整的闭环，是我当今心目中Vibe Coding的两大基石，并肩站在一起的那种。然后给大家在饭桌上解释了一下，大家说，你不如写成文章吧，他们觉得还挺有用。所以，这篇文章就来了。也强烈给给大家安利一下这两个技巧。 1. 第一性原理这个技巧有多简单呢，就是你平时咋说就咋说，但是最后加一句“从第一性原理出发”就行。你相信我，加了这一句话后，你会发现Agent写方案的能力、找BUG的能力，都进化了一大截。举个我周末的例子。我自己做的AIHOT周五出了一个很严重的事故，就是我们的精选消息飞书推送出了BUG，导致周六凌晨，像OpenAI发布GPT-5.6这种大新闻，在飞书群里居然没有被推送。然后用户直接反馈，有的甚至都在别的消息卡片下面评论，我周六中午一醒，飞书的反馈提醒直接炸了，二十多条用户反馈。我就赶紧让Agent去修，他查了下跟我说，是因为之前测试一个国产模型的时候，OpenAI的抓取被那个国产模型给瞎改改坏了，所以断了三天，OpenAI的官网信源其实就一直没有抓取到，只不过今天才发现，让我修好就行。但是我当时有一种直觉，我寻思，这不对啊，这个背后，感觉有更严重的问题，这个修复，好像治标不治本。于是又补了一句，根据第一性原理来找一下原因。这一次，瞬间就不一样了。细节我就不太好说了，不过它找到了我们抓取海外信源的规则中的一个巨大的隐患，而且这个隐患非常的底层非常的深，是流量路由层面的，这个代码甚至都是今年4月中写的，只是因为那个国产模型瞎改代码，在表层上面做错了一个小点，然后把整个底层的流量路由问题都暴露出来了。我们当然可以非常简单的把OpenAI的抓取给单独修复一下，但是未来因为这个底层机制，未来你保不齐又有什么信源会出问题，你倒是可以再修再补，但是那就跟一艘破船一样，缝缝补补，最后堆成一座屎山，到时候再暴雷，那就真的会爆个天大的了。于是我花了半天时间，把这个底层的路由问题直接重构了，目前从机制上看，未来大概率就可以安心了。你看，一个是治表，一个是治本，这个差异，还是巨大的。这就是第一性原理的力量。在跟AI对话时，更是格外好用。社区里更是有朋友，把它称为神之Prompt之一。坦率的讲，现在的AI，很多都还是在做类比推理，跟人类一样，你跟它说写一个过滤函数，它会在训练数据里找到几万个类似的过滤函数，然后给你写一个符合你项目的看起来差不多的出来。这个过程很快，结果也能用，但它跳过了一个我认为最最最最最关键的步骤。就是，这个问题真的应该这么解吗？ “从第一性原理出发”这七个字，做的事情就是强制打断AI的类比推理，逼它回到问题的本质去思考，不要参考别人的方案，从最基本的事实出发，重新推导。这个道理亚里士多德两千多年前就说过了。然后马斯克把这套思维用在了SpaceX上。当时行业里所有人都说火箭发射就是得花几个亿，这就是所谓的行业共识。马斯克我觉得你在放屁，我们重新材料成本开始算起，铝合金、碳纤维、航空级燃料，这些原材料加起来才多少钱，你告诉我几个亿？然后SpaceX从这个数字出发重新设计整个制造流程，最后发射成本降了90%。 GitHub上甚至已经有人做了专门的skill，就叫first-principles。不过我觉得，你也没必要装什么Skill，不需要写什么System Prompt，你就在需要的时候，比如解决问题、修BUG、让AI帮你设计架构的时候，在你的Prompt后面加一句“从第一性原理出发”，相信我，这就够了。只要你的任务稍微复杂一点，这个Prompt几乎是万能的。神级Prompt，我觉得，当之无愧。 2. 对抗式审查这是我之前发现的，超级有用的一个审查Prompt。我现在只要做开发，最后的测试流程，几乎都必然是对抗式审查这句话了。第一性原理可以保证帮你找到好的方案、帮你找到BUG的真正的最本质的解法，但是他们没办法保证，开发完了以后，能稳定的上线。而这，就是这个Prompt去解决的试了，怎么保证AI写的代码确实没啥毛病。今年6月初的时候，也就是Claude Opus 4.8和动态工作流上线之后，我对AIHOT做了一次比较大的对抗式审查，就是纯找BUG。当时我印象中，开启了近40个Agent，跑了很久，然后找出了N个可能的风险。比如有一个叫OOM的死循环问题，就是后台worker如果处理一个特别大的任务时内存爆了，就会被系统杀掉，然后会自动重试，然后结果必然是又爆，又被杀，无限循环。对抗式审查从“如果我是一个恶意用户，我会提交一个50MB的HTML来搞崩你的worker”这个角度，把整条路径从入口到崩溃全走了一遍，找出了这个缺口，避免了后续一系列的风险，因为我后面信源加多了之后，还真的看到过100M的HTML。。。最搞笑的是还有一个未来时间污染的BUG。就是如果某个信源发布了一篇文章，但这篇文章的发布时间因为时区错误或者别的原因，显示的是未来的某个时间，比如明天，那这篇文章就会排到整个精选信息流的最前面，因为它的时间戳最新。它甚至还可能会被推送给用户，进入飞书群PUSH，进入RSS订阅，日报也会把它排在最前面。一篇来自未来的文章，就会把整个信息流都污染了。这种BUG你自己写代码的时候根本不会想到。但当你让AI站在我要用各种奇怪的数据来搞崩掉你的系统这个角度来审查的时候，它就会问，如果发布时间是未来怎么办？然后还有一堆乱七八糟的，比如因为HTML清洗模块的性能炸弹、翻译模块的同类隐患、部署探活的缓存穿透假阳性的各种奇奇怪怪的BUG。提前发现问题，提前解决，考虑到所有的情况，尽可能不让你的真实项目出现问题。毕竟我也不懂代码，我就是个废物，我只能依赖AI来帮我进行Vibe Coding，而大家也懂，Vibe Coding出来的东西，漏洞也是真的多，如果你不提前把这些问题全都考虑到，直接扔到线上，那伤害的，就是你的用户了，那就是真正的事故了。而对抗式审查，我强烈建议是，多开Agent进行对抗式审查。比如Claude Code我现在就很喜欢说：“开启Ultracode（也就是动态工作流，会有N个Agent进行并发）来对之前开发的功能进行对抗式审查。” Codex也可以，直接就说开启多Agent帮我进行对抗性审查就可以了，它会自动开好几个Agent的。极致且纯粹的攻防战。自从用了对抗式审查之后，我对自己代码和项目的信心反而变的很强了。写在最后我现在除了日常的开发外，我也几乎现在是每2到3周，定期对整个项目进行全局性的从第一性原理出发的对抗式审查。让Agent从最底层原理出发，去并发去审查架构、依赖关系、代码质量、文档对应等等，正好也可以用来去测试新模型的能力，也能整体review一下这两三周开发的功能，最好玩的是，每次都能挑出来之前没注意到的技术债和潜在风险。特别有意思。而且这些问题说实话，如果不主动去找，它们就会一直潜伏在那里，等到某天突然爆发。作为一个纯粹的不懂代码的小白，这个纯粹用Vibe Coding方式做出来的AIHOT，最近一周的请求量就超过千万，Skill的调用量也远远超乎我的预期，是网页端的10倍以上，虽然偶尔出一些小BUG，但是能稳定的为这么多用户提供服务，我心里还是很自豪的。而这两个Prompt，第一性原理和对抗性审查，居功甚伟。而且说实话，我觉得这两个东西的应用范围，也真的远不止Vibe Coding，远不止代码。它甚至是我们对待世界的处世哲学。你写完一篇文章，可以让AI帮你对抗式审查，它可能会从逻辑漏洞、事实准确性、论证力度多个维度来挑毛病，比帮我看看这篇文章怎么样有用太多了。你做完一个商业方案，让AI从第一性原理出发审视这个方案，它会剥掉你的所有假设，直接质问你的核心逻辑是否成立。你甚至可以在做人生决策的时候用这两套思路。比如，我要不要换工作，先从第一性原理想清楚自己到底想要什么，再用对抗式审查让AI专门找你思考中的盲点和你下意识回避的风险。因为这两个Prompt的核心逻辑，从本质上来说，跟具体领域无关，只是在Vibe Coding领域格外好用。第一性原理的核心就一句话，回到最根本的事实重新推导。对抗式审查的核心也就一句话，你永远需要一个站在你对面的力量来告诉你，你可能是错的。想想还挺浪漫的。相信我。这两种思维习惯一旦内化。你用AI的水平，会有一个质的飞跃。

译卡兹克分享Vibe Coding两个必备技巧：①“从第一性原理出发”——强制AI回归问题本质，曾助其发现AIHOT海外信源抓取底层路由隐患并重构；②“对抗式审查”——让AI从恶意用户角度测试，曾找出OOM死循环、未来时间污染等隐蔽BUG。作者建议每2-3周全局对抗式审查。当前AIHOT每周请求量超千万，Skill调用量为网页端10倍以上。两个技巧适用于任何需要验证与创新的场景。

Tibo@thsottiaux · 4天前50

As we are still investigating, I have reset everyone's Codex usage limits. This is a hard reset given some users had stacked up to three banked resets already that they can apply on their own schedule. Funnily enough, this week at OpenAI is called the RESET week, which is meant for folks to relax a bit. However it will be a different kind of RESET week. Enjoy.

译OpenAI Codex 团队周日进入作战室，梳理日志调查部分用户使用量异常增加的原因，并重置了所有人的 Codex 使用限制。此前一些用户已累积多达三个可自行安排的银行重置。这周 OpenAI 原定为“RESET week”（放松周），但团队将面对另一种形式的“重置周”。团队表示非常重视，不查明原因不会休息。

Tibo@thsottiaux · 4天前33

Codex team is in a warroom on a Sunday combing through logs and checking whether there is anything that could lead to increased usage drains for some users. Taking it very seriously and won't rest until we get to the bottom of it.

译Codex 团队周日待在作战室里，梳理日志，检查是否有任何可能导致部分用户使用消耗增加的情况。他们非常重视此事，不彻底查清绝不罢休。

宝玉@dotey · 4天前68

RepoPrompt 已经开源了，社区版（Community Edition）已上线 GitHub。背后的故事是这样的：几个月前，OpenAI 开发者体验负责人 Romain Huet 找到 Provencher，邀请他加入 OpenAI 团队。Provencher 答应之前提了一个条件，要先安排好现有付费用户。于是 Repo Prompt 先免费开放，现在彻底开源。 Repo Prompt 最初只做一件事：帮开发者从代码仓库里挑选文件，拼成一段高质量的 prompt，然后复制粘贴到 ChatGPT 或 Claude 里。听起来很简单，但它切中了一个真实痛点：把整个代码库丢给 AI 模型，效果往往很差，超过 32K token 的 prompt 甚至会让模型变笨，你需要精挑细选，只给模型看它真正需要的代码。这种做法现在有个正式名字叫上下文工程。开源版本的变化很大。Provencher 把架构做了一个反转：不再让应用本身去调度 agent，而是让内置的 MCP server 成为主控，底层的命令行工具（Claude Code、Codex、OpenCode、Gemini CLI）变成可以随时替换的执行层。这意味着你可以用一个推理模型做规划和任务分解，然后把子任务分发给不同的 agent 并行执行，每个 agent 只看自己负责的那部分文件。为了适应开源协作，很多老版本的手工拼 prompt功能被砍掉了，项目结构也从 Xcode 依赖中解耦出来，不需要装 Xcode 就能编译。贡献者管理借鉴了 libgdx 作者 Mario Zechner 的做法，维护一个白名单，之前的付费用户只要同意就自动成为认证贡献者。目前只支持 macOS，跨平台版本还在开发中，可以通过 Homebrew 安装（brew install --cask repoprompt-ce）。社区版：https://github.com/repoprompt/repoprompt-ce 老版本：https://github.com/repoprompt/repoprompt-classic

译RepoPrompt 已开源，社区版上线GitHub。作者Provencher被OpenAI招安，条件是为付费用户做好安排：先免费再开源，付费用户获赠Codex Credits。该工具从仓库挑选文件生成prompt，解决超32K token使模型变笨的问题，称为“上下文工程”。开源版反转架构：内置MCP server为主控，底层CLI工具可替换，支持推理模型规划并并行分发子任务。目前仅支持macOS，可通过Homebrew安装。

jason@jxnlco · 4天前75

This is the hot codex guy?!

译Andrew Ambrosino领导的OpenAI Codex桌面应用团队，自2月以来使用量增长6倍，周活跃用户超500万，且几乎所有OpenAI员工日常使用该应用。他的目标是打造“有史以来最好的桌面应用”。在访谈中，他讨论了OpenAI PM的“区域防守”运作模式、AI在设计中表现不佳的原因、Codex若去年11月发布（同产品但模型不同）可能失败、“品味”作为专业技能的意义，以及他用Codex运行工作流和对Codex+ChatGPT融合的愿景。

AYi@AYi_AInotes · 4天前57

这可能是今年 AI 编码最反常识的结论，跑了一整年生产环境的人告诉你，最好的 AI 编码环境根本不是你的笔记本。 Pieter Levels 用近一年的真实生产数据验证了这套玩法， Claude Code 常驻 VPS，Agent 直接在线编辑生产环境代码，传统本地编码加 Git 加部署的流程要一分钟迭代一个特性，现在改完刷新就能测，反馈循环直接压到秒级。十二个月生产环境跑下来只出过两次小故障，每次都是十秒级的 PHP 报错随即自愈，搭配严格的多份备份策略，风险完全可控。不用一直开着电脑，手机接个 SSH 就能续上任务，丢个目标指令 Agent 就能自己跑一整夜。真正的变化藏在表层玩法下面。第一是 Agent 的定位变了，从本地 IDE 的辅助插件，变成生产环境里常驻的执行者，代码和运行环境第一次贴得这么近。第二是速度的复利效应，对独立开发者来说不是快一点，是能同时跑更多实验更快验证想法，单位时间的试错次数直接拉开量级差距。第三是风险的标准变了，团队要合规走预发布环境天经地义，但 solo 开发者用备份兜底换极致效率，本来就是完全不同的取舍逻辑。第四是基础设施的方向反了，以前本地重云端只负责部署，现在云端成了主力开发加运行环境，本地设备只是个接入终端。 AI 编码的竞争早就不在谁补代码更快了，在谁先把 Agent 放进真正的生产环境里，让它成为永远在线的执行层。想试的朋友从非核心项目入手，配好快照和备份，门槛比想象的低很多。

译Pieter Levels 近一年几乎只用 Claude Code 在 VPS 上编码。Agent 直接在线编辑生产代码，迭代反馈从传统本地+Git+部署的约 1 分钟压至秒级。12 个月内仅出现 2 次十秒级 PHP 报错并自愈，搭配 3-2-1 备份策略风险可控。开发者无需常开笔记本，可通过手机 SSH 续接任务，Agent 能整夜自动运行。这一模式改变了 AI 编码的定位：从本地 IDE 辅助插件变为生产环境常驻执行者，云端成为主力开发与运行环境，本地设备仅作接入终端。

数字生命卡兹克@Khazix0918 · 4天前41

Claude Code闹鬼了？我也没手动叫停啊，我对话里更没说过要写一份详细的文档啊，这TM到底哪来的？？？这两天串信息感觉有点过于严重了吧，我的代码里经常会有莫名奇妙的改动，还TM能不能用了啊

jason@jxnlco · 4天前28

i wonder if theres a secret online forum where codexes post on how to best use their humans on the other side of the computer

译我想知道是否存在一个秘密在线论坛，Codex们在上面发帖讨论如何最好地使用他们电脑另一边的人类。

凡人小北@frxiaobei · 4天前41

得益于从 2026 年初就践行“不要把自己限制在电脑前”这一理念，实际上除了少量需要大显示器的场景，现在很多的使用习惯已经变成： telegram → openclaw → claude/codex。这一理念让我在各种场合都可以安排 AI 工作。很多人没有这么做，是因为没有一套适合自己的稳定的工作流。或者喜欢 claude 或者 codex 的输出（但是这些对我不重要）。所以构建个人的 harness 非常重要，构建个人的 skills 非常重要。舶来品不一定适合自己。

译小北分享自2026年初践行“不要把自己限制在电脑前”的理念，逐渐形成 telegram → openclaw → claude/codex 的工作流，在各种场景下都能安排AI工作。他认为多数人缺少一套适合自己的稳定工作流，构建个人harness和skills至关重要，舶来品不一定适合自己。同时引用 @theo 的推文，估计大约6个月内大部分开发者会将代码智能体从笔记本电脑上移走。

Berryxia.AI@berryxia · 4天前17

我特么还真想成为那1%的人，可惜我也不知道😄

译99%的人不知道的Claude Code分屏功能。如果你是Claude Code桌面端用户，一定要看看。原推主感叹：我特么还真想成为那1%的人，可惜我也不知道😄

🚨 AI News | TestingCatalog@testingcatalog · 4天前32

OpenAI is testing a new effort-selector UI for Codex as a slider. Besides that, it seems that real-time voice support will be completely reworked, as the previously available components have been removed.

译OpenAI 正在为 Codex 测试一种新的努力选择器 UI，采用滑条形式。此外，实时语音支持似乎将被彻底重写，因为之前可用的组件已被移除。

Orange AI@oran_ge · 4天前23

如果有一天程序员写代码的速度提升了10倍那程序员应该选择： 1. 写100倍的代码 2.用省下来的时间90%做稀缺的重要的事你的选择是1还是2？你的老板对你的要求是1还是2？

jason@jxnlco · 4天前64

http://x.com/i/article/2071134358359187456 # Two kinds of scheduled work in Codex You want Codex to do something later, or keep checking something until it changes. That sounds like one feature. It is actually two different kinds of work, and the difference is simple: - Scheduled Tasks create a new thread every time they run. - Scheduled Messages use the same existing thread every time they run. ## Use a Scheduled Task when every run can start fresh A Scheduled Task is best when the job makes sense without the conversation that created it. For example: Every morning at 9 AM, summarize what I need to catch up on from my email, calendar, and team messages. Tomorrow's summary does not need to remember today's summary. It needs the same instructions, current information, and a fresh place to report the result. ## Use a Scheduled Message when the next check needs the thread A Scheduled Message, sometimes called a thread automation or heartbeat automation, returns to the same existing thread each time it runs. For example: Check this PR every 30 minutes. If there are comments, address them and keep CI green. Stop when the PR merges. The next check depends on the work that already happened. The thread knows which PR you mean, which comments were addressed, what failed in CI, and what has changed since the last check. This is the right shape for: - polling for updates - checking for a status change - ongoing research or triage - work with a clear stopping condition The thread is the thing that connects the runs. ## Make your own loop skill Give Codex this prompt: Create a reusable loop skill for scheduled work. When I give it a request, first decide whether each run can start fresh or whether the next check needs the current thread's context. If each run can start fresh, help me create a Scheduled Task. If the next check needs the current thread, help me create a Scheduled Message. Infer what you can from the conversation. Ask only the missing questions that materially change the workflow: - What should Codex do each time? - How often should it run? - What change is important enough to report? - When should it stop? - When should it ask me for input? Then create the scheduled workflow with a short, durable prompt that will still make sense on a later run.

译Codex 支持两种计划工作方式。Scheduled Tasks 每次运行创建新线程，适合无需上下文延续的任务，如每日 9 点自动总结邮件、日历；Scheduled Messages 在同一现有线程反复运行，适合需要历史上下文的场景，如每 30 分钟检查 PR 状态并处理评论，直至合并。推文还给出创建可复用循环技能的提示词，让 Codex 自动判断使用哪种方式并引导用户填写关键参数。

jason@jxnlco · 4天前36

instructor 1.15.4 is out mostly a maintainer sweep: - fixed v2 list/scalar response models - preserved backticks in streamed JSON strings - Image.autodetect now handles raw bytes - refreshed stale docs model strings, including Ollama llama3.2 small patches, fewer weird edges

译instructor 1.15.4 发布主要是维护性扫除： - 修复了 v2 列表/标量响应模型 - 保留了流式 JSON 字符串中的反引号 - Image.autodetect 现在处理原始字节 - 刷新了过时的文档模型字符串，包括 Ollama llama3.2 小补丁，更少奇怪边缘

Tibo@thsottiaux · 4天前17

Sol when operating Codex. Circa 2026

译Sol 在操作 Codex 时。约 2026 年。

ginobefun@hongming731 · 4天前43

BestBlogs 早报 · 06-28 # GPT-5.6 / OpenAI / 政府审核访问 / 魏小康 / 组织建设 [1] ★ 精讲｜刚刚，GPT-5.6 正式发布，史上最强但被自己坑惨了 OpenAI 正式发布 GPT-5.6 系列：旗舰 Sol、均衡款 Terra、低成本 Luna。Sol 在 Terminal-Bench 2.1、GeneBench、ExploitBench 上刷新成绩，但 OpenAI 刻意强调它尚未跨越关键安全阈值，并按模型档位配置了强度递增的分级安全栈。比性能更值得注意的是发布机制本身：美国政府要求发布前展示能力，首批仅约 20 家获批合作伙伴可访问，个人用户暂时无法申请——前沿模型的发布节奏正被纳入国家安全框架。来源：爱范儿 https://www.bestblogs.dev/article/9a7132f3 [2] ★ 精讲｜唯一深度参与过字节、美团组织建设的人｜对谈 AI 创业者魏小康 [播客] 魏小康先后在字节（2017-2020）和美团担任招聘负责人，是少见的深度参与两家顶级公司组织建设的样本。他把组织建设拆成两件事：怎么让人运转（选用育励汰、文化薪酬职级），以及怎么让人和业务一起运转（目标拆解、分工协作）。他的非共识判断很硬：创业公司 80% 到 90% 的时间都该花在招聘上，而招聘里最重要的不是面试、谈 offer 最重要的也不是钱。对正在搭团队的 AI 创业者，这是一份关于把劲用对地方的一手经验。来源：42 章经 https://www.bestblogs.dev/podcast/4c4475e [3] ★ 精讲｜AI 普及正在压垮中层管理者哈佛商业评论访谈了两家咨询公司的 18 位合伙人、经理与初级顾问，得出一个反直觉结论：AI 落地的成败不在技术，而在中层管理者。88% 的组织已在至少一个职能用上 AI，却只有约四分之一真正产出切实价值，差距根源是工作流重构而非模型先进度。中层经理被夹在高管的雄心与一线的现实之间——既要教团队用 AI、又要替 AI 产出的成果纠错、还要在缺乏指引下揣摩上级口中那份所谓 AI 增强备忘录到底指什么。来源：http://HBR.org https://www.bestblogs.dev/article/e44268ef [4] 金融科技工程手册本手册提供了一套全面的工程模式，用于构建可信赖的金融系统，涵盖货币表示、账本记录和执行流程。来源：Hacker News https://www.bestblogs.dev/article/9b7ac3e7 [5] 别再写单一语气指令了，把它们分层 —— Isadora Martin-Dye，Isadora & Co [视频] 本文提出一种四层提示词堆栈架构来替代单一的语气指令，将品牌对齐视为一个结构性系统工程问题，而非提示词工程问题。来源：AI Engineer https://www.bestblogs.dev/video/f381041 [6] 上线 14 个月，Notion 关掉了自己的 AI 邮件产品 Notion 宣布关闭上线仅 14 个月的 AI 邮件客户端 Notion Mail，转向由 Agent 完全管理收件箱，这一决策折射出 AI 邮件赛道的根本转变：从优化用户体验的功能叠加，转向为 AI Agent 打造独立通信基础设施。来源：Founder Park https://www.bestblogs.dev/article/669cd820 [7] 我把自己的 IP 配图技能开源了顺手做了 31 个现成角色本文开源作者日常使用的 AI 配图技能「小互 IP Studio」，包含 31 个原创角色、多画风皮肤和一套配图方法论，让 AI 能自动读文章、规划配图并生成统一画风的插图。来源：小互 AI https://www.bestblogs.dev/article/cb2309c5 [8] 使用本地编码智能体关于使用开源工具（Ollama、Qwen-Code）和开放权重 LLM（Qwen3.6、North Mini Code）设置本地编码智能体的实用教程，包括安装步骤和性能基准测试。来源：Ahead of AI https://www.bestblogs.dev/article/6458a9db [9] Loop 不是 Agent 架构，Harness 才是本文批判将 loop 视为 Agent 核心架构的倾向，提出真正可靠的 Agent 系统应建立在包含边界、状态、验证、审计与恢复的 Harness 工程框架之上，而非简单的循环。来源：浮之静 https://www.bestblogs.dev/article/731e27c5 [10] Claude Code 工程负责人 Fiona Fung：如何打造全世界最 AI Native 的工程团队? Claude Code 负责人 Fiona Fung 分享如何打造 AI Native 工程团队：写代码不再是瓶颈，验证与衡量成为核心；招人分产品型 builder 和深度系统专家；管理动作通过常驻 Claude 实现自动化，强调高 agency 配高 accountability。来源：十字路口 Crossing https://www.bestblogs.dev/article/e67ff5dc --- http://BestBlogs.dev · 发现真正适合你的高质量内容 BestBlogs 是 AI 驱动的私人阅读助手，帮助你发现真正适合你的高质量内容，欢迎体验。在线阅读：https://www.bestblogs.dev/explore/brief/2026-06-28

译OpenAI 发布 GPT-5.6 系列（旗舰 Sol、均衡 Terra、低成本 Luna），在 Terminal-Bench 2.1、GeneBench、ExploitBench 刷新成绩，

Tibo@thsottiaux · 4天前36

Tons of improvements landed in Codex. - Handles super long threads smoothly. - Hoverable navigation rail for previewing and jumping between turns that feels just right. - Settings search covers more controls, with clearer appearance and host-filtering options and easier-to-find custom-provider settings. - Zoom-level changes no longer misalign tooltips, dialogs, menus, selection bubbles, drag previews, or autocomplete. - Copying into Slack preserves Markdown formatting such as bullets, bold text, code, and links; and large text pastes no longer freeze the UI. - And most importantly: a dedicated Pets panel.

译Codex 本周推出多项体验改进。超长线程处理更流畅，导航栏悬浮可预览和跳转对话回合。设置搜索覆盖更多控制项，外观与主机过滤选项更清晰，自定义提供商设置更易找到。缩放时工具提示、对话框、菜单等不再错位。复制到 Slack 保留 Markdown 格式，大文本粘贴不冻结 UI。此外还新增了专属 Pets 面板。

jason@jxnlco · 5天前12

should codex have a `/loop` slash command, or do you know how to prompt a heartbeat /thread automation alreay?

译codex 应该有一个 `/loop` 斜杠命令吗，或者你已经知道如何提示心跳 / 线程自动化了？

Peter Steinberger 🦞@steipete · 5天前48

wouldn’t that also make the tools better for humans

译软件开发社区提出，CLI工具的错误输出应直接面向AI编码智能体，而非仅显示“Error:”。引用@southpolesteve的提议指出，错误消息应包含问题原因、调查方法、如何生成脱敏复现以及发送至何处。这将使每一次失败的智能体交互成为高质量bug报告，智能体自行发现并修复bug，形成软件改进的良性循环。主推文作者Peter Steinberger认为，这一做法也会让工具对人类开发者更好。

Rohan Paul@rohanpaul_ai · 5天前64

A Japanese dev spotted the trick: ask Claude Code to automatically Find Skills. Can match your goal to the right tool, using Vercel’s skills CLI across Claude, Codex, Cursor, and Gemini. so install skill like dev tools rather than rewritten by hand

译一位日本开发者发现了这个技巧：让Claude Code自动查找Skills。可以跨Claude、Codex、Cursor和Gemini，使用Vercel的skills CLI将你的目标匹配到正确的工具。所以像安装开发工具一样安装skill，而不是手动重写。

Tibo@thsottiaux · 5天前13

The night is young and full of Codex

译夜晚还早，满是 Codex。

jason@jxnlco · 5天前41

Codex Auto review mode as I asked it to dm a coworker my .env file

译Codex Auto review mode，当我让它给同事发送我的.env文件时。

AYi@AYi_AInotes · 5天前63

卧槽，Claude Code 桌面版这波更新太懂开发者了，原生多会话拖拽分屏，直接把并行 Agent 工作流的效率拉满了🤯 以前跑多个 Claude Code 会话得靠 tmux，开一堆终端窗口来回切，管理混乱进度也看不清。现在官方直接把多路复用器做进了桌面应用里，所有会话在左侧侧边栏统一管理，拖拽就能排成并排窗格，一个窗口同时看几个 Agent 干活。核心用法很清晰： 1. 桌面 App 里开多个会话，不同项目不同子任务都能分开。 2. 自由拖拽排列窗格，支持单独弹出新窗口。 3. 内置终端，文件编辑器，预览面板都能一起分屏排布。 4. 底部同时显示多个会话的输入区，随时切换输入。相当于把终端里的黑盒并行，变成了可视化的多任务工作台，所有进度一眼全览，不用再来回切窗口找上下文。放在以前这得靠第三方工具折腾半天，现在官方直接把并行 Agent 工作流的原生基建递到你手里，已经更了桌面版的可以直接去试试，体验提升比预想的大很多。 https://x.com/LLMJunky/status/2070733200846909717/video/1

译Claude Code 桌面版更新，支持原生多会话拖拽分屏，将并行 Agent 工作流可视化。用户可在桌面 App 中开多个会话，左侧侧边栏统一管理，拖拽即可排列并排窗格，支持单独弹出窗口。内置终端、文件编辑器、预览面板均可分屏排布，底部同时显示多个会话的输入区。相比此前依赖 tmux 和终端窗口切换，效率大幅提升。

OpenAI Developers@OpenAIDevs · 5天前52

🆕 Codex quality-of-life updates landed this week Starting with long threads: scrolling is smoother now, and your place stays put as you move through the conversation.

译🆕 Codex 质量提升更新本周发布。从长线程开始：滚动现在更流畅，并且在浏览对话时你的位置保持不变。

宝玉@dotey · 5天前61

现在 Codex/Claude Code 的上下文压缩确实做的挺好了，加上 Prompt Caching，一个 Session 内持续聊没那么大成本压力了。我现在也越来越多的在一个会话内继续任务。另外还有两个配套功能是很好的： 1. fork，就是从某一个对话位置开分支，只保留该对话前面的历史记录，让上下文更纯粹 2. /btw或者/side，在当前会话中提问，通常用于你想起来一件跟当前任务关系不大的事，没必要加入当前上下文中。比如说使用 plan 模式时，你要回答一堆问题，但是这些问题选项说的不是很清楚你也不知道该选什么，这时候最适合用 /btw 让详细解释一下每个选项的意思，甚至还可以让它给你建议。

译@dotey 表示当前 Codex/Claude Code 的上下文压缩已做得很成熟，加上 Prompt Caching，单 session 内持续对话成本不高。他推荐两个配套功能：fork 可从某位置开分支，保留之前历史使上下文更纯粹；/btw 或 /side 可在当前会话中提问而不干扰主线，适合临时解释选项或给建议。引用 @reach_vb 称自 GPT 5.3 Codex 后不再担心上下文，Codex 能压缩并记住关键信息，还支持分支出新线程，这也是 /goal 命令有效的原因。

AK@_akhaliq · 5天前56

hf-claude lets you use over 100 open models in claude code including glm 5.2, minimax-m3, deepseek v4 pro

译hf-claude 让你在 Claude Code 中使用超过 100 个开源模型，包括 GLM 5.2、MiniMax-M3、DeepSeek V4 Pro。

Berryxia.AI@berryxia · 5天前66

这个包装成线下课，不得卖个9998 啊！这属于Codex 大集锦了，非常全面了～

译@gengdaJ 近日发布Codex玩法全集，涵盖变现、入门、记忆系统、Agent开发、工具集成、Computer Use实战及产品对比七大板块。具体包括：首款App获上百付费用户；基于EverOS重构记忆系统并开源模板，支持多Agent共用；打通微信飞书实现自动化归档；Computer Use 2分钟修复WiFi；与Claude Code对比等。该合集被评论可直接包装为9998元线下课程。

Rohan Paul@rohanpaul_ai · 5天前50

LLMs can learn better coding behavior from problems with no known answers. Many real problems do not have a gold solution waiting in a database, especially in optimization, where the best answer may be unknown, expensive, or impossible to certify. Normal reinforcement learning works well when it can check a clear right answer, but that breaks down when the best answer is unknown. The paper’s method, called RiVER, lets the model write several programs, runs them on the same hidden tests, and rewards the programs that perform better than the others. The key trick is that RiVER does not trust raw scores directly, because some test cases naturally produce much bigger numbers and can distort training. Instead, it ranks programs within each test case, gives extra weight to the best one, and still gives smaller graded feedback to other valid programs. The authors trained models on 12 AtCoder Heuristic Contest tasks, and RiVER improved both score-based contest performance and normal pass-or-fail coding benchmarks. ---- Link – arxiv. org/abs/2606.27369 Title: "Reinforcement Learning without Ground-Truth Solutions can Improve LLMs"

译论文提出RiVER方法，让LLM从没有已知标准答案的问题中学习编码行为。RiVER使模型编写多个程序，在相同隐藏测试上运行，奖励表现较优者。关键是对每个测试用例内的程序排序，给最优者额外权重，其他有效程序也获得较小分级反馈，避免因原始分数数值差异扭曲训练。在12个AtCoder Heuristic Contest任务上，RiVER同时提升了基于分数的竞赛表现和常规通过/失败编码基准测试。arXiv:2606.27369。

jason@jxnlco · 5天前6

How many of you use heartbeats/thread automations in codex?

译你们中有多少人在codex中使用heartbeats/thread自动化？

jason@jxnlco · 6天前3

How many of you use heartbeat/thread automations in codex?

译你们中有多少人在codex中使用心跳/线程自动化？

jason@jxnlco · 6天前62

two skills that i love using if you use codex, press cmd+cmd ( left and right cmd buttons at the same time) and just say "make these two skills"

译两个我喜欢使用的技能如果你使用 Codex，按下 cmd+cmd （同时按左右两个 cmd 键）然后直接说"make these two skills"

Logan Kilpatrick@OfficialLoganK · 6天前60

Say hello to design variations in @GoogleAIStudio, make an app, iterate on it, then explore variations to take your idea in new directions : )

译向 @GoogleAIStudio 中的设计变体说声你好，制作一个应用，迭代它，然后探索变体，将你的想法引向新方向 : )

jason@jxnlco · 6天前37

Culture is a collection of sacred people, sacred objects, and sacred rituals. Tibo and the reset button is the culture

译Codex 所有用户将获得免费使用量重置，预计几小时内到账。已采取缓解措施，调查未发现大规模影响。

Tibo@thsottiaux · 6天前41

We are giving all Codex users a usage reset on the house. Should be showing in your accounts in the next few hours. We have applied some mitigations, but our investigation hasn't shown users being impacted at large. We are continuing to monitor the situation.

译Codex 团队发现部分账户出现用量消耗异常加快的问题，怀疑是滥用与欺诈防护机制过度标记所致。作为回应，团队为所有 Codex 用户免费重置一次用量额度，预计数小时内到账。目前已完成部分缓解措施，调查未显示用户大面积受影响，团队将继续监控。

Rohan Paul@rohanpaul_ai · 6天前45

Nobody is using vibe coded apps 🤔🤔 App releases have jumped hard, but the demand signals are moving the wrong way. -- Image from FT ft .com/content/8e9ae7a4-7209-4e2c-aa36-f3af77d6ce1f?syn-25a6b1a6=1

译没有人使用 vibe coded 应用 🤔🤔 应用发布量大幅增长，但需求信号却向错误方向移动。 -- 图片来自 FT ft .com/content/8e9ae7a4-7209-4e2c-aa36-f3af77d6ce1f?syn-25a6b1a6=1

Rohan Paul@rohanpaul_ai · 6天前60

MIT study. Code volume surges by 300%, but output increases by only 30%: The AI dividend meets an awkward reality. They studied 100,000+ GitHub developers and find that AI coding agents massively increase code production, but much less of that work becomes shipped software. Autonomous AI coding agents raised commits by 180%, but releases rose only 30%. The paper’s main idea is that software production has weak links, so faster code writing does not help as much when humans still need to review, connect, test, package, and ship the work. The authors also check app marketplaces and find more new apps, but no increase in total usage, which means more software appeared without clear evidence that users adopted more software. The marketplace evidence points the same way: more new apps appeared, but total usage did not rise. The authors compare more than 100,000 GitHub developers before and after they start using 3 generations of AI coding tools, from autocomplete to more independent coding agents. Autocomplete raised commits by 40%, interactive coding agents raised them by 140%, and autonomous coding agents raised them by 180%. The 180% commit gain shrank to 50% for the number of projects and 30% for actual releases. The estimated "elasticity of substitution" is 0.25 i.e. for every big improvement in AI’s usefulness, only a small amount of human work can be replaced. Because AI can write code faster, but humans are still needed to decide what to build, check if the code works, connect it with the rest of the product, fix messy edge cases, and actually ship it. --- papers .ssrn.com/sol3/papers.cfm?abstract_id=6859839

译MIT 论文分析 10 万+ GitHub 开发者使用三代 AI 编码工具的效果：自动补全使提交量增 40%，交互式智能体增 140%，自主智能体增 180%，但项目数仅增 50%，实际发布仅增 30%。应用市场同样出现新应用激增但总使用量未升。核心原因：软件开发存在弱环节——人类仍需决定功能、审查代码、测试、集成与发布。替代弹性估算仅 0.25，即 AI 能力大幅提升时，只有少量人类工作可被替代。

Deedy@deedydas · 6天前60

We hosted an intimate event on Agentic Engineering in SF with speakers at the forefront of AI yesterday. Three big lessons I took away: – @steipete: I now force contributors to OpenClaw to use a skill that pushes their prompt history of the code change to find signal in noise, to avoid often bad PRs that are 10,000 lines from a prompt “fix this” – @trq212: I used Claude to be a video editor to create a launch video with visuals, while having it interactively teach me about color grading as it did the edits. I didn't even know it could do that! Getting the most out of a model is finding your unknown unknowns. – @georgepickett: I spend a lot more human energy on crafting a plan upfront and getting all my clairfications answered upfront before leaving Codex to spin for days, armed with Ousterhout’s coding principles as a skill, on a well-crafted /goal We had about ~30 odd people including some recognizable names like Theo (@theo), Gergely (@GergelyOrosz), Andy (@andykonwinski), Jerry (@MillionInt), Dave Morin (@davemorin), Patrick Hsu (@pdhsu), Eric (@ericho), Bucky (@buckymoore), Joff (@mejoff) with a surprise visit from cricketer Robin Uthappa (@robbieuthappa) We were graciously hosted by @timshi_ai at his house and cohosted with @GregKamradt. Videos will be up soon! If you're interesting in coming to these, give me a shout in comments or in DM. (also incredible to see how huge the ClawFather is in the flesh)

译昨天在旧金山举办了一场Agentic Engineering小型活动，三位演讲者分享关键经验：@steipete强制OpenClaw贡献者使用技能，将代码变更的提示历史推送以过滤噪声，避免低质量PR；@trq212利用Claude作为视频编辑器制作启动视频，同时学习调色；@georgepickett在让Codex运行前花大量精力制定详细计划，结合Ousterhout编码原则作为技能。活动约30人参加，包括Theo、Gergely等知名人士，视频将很快发布。