我赌codex明天会重置额度

Tibo@thsottiaux · 5月29日20

Codex Thursday has exceptionally moved to another day. Friday it is.

译Codex Thursday 异常改期至另一天。周五见。

Ethan Mollick@emollick · 5月29日61

Claude really can roleplay an economist. I love this little comment Claude made after some robustness checks on the paper it wrote: "On a 1–10 identification scale, I'd now put the paper at about 4.5 — better than the 3.5 I'd have given before these tests, but well short of quasi-experimental (~7). The framing "conditional association consistent with…" is still the right calibration. I shouldn't claim causal identification."

译Claude Opus 4.8 在 Claude Code 中基于匿名研究数据自主撰写学术论文，经由 GPT-5.5 Pro 担任审稿人并指出错误后，Claude 对论文质量进行了量化自评：在1-10的识别度量表上，其稳健性检验后的评分从之前的3.5分提升至4.5分，但认为仍未达到准实验水平（约7分）。因此，Claude 将论文定性为“条件关联一致”的谨慎表述，而非声称因果识别。

Ethan Mollick@emollick · 5月29日56

Interesting that the GPT-5 Pro series models have consistently been the best models for single-shot attempts at the hardest problems since last summer. There has been no real competition in all that time.

译有趣的是，自去年夏天以来，GPT-5 Pro系列模型在单次尝试解决最难问题方面一直是最强的模型。这段时间内没有真正的竞争。

Ethan Mollick@emollick · 5月29日74

I had Opus 4.8 in Claude Code write a sophisticated, if minor, academic paper from a archive of hundreds of de-identified research files from years ago I had to use GPT-5.5 Pro as a reviewer, it spotted one major error & some minor points. Opus corrected https://embeddedness-gradient.netlify.app/

译我让 Claude Code 中的 Opus 4.8 从数百份多年前的匿名研究文件中，撰写了一篇虽小但复杂的学术论文。我不得不使用 GPT-5.5 Pro 作为审稿人，它发现了一个主要错误和一些次要问题。Opus 已修正。

Chubby♨️@kimmonismus · 5月29日54

Opus 4.8 is clearly a strong model, but my impression is that Anthropic is increasingly playing catch-up with OpenAI rather than setting the pace. It feels like GPT-5.5 has shifted the benchmark again, and if OpenAI keeps this trajectory, GPT-5.6 could very plausibly become the stronger overall model. Initial testing is that 4.8 is good-ish

译Opus 4.8显然是个强模型，但我的印象是，Anthropic越来越像是在追赶OpenAI，而不是引领节奏。感觉GPT-5.5再次改变了基准，如果OpenAI保持这个轨迹，GPT-5.6很可能成为整体更强的模型。初步测试显示4.8表现尚可。

🚨 AI News | TestingCatalog@testingcatalog · 5月29日46

Codex on ChatGPT for Android now supports Pets! Users can enable chat bubbles to follow remote Codex threads in the overlay. > Pet avatar is expected to sync with the one configured on the desktop. h/t @BartokGabi17

译ChatGPT安卓版的Codex现在支持宠物功能！用户可以启用聊天气泡，在悬浮窗中跟踪远程Codex线程。 > 预计宠物头像将与桌面端配置的头像同步。 h/t @BartokGabi17

Rohan Paul@rohanpaul_ai · 5月29日78

After today's raise of $65 B, Anthropic is currently is more valuable than OpenAI. Anthropic: $965B (post-money, May-28-2026) OpenAI: $852B (post-money, Mar-31-2026)

译Anthropic完成650亿美元H轮融资，投后估值达9650亿美元，已超越OpenAI此前8520亿美元的估值。本轮融资由Altimeter Capital、红杉资本等领投，三星、SK海力士等作为战略基础设施合作伙伴加入。Claude的年化营收已突破470亿美元。此轮距离其三个月前300亿美元的融资估值大幅增长。

Greg Brockman@gdb · 5月29日61

How @CGRTeams is working with @OpenAI to improve motorsports performance:

译CGRTeams如何与OpenAI合作提升赛车运动表现：

Yuchen Jin@Yuchenj_UW · 5月29日17

Reached 150k followers today. I was at 100k just 3 months ago. Apparently my follower count follows LLM scaling laws. Thank you for enjoying my rants while AGI is near. Even more exciting: Opus 4.8 releases today, and maybe GPT-5.6 as well?!

译今天粉丝数达到15万。 3个月前才10万。显然我的粉丝数遵循大模型缩放定律。感谢大家喜欢我的吐槽，AGI即将到来。更令人兴奋的是：Opus 4.8今天发布，也许GPT-5.6也会？！

OpenAI@OpenAI · 5月29日43

R&D Part 1: Here to Win

译研发第一部分：志在必得

Berryxia.AI@berryxia · 5月29日25

我们不八卦了，来点干的。 Claude Opus 4.8 VS ChatGPT 5.6 发售在即。受挫期待住了，看看能不能有惊喜啊！周末又要熬了~~~

Deedy@deedydas · 5月28日70

ChatGPT had 80% of global AI users six months ago. Today it’s 60%. Consumer AI is no longer a one-horse race. Here’s a break down. In that time, Gemini grew from ~20% to ~50% of ChatGPT's unique users. Claude grew from ~3% to ~20%. In fact, Claude is the fastest growing website in the top 100 last quarter, followed by DeepSeek (#78, 105%) and Cricbuzz (#52, +69%). Global website rankings: – ChatGPT #5 (+11%QoQ) – Gemini #15 (+27% QoQ) – Claude #36 (+255% QoQ) Active users: Gemini has publicly reported 900M monthly active users and ChatGPT as 900M weekly active users. This number counts native desktop and mobile, so I (naively) use a multiple to scale up web traffic from SimilarWeb. This implies: — ChatGPT: ~900M WAU, ~1.5B MAU — Gemini: ~500M WAU, 900M MAU — Claude: ~150-200M WAU, ~250-300M MAU Geographically, Gemini has significantly caught up in non-English speaking countries, with 65-70% of ChatGPT in India, Brazil, Japan, Indonesia, Korea and Vietnam while Claude in particular ironically shows remarkable growth in China (!). VCs often ask startups "What if Google decided to do this?" and usually it's the wrong question. But when Google does indeed decide to put the full force of a company behind something, they're formidable. This market is starting to look a lot less "winner takes all" and a lot more like cloud market (AWS/Azure/GCP) or wireless market (Verizon/AT&T/T-Mobile) with 3 dominant players: a triopoly.

译消费级AI市场格局发生显著变化。ChatGPT在全球用户中的份额从半年前的80%下滑至60%。同期，Gemini用户数增至约为ChatGPT的50%，Claude份额从约3%增长至20%。在网站流量方面，Claude是上季度增长最快的百强网站。活跃用户数估算显示，ChatGPT周活跃用户约9亿，月活跃用户可能达15亿；Gemini月活跃用户为9亿；Claude月活跃用户约为2.5-3亿。在印度、巴西等非英语国家，Gemini用户数已接近ChatGPT的65-70%，而Claude在中国增长尤为显著。市场形态正从“赢家通吃”向类似云计算或电信市场的三方垄断演变。

OpenRouter@OpenRouter · 5月28日69

TIP: You can use Flex and Priority tiers for supported models (OpenAI, Google Vertex, & more) Pricing available on each model page. Docs: https://openrouter.ai/docs/guides/features/service-tiers

译提示：您可以为支持的模型（OpenAI、Google Vertex 等）使用 Flex 和 Priority 层级。定价信息请查看各模型页面。文档：https://openrouter.ai/docs/guides/features/service-tiers

Noam Brown@polynoamial · 5月28日62

After AlphaGo, the skill of human Go players noticeably improved. I suspect we will see a similar pattern in math.

译AlphaGo之后，人类围棋选手的水平显著提升。我怀疑我们将在数学领域看到类似的模式。

Chubby♨️@kimmonismus · 5月28日30

Hold on, Anthropic and OpenAI releases incoming? No way

译等等，Anthropic和OpenAI都要发布新东西了？不可能吧

Tibo@thsottiaux · 5月28日63

Excited to see more independent benchmarks like that which are not contaminated (trained on by major models).

译新发布的独立基准测试 DeepSWE 结果更贴近开发者日常体验。测试显示，在编程任务上，GPT-5.5 得分为 70%，而 Claude Sonnet 得分为 32%，两者差距显著。DeepSWE 聚焦于 AI 智能体在真实工作流中的核心能力，即能否仅凭简短提示词，准确定位代码库并干净地完成修改，无需用户列举具体文件。原文指出，这验证了许多开发者长期以来的观察，并批评了 SWE-Bench 因数据集污染和验证机制较弱而常无法反映真实能力的问题。

Tibo@thsottiaux · 5月28日11

I am having fever dreams about the future of ChatGPT and Codex. But it it will be beautiful.

译我正发着高烧，梦到ChatGPT和Codex的未来。但它将会是美好的。

Greg Brockman@gdb · 5月28日33

please report any ChatGPT bugs in the thread below — team (and codex) working super hard to resolve them:

译请在下方线程中报告任何 ChatGPT 漏洞——团队（和 Codex）正在全力解决：

向阳乔木@vista8 · 5月28日67

http://x.com/i/article/2059821245093560320 # AI越强，人越忙：一个住在未来的人说了什么著名PM人Lenny访谈了Every公司的CEO，很多观点犀利且反共识，让AI写一篇总结。 > 原始视频：https://www.youtube.com/watch?v=4D3hDmGhFhA 一家 30 人的公司，全员 AI 重度用户，人人用 Codex 和 Claude Code 干活。按理说，这种公司应该越来越精简才对。但过去一年，他们的员工人数翻了一倍。这家公司叫 Every，CEO 叫 Dan Shipper。他不是在硅谷的实验室里预测未来，他是真的住在未来。工程师、编辑、销售、客服，所有人都在用最新的AI工具干活，然后 Dan 会把他们实战的经验和观察写出来。去年他说 Claude Code 被严重低估，没人信，后来 Anthropic 围绕这个方向建了整个产品线。所以当他说"AI 越强，人反而越忙"，值得认真听一听。 ## 自动化是个谎言 Dan 说这不是在抱怨，他是在描述一个他亲身经历的悖论。他自己做了一个Benchmark，叫"高级工程师基准测试"。起因很狼狈：他把自己的写作工具 Proof 用 vibe coding 做出来，上线第二天服务器每隔 10 分钟就崩一次。他让 Codex 修，Codex 说修好了，然后又冒出四个新 bug，循环往复，一晚上没睡着。后来他请了两位真正的高级工程师，分别独立重写了这个代码库。于是他有了这个"高级工程师基准测试"：让 AI 接手同一个烂摊子，从头重写。结果：几乎所有模型得分在 30 分左右。人类高级工程师能到 85 到 90 分。 GPT-5.5 是唯一的异类，跳到了 62 分。而且它是唯一一个真的敢推倒重来的模型，其他模型接到"去修这些 bug"的指令，就真的去一个一个修 bug 了。人类高级工程师会怎么做？他会先扫一眼代码库，然后说："这玩意儿是坨屎，我们得重写，我知道你不想听，但就是这样。" 他自己判断出来的。模型能解决被定义清楚的问题，但"发现这个问题需要被重新定义"这件事，模型还不会主动做。基准测试的分数在涨，但它永远只能测量人类已经想清楚、能打分的那部分工作。剩下那部分，没法打分，因为你得先想到要问这个问题。这就是为什么 Every 的人越招越多。每一个 Agent 背后，都需要一个真正关心它在做什么的人。自动化没有消灭工作，它创造了新的工作：管理自动化本身。 Dan 把这叫做"每个 Agent 都需要一个人"。 ## 工作会分裂成两种形态 Dan 的预测是：未来一年内，大多数人的工作方式会朝两个方向同时演化。第一种：公司共用一个超级 Agent。不是每个人一个私人助理，而是整个公司共用一个 Agent，挂在 Slack 里，所有人都能调用。 Shopify 已经有了，Ramp 也有了。 Dan 最初以为每个人都会有自己的私人 Agent，像《黄金罗盘》里每个人肩上的精灵，是灵魂的一部分。 > 黄金罗盘一口气解读版 https://www.bilibili.com/video/BV156421c74o/ 他对这个图景着迷了很久，然后彻底改变了看法。原因很简单：Agent 需要有人照料它。 OpenClaw 刚出来的时候，Every 所有人都兴冲冲地设置了自己的 Agent，然后一个个放弃了。因为它会坏，要 SSH 进服务器，要不停地调整，大多数人坚持不了多久。一旦没人关心它在做什么，它就会悄悄变得没用。所以现实的路径是：先有一个公司级别的通用 Agent，由专人负责维护，再随着模型变得更可靠，逐渐向下分裂出团队级别、个人级别的 Agent。这个专门负责维护 Agent 的人，Dan 叫他"前沿部署工程师"，Every 内部已经有这样的岗位了。 > 前沿部署工程师模式（Forward Deployed Engineer，FDE）起源于Palantir，其核心在于通过“驻场工程师+业务专家”的协同模式，将技术能力与业务需求深度融合. 第二种：Codex 或 Claude Code 成为新的工作操作系统。这是 Dan 更兴奋的部分，也是更难一句话说清楚的部分。他现在处理邮件的方式是：让 Codex 打开内置浏览器，把所有邮件聚合到一个页面，然后他对着屏幕说话。 "这封律师的问题，去把过去四年的文件整理成报告发过去。" Codex 就去做了。他已经连续 10 天保持收件箱清零，这对他来说是从没有过的事。写文章也一样。他在 Codex 的内置浏览器里打开 Proof，Codex 能看到他在写什么，他也能看到 Codex 在做什么，两者实时协作。招人也是，他想找一个在 General Assembly 做过技术教育、现在又对 AI 感兴趣的人，直接跟 Codex 说。然后他就做别的事了，回来发现 Codex 找到了一个完全符合条件的人，还在 Twitter 上关注了他。 Dan 直接发了私信，约了顿饭。过去我们把 AI 嵌进 SaaS 工具，未来是把 SaaS 工具放进 AI Agent 里跑。他在 Codex 里用 Proof，用的是他自己的 token，不是 Proof 这个产品的 token。 SaaS 厂商不需要烧钱堆 AI 功能，用户把 AI 带过来，SaaS 只需要让自己对人和 Agent 都友好就够了。利润率反而可能回升。 ## CLI 时代已经结束了 Dan 说得很直接：CLI 的时代过去了，我们把它速通了。 Claude Code 火起来的时候，很多人以为是终端命令行的魔力让它好用。 Dan 认为这个判断是错的。真正的原因是 Agent 在本地机器上有完整的访问权限，以及网上有大量关于如何使用终端的内容，让模型学得很好。这和 CLI 本身没什么关系。 Every 内部，大多数技术人员已经不把终端当主要工作界面了。偶尔还会切进去，但主战场是 Codex、Claude Code、Cursor 这些有真正界面的工具。 GUI 本来就是为了让人更舒服而发明的，这个逻辑没有变过。 ## SaaS 不会死，Agent 会给它带来更多用户 Dan 说他现在会买 SaaS 股票。大家都在说 Agent 会让人绕过 SaaS，直接用 AI 干活。但 Dan 的观察是反过来的：Agent 不会替代 SaaS 的用户，它会成为 SaaS 新的用户。 Every 内部人人都用 Codex 和 Claude Code，但他们的 SaaS 支出比去年还高。因为 Agent 在用 SaaS，大量的 Agent，高频次地调用。需求在爆炸，不是萎缩。他还提到一个细节：Every 的 Proof 是开源的，用户遇到问题，不是自己发邮件给客服，而是他们的 Agent 直接发一份 bug 报告，里面有精确的复现步骤，有对代码库的分析，直接变成 GitHub issue，然后 Every 的 Agent 去修。这个闭环，比任何人工客服流程都快。对 SaaS 公司来说，真正需要做的事情变了：不是把 AI 塞进自己的产品，而是让产品同时对人和 Agent 友好，两者能在同一个界面上协作，各自看到对方在做什么。 ## PM 和设计师，迎来最好的时代 Dan 对这两个角色极度看好。 Marcus，PM 出身，之前在 Axios 负责写作产品，带大团队做到了几千万 ARR。后来他休息了一年，专门学会了用 Cursor。现在他在 Every 负责写作应用 Spiral，是团队里出货最快的人之一。 Dan 说，哪怕一年前，他们也没办法安排 Marcus 做这个工作，因为那时候模型还不够好。但现在，Marcus 的产品感和用户洞察，配上足够好的编程模型，变成了一种超强组合。他不需要组织一整个团队来实现自己的想法，他直接去做。设计师也一样。以前最大的痛苦是：想到了一个绝妙的交互，工程师不想做，或者做出来不是那个味。现在他们可以自己发 Pull Request，自己把想法变成现实。而且，当所有人都在用 vibe coding 批量生产千篇一律的界面时，真正懂审美、懂交互的设计师反而更值钱。能让东西看起来不像 AI 做的，本身就是一种稀缺能力。 ## AI 不会让你失业，但不用 AI 会 Dan 的判断是：大规模失业不会发生。那些被归因于 AI 的裁员，大多数是过度招聘的修正，AI 只是一个方便的借口。但这不意味着可以躺平。他给出的建议只有一条，叫"骑上（驾驭）模型"。不是因为 FOMO，不是因为害怕，而是因为好奇。每次有新模型出来，把它用在你真正在乎的事情上。哪怕上次试过不行，这次再试一次看看。他自己就是这么做的，GPT-5.5 出来，他把高级工程师基准重新跑了一遍，从 30 分跳到了 62 分。他还说了一件让人意外的事：AI 的真正前沿不在旧金山，而在每一个把 AI 用在真实工作场景里的人那里。硅谷的人在造它，但不一定知道怎么用好它。每次新模型出来，你是世界上最早一批发现它能做什么的人之一。 Every 在布鲁克林，不在硅谷。但 Dan 觉得他们比大多数硅谷公司都更靠近未来，原因只有一个：他们把所有工具都真的用在真实的工作上。这是他给出的最后一个建议：别争论 AI 会不会改变世界，去找一件你真正头疼的事，试着用 AI 解决它。当你第一次感受到"这也行？"的那一刻，你就不需要别人再来说服你了。

译Every公司CEO Dan Shipper指出，全员使用Codex和Claude Code的公司员工数反而翻倍，揭示了AI增强工作而非替代人力的悖论。他设计的“高级工程师基准测试”显示，人类得分85-90分，而AI模型平均仅约30分，GPT-5.5最高也仅达62分。核心问题在于AI能解决已定义的问题，却无法主动识别问题需要被重新定义。他预测未来工作将分裂为两种形态：一是公司共用由专人维护的超级AI智能体；二是Codex或Claude Code等AI工具成为新的工作操作系统。他认为这不会导致大规模失业，而是要求每个人都学会“驾驭模型”，将AI用在真实工作场景中。

Chubby♨️@kimmonismus · 5月28日70

There is a striking tension between Chris Olah’s remarks and Dario Amodei’s recent framing. Olah says frontier AI labs operate under incentives that can conflict with doing the right thing and therefore need serious external moral scrutiny. Amodei, meanwhile, seems to be moving from “AI may wipe out large parts of white-collar work” toward a more market-friendly story about productivity gains, job transformation, and Jevons-style optimism - a narrative that also happens to sound much better on the road to an IPO.

译文本指出AI领域存在核心张力。Anthropic联合创始人Chris Olah主张前沿AI实验室需要严肃的外部道德审查，因其激励可能与“做正确的事”冲突。与此同时，Anthropic CEO Dario Amodei的叙事正从“AI可能消灭大量白领工作”转向更市场友好的生产力提升与工作转型论述（如杰文斯悖论）。然而，Yale Budget Lab的跟踪数据显示，自ChatGPT发布以来，美国劳动力市场职业构成无明显变化，AI暴露岗位的失业并未加速。因此，当前AI能力曲线与实际就业数据之间的差距可能比以往更大，这构成了讨论的起点。

meng shao@shao__meng · 5月28日28

Lenny 发起的「梦想加入的公司 Top3 调查」 Anthropic、OpenAI、SpaceX 很符合 Lenny 的科技和 AI 用户画像，这三个公司也是未上市的科技和 AI 领域最头部的三个公司了，他们有可能今年内都上市，并且都达到万亿市值吗？

译Lenny发起的“梦想加入的公司Top3”调查显示，Anthropic和OpenAI位列其中，与SpaceX一同成为最受向往的雇主。这反映了科技与AI领域顶尖公司的吸引力。推文进一步讨论，这三家未上市的头部公司是否有可能在今年内上市，并均达到万亿美元市值。引用推文提供了该调查的原始问题，即询问人们当前最向往的三家工作公司。

Berryxia.AI@berryxia · 5月28日69

OpenAI终于把企业最头疼的安全和合规墙彻底推倒了。他们今天直接推出Private MCP Tunnels：你的团队可以把MCP服务器完全留在内网，而ChatGPT、Codex和Responses API只需要通过单向HTTPS outbound就能安全连接，完全不用打开任何入站端口，也不用把永久API Key散得到处都是。同时还上了Workload Identity Federation（云身份联邦）和大幅增强的Admin API，支持支出预警、模型白名单、数据保留策略、托管工具控制等企业级管理能力。这不是小修小补，这是OpenAI把AI平台从“开发者玩具”直接升级成了真正的企业级基础设施。以前大公司想大规模用AI，最卡的从来不是模型能力，就是要“数据不能出墙”“安全审查半年走不完”。现在这些障碍被一次性干掉。企业采用AI的最后一公里，终于被OpenAI打通了。

译OpenAI推出Private MCP Tunnels，允许企业将MCP服务器完全保留在内网。ChatGPT、Codex和Responses API仅通过单向HTTPS outbound安全连接，无需开放入站端口或暴露永久API Key。同时推出的Workload Identity Federation和大幅增强的Admin API，提供了支出预警、模型白名单、数据保留策略等企业级管控功能。这些更新旨在打通企业采用AI时“数据不能出墙”与“安全审查漫长”的核心障碍，将OpenAI平台升级为企业级基础设施。

Greg Brockman@gdb · 5月28日48

OpenAI for self-improving tax agents:

译OpenAI for self-improving tax agents: [引用 @samaysham]：在 @ThriveHoldings，我们与 @OpenAI 合作开发了一款产品，为我们旗下遍布全国的30多家会计师事务所自动化税务准备工作。本季度，该产品处理了超过7000份报税表。但我认为更有趣的是，随着会计师们的使用，该产品实现了有意义的自我改进。

Greg Brockman@gdb · 5月28日63

Underappreciated how capable GPT-5.5 is at cybersecurity:

译低估了GPT-5.5在网络安全方面的能力： GPT 5.5发现了一个引入于1999年4月、已有27年历史的远程代码执行漏洞。我已反复检查流程和提交历史，确认属实。迫不及待要负责任地披露了！

Greg Brockman@gdb · 5月28日71

bring-your-own MCP servers:

译自带MCP服务器：你的团队可以将MCP服务器保留在内部网络中，同时ChatGPT、Codex和Responses API通过仅出站的HTTPS进行连接。 🔗 https://developers.openai.com/api/docs/guides/secure-mcp-tunnels

Greg Brockman@gdb · 5月28日62

Codex for parallel browser-using subagents:

译Codex子智能体并行操控浏览器：一个提示词同时生成七个浏览器会话并行运行。航班、汽车、Airbnb、徒步、表单、结账页面。虽然仍显粗糙，但未来感十足。

Chubby♨️@kimmonismus · 5月28日67

The old models are being buried. And space is being made for new ones. I can already smell GPT-5.6.

译旧模型正在被淘汰，为新模型腾出空间。我已经能闻到 GPT-5.6 的气息了。

宝玉@dotey · 5月28日59

RepoPrompt 作者被 OpenAI 招安了，然后这软件现在免费了，即将开源。如果你是 RepoPrompt 付费用户会给你送 Codex 的 Credits。

译开发者RepoPrompt已被OpenAI招募。其同名工具RepoPrompt现转为免费，并即将开源。原付费用户将获得OpenAI Codex的Credits。该工具能将整个代码仓库拼接成单个XML文本，便于发送给Gemini 2、Claude 3.5、o1 pro等支持长上下文的模型进行处理，也支持选择部分文件。目前仅支持Mac平台。

DogeDesigner@cb_doge · 5月28日38

How many L’s in google? ChatGPT: 2 Grok: 1 ChatGPT is dumb.

译谷歌里有几个L？ ChatGPT：2个 Grok：1个 ChatGPT真笨。

🚨 AI News | TestingCatalog@testingcatalog · 5月28日55

OpenAI started sending invitations to its advertising platform to more users! > Advertisers can target free ChatGPT users in the US, Canada, Australia, and New Zealand. > Minimum daily budget is $25, suggested CPC is $3.5. ADGI testing time 👀

译OpenAI开始向更多用户发送其广告平台的邀请！ > 广告商可以针对美国、加拿大、澳大利亚和新西兰的免费ChatGPT用户进行定向投放。 > 最低每日预算为25美元，建议每次点击费用为3.5美元。 ADGI测试时间 👀

Rohan Paul@rohanpaul_ai · 5月28日57

Such a great example of the power of OpenAI’s Codex. He showed Codex a photo of the chip of the MP3 player, which was having some problems. Codex guided him to put the MP3 player into bootloader mode on a Mac. In that mode the Mac can read the entire firmware (the player’s operating system) straight from the device’s flash memory. He ran the commands Codex gave him and the Mac dumped the full binary file. He fed that binary back to Codex. Codex analyzed the machine code, found the exact sections causing the problems, then generated a patched custom firmware with the fixes and gave it back to him. problem solved.

译一位用户展示了一款从AliExpress购买的廉价MP3播放器，它存在蓝牙音频卡顿和菜单操作不便的问题。用户将设备芯片的照片提供给OpenAI的Codex进行分析。Codex随后引导用户通过Mac设备提取了播放器的完整固件文件。Codex分析了该固件的机器代码，定位到导致问题的具体代码段，并生成了一个修复了蓝牙问题并优化了菜单导航的定制固件。用户将此固件刷写回设备后，问题得到解决。此案例具体体现了AI工具在处理底层硬件调试与定制化开发任务中的潜力。

小互@xiaohu · 5月28日59

OpenAI推出一个Secure MCP Tunnel（安全 MCP 隧道）的功能可以让ChatGPT和Codex 调用公司内网里的 MCP 服务器同时防止数据泄露... 具体原理： OpenAI 的解法：反过来，不让外面进来，让里面主动出去具体怎么跑通的： 1、你在公司内网装一个叫 tunnel-client 的小程序，它能直接连到你的内部 MCP 服务器 2、3、这个小程序主动向 OpenAI 拉一条加密通道，走的是普通 HTTPS 出站 4、ChatGPT 想调用你的 MCP 服务器时，把请求扔到 OpenAI 这头的隧道入口 5、内网那头的 tunnel-client 一直"挂着"等活儿，看到有请求就转给本地 MCP 服务器 6、拿到结果，沿原路送回去这是 OpenAI 在补企业级 MCP 的最后一公里。MCP 协议本身解决的是"LLM 怎么调用工具"，但一直没解决"怎么调用一个公司不愿意公开的工具"。Secure MCP Tunnel 把这层补齐了，企业里那些原本因为安全顾虑没法接入 ChatGPT 的内部系统，现在有了官方路径。技术思路上类似 ngrok、Cloudflare Tunnel 那种"反向隧道"，只是 OpenAI 把它做成了原生功能，跟组织和 workspace 的权限体系打通。

译OpenAI 为 ChatGPT 和 Codex 推出 Secure MCP Tunnel 功能，允许它们安全调用部署在企业内网的 MCP 服务器，核心目标是防止数据泄露。其原理是：企业在内网部署 tunnel-client 程序，该程序主动向 OpenAI 建立一条加密的 HTTPS 出站通道。当模型需要调用内部 MCP 服务时，请求通过此隧道安全转发至内网客户端，再由客户端分发给本地服务器，结果沿原路返回。此举补全了 MCP 协议在安全访问私有工具方面的缺口，是 OpenAI 完善企业级应用的关键一步，技术思路类似反向隧道，但作为原生功能与组织权限体系打通。

OpenAI Developers@OpenAIDevs · 5月28日70

Private MCP servers 🤝 OpenAI products Your team can keep MCP servers inside your network while ChatGPT, Codex, and the Responses API connect through outbound-only HTTPS. 🔗 https://developers.openai.com/api/docs/guides/secure-mcp-tunnels

译您的团队可以在内部网络中保留MCP服务器，同时ChatGPT、Codex和Responses API通过仅出站HTTPS进行连接。

Rohan Paul@rohanpaul_ai · 5月28日69

OpenAI’s controlling nonprofit just committed $250M to study and soften the job-market shock from AI systems that can replace paid tasks. The announcement details the three focus areas: - Understanding AI’s economic impacts through independent research and measurement. - Supporting workers and communities facing near-term disruption (e.g., job transition support, insurance mechanisms, retraining). - Exploring long-term approaches to sharing economic gains from AI more broadly. OpenAI Foundation is unusually powerful because it owns 26% of OpenAI’s for-profit arm, a stake that could be valued at $260B (Assuming OpenAI is valued at $1T).

译OpenAI的控股非营利机构OpenAI Foundation承诺投入2.5亿美元，用于研究和缓解能替代付费任务的AI系统对就业市场造成的冲击。资金将支持三个方向：通过独立研究衡量AI的经济影响、为面临近期冲击的工人与社区提供支持（如职业过渡、保险机制、再培训），以及探索更广泛分享AI经济收益的长期途径。该基金会因拥有OpenAI营利部门26%的股份而地位特殊，按OpenAI估值1万亿美元计算，该股份价值可达2600亿美元。

Rohan Paul@rohanpaul_ai · 5月28日71

Another great win for agentic coding. Cognition AI just raised over $1B at a $26B pre-money valuation. Revenue reportedly climbed from $37M in annualized run-rate to $492M, while customers like Goldman Sachs and Mercedes-Benz suggest Devin is moving from demo rooms into production workflows. Cognition's progress is driven by its flagship product, Devin, which aims to function as an autonomous junior engineer, going beyond typical coding assistants. Devin can plan, test, and deploy code through multi-step workflows in secure environments. Cognition combines its own models with OpenAI and Anthropic rather than relying on one model. Cognition is basically pitching Devin as a model-agnostic agent layer: the LLM does the reasoning and code generation, while Devin supplies the engineering workspace, repo context, terminal access, file edits, tests, and model choice around it. Last July, Cognition agreed to buy the remains of coding startup Windsurf after Google struck a $2.4 billion deal for Windsurf’s top talent and licensing rights.

译Cognition AI完成超10亿美元融资，投前估值达260亿美元。其年化收入从3700万美元增长至4.92亿美元，客户包括Goldman Sachs和Mercedes-Benz，标志着其产品Devin正进入生产环境。Devin定位为自主初级工程师，能通过多步骤工作流规划、测试和部署代码。Cognition采用自有模型与OpenAI、Anthropic相结合的模型无关技术路线，而非依赖单一模型。此外，该公司于去年7月同意收购编程初创公司Windsurf的剩余资产。

OpenAI Developers@OpenAIDevs · 5月28日28

“The developer we’re building for has evolved.” @0xmts talks with @romainhuet about the new builder mindset, where ideas can move from thought to working software faster than before. Full episode drops 5/29.

译“我们为之构建的开发者已经进化了。” @0xmts 与 @romainhuet 探讨新的构建者思维，想法转化为可用软件的速度比以往更快。完整节目将于5月29日上线。

Rohan Paul@rohanpaul_ai · 5月28日53

OpenAI and Thrive just built a self-improving tax agent with up to 97% accuracy. Tax AI processed 7,000 returns across 30+ accounting firms, saved about one-third of preparation time, reached up to 97% accuracy, and raised throughput by about 50%. The hard part was not reading W-2s or 1099s, but handling messy K-1s, rental schedules, notes, spreadsheets, prior-year files, and values that must match across documents. The system records the full trace: source file, extracted field, citation, tax-engine mapping, accountant correction, and final filed value. Repeated corrections become eval targets, so Codex gets a narrow task with evidence, code, tests, and a pass condition. A wrong tax field can come from many places: bad extraction, weak mapping, unsupported workflow, prior-year carryover, or human judgment. The clever part was not simply using Codex to write fixes, but building a product environment where repeated practitioner corrections became bounded, testable engineering tasks. In the rental-property example, the agent could inspect source documents, extraction traces, mapper behavior, expected outputs, and regression tests before proposing a change.

译OpenAI与Thrive合作开发了一款自我改进的税务AI智能体，已在30多家会计事务所处理约7,000份报税表。该智能体将准备时间缩短约三分之一，吞吐量提升约50%，并达到高达97%的准确率。技术难点在于处理混乱的K-1s、租赁计划等非结构化文件，以及跨文档的数值匹配。系统为每个操作记录完整追踪链，并利用会计师的重复修正作为评估目标，驱动Codex生成可测试的代码修复任务，形成自我改进闭环。

Sam Altman@sama · 5月28日61

AI should dramatically increase quality of life and individual freedoms for people around the world. The OpenAI Foundation is making an initial $250M commitment to measurement, transition support, and new approaches to broadly shared prosperity. http://openaifoundation.org/news/economic-futures-in-the-age-of-ai

译AI应显著提升全球人民的生活质量和个体自由。 OpenAI基金会初步承诺投入2.5亿美元，用于衡量、转型支持以及广泛共享繁荣的新方法。 http://openaifoundation.org/news/economic-futures-in-the-age-of-ai

Greg Brockman@gdb · 5月28日66

Codex for transcribing and answering questions about a meeting in real time:

译OpenAI Codex 新增了“Meeting Recorder”技能。该技能可使用 GPT Realtime Whisper 端点实时转录会议并显示文本。用户可在转录过程中随时向 Codex 提问。会议结束后，会提供完整的转录内容及格式化版本。此功能基于实时 API，费用为 $0.017/分钟。相关代码与说明可在 GitHub 链接中查看。