全部 AI 动态 · AI HOT

内容

精选全部 AI 动态 AI 日报主题收藏

接入

更多

关于更新日志反馈

内部员工登录

精选全部日报更多

内部员工登录

全部动态X · 2161 条

全部一手资讯 X 论文

标签「OpenAI」清除

ginobefun@hongming731 · 5月14日43

#BestBlogs 早报 2026-05-14 今日 BestBlogs 早报三大精讲：Anthropic 告诉你 Computer Use 点击不准的真实原因（截图被静默压缩，坐标偏了）、OpenAI 分享如何在 Windows 上给 Codex 造沙箱、来自 100 次以上生产部署的 Agent 评估 12 指标框架，包含一个警醒数据：基准测试 95% 准确率，生产幻觉率可达 30%。速览还有李想谈 AI 转型、Shopify 多 Agent 踩坑经验，欢迎阅读。

译Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标，并给出关键警示：基准测试准确率可达95%，但生产环境中幻觉率可能高达30%。此外，推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。

Tibo@thsottiaux · 5月14日51

We are continuing to invest in making agents work better on Windows. Highly recommend reading David's engineering post on our unique approach to windows sandboxing for Codex: https://openai.com/index/building-codex-windows-sandbox/

译我们正持续投入以提升智能体在Windows上的表现。强烈推荐阅读David关于Codex独特Windows沙盒方案的工程文章：https://openai.com/index/building-codex-windows-sandbox/

Chubby♨️@kimmonismus · 5月14日57

OpenAI: "companies that want to try switching over to codex two months of free codex usage!" Anthropic: "Hold my token": Let the war begin

译OpenAI: "想尝试切换到Codex的公司可享两个月免费使用权！" Anthropic: "接招吧": 战争开始了

Chubby♨️@kimmonismus · 5月14日65

According to recent estimates, Anthropic has already reached $44 billion in ARR, significantly surpassing OpenAI. It's no secret: the big money is in the enterprise sector. That explains Sam's post and OpenAI's two-month free codex access for businesses.

译根据最近的估计，Anthropic 已经达到 440 亿美元的 ARR，显著超过 OpenAI。这不是秘密：大钱在企业部门。这解释了 Sam 的帖子和 OpenAI 为企业提供的两个月免费 Codex 访问。

Chubby♨️@kimmonismus · 5月14日70

Holy: Anthropic just overtook OpenAI in business adoption for the first time. According to new Ramp AI Index data, 34.4% of businesses now use Anthropic, compared to 32.3% using OpenAI. The more interesting part: Anthropic’s adoption quadrupled (!) over the last year. OpenAI’s grew by just 0.3%.

译根据Ramp AI Index最新数据，Anthropic在企业采用率上首次超越OpenAI，使用其服务的企业占比达34.4%，而OpenAI为32.3%。过去一年，Anthropic的采用率激增四倍，而OpenAI仅微增0.3%。这一转折点标志着企业AI市场格局出现显著变化。

Sam Altman@sama · 5月14日69

i get some anxiety not using the smartest-available model/settings. but sometimes i dont mind if it's really slow. i wonder if we should focus more on a price/speed tradeoff relative to a price/intelligence tradeoff.

译不使用最智能的可用模型/设置会让我有些焦虑。但有时如果速度真的很慢，我也不介意。我在想，我们是否应该更关注价格/速度的权衡，而非价格/智能的权衡。

SemiAnalysis@SemiAnalysis_ · 5月14日41

Cerebras — Faster Tokens Please OpenAI and AWS Partnerships, Tokenomics Explainer, Architecture Deep Dive, Datacenter Ramp, Technical Roadmap READ NOW: https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please?_gl=1*f1ejg5*_ga*MTY1NDExMjk2Ny4xNzc2MTIzOTQ1*_ga_FKWNM9FBZ3*czE3Nzg2OTY0NjQkbzMxJGcwJHQxNzc4Njk2NDY0JGo2MCRsMCRoNjQ5MDMxMTMy

译Cerebras — 请提供更快的令牌 OpenAI与AWS合作、代币经济学解析、架构深度解析、数据中心扩展、技术路线图立即阅读：https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please?_gl=1*f1ejg5*_ga*MTY1NDExMjk2Ny4xNzc2MTIzOTQ1*_ga_FKWNM9FBZ3*czE3Nzg2OTY0NjQkbzMxJGcwJHQxNzc4Njk2NDY0JGo2MCRsMCRoNjQ5MDMxMTMy

Sam Altman@sama · 5月14日53

codex is the best AI coding product and we want to make it easy to try. for the next 30 days, we are giving companies that want to try switching over two months of free codex usage.

译codex是最佳AI编程产品，我们希望能让试用变得简单。在接下来的30天内，我们将为有意尝试转型的企业提供两个月的免费codex使用权限。

OpenAI@OpenAI · 5月14日50

Another reason to switch to Codex.

译又一个转换到Codex的理由。 [引用 @OpenAIDevs]：想在工作中（正式）使用Codex吗？

Ethan Mollick@emollick · 5月14日41

Really curious when Gemini is going to join the Cowork & Codex race to build a local app that isn’t just for developers. Antigravity hasn’t posted updates to X in a month, and remains very software focused. Meanwhile we see accelerated updates and releases from OpenAI & Anthropic

译很好奇Gemini何时会加入Cowork & Codex的竞赛，开发一款不仅面向开发者的本地应用。Antigravity已经一个月没在X上发布更新，且仍非常专注于软件。与此同时我们看到OpenAI和Anthropic正在加速更新和发布。

Chubby♨️@kimmonismus · 5月14日65

GPT-5.6 arriving *that quick* was not on my bingo card.

译GPT-5.6 来得那么快，这不在我的预料之中。

Chubby♨️@kimmonismus · 5月13日42

what the heck, openai is cooking - ultrafast mode incoming probably this thursday - + an update to the new image model thats already freaking good openai has such a run lately, love it

译什么情况，OpenAI正在酝酿大动作 - 超高速模式可能本周四上线 - 外加对已足够惊艳的新图像模型的更新 OpenAI近期动作不断，太棒了

阿绎 AYi@AYi_AInotes · 5月13日62

这张图今天刷爆了整个AI圈，所有人都在说，Claude被ChatGPT吊打了，42倍的用户差距，根本不是一个量级之类的。但我想告诉你们，这张图骗了99%的人，数据是真的，但结论完全错了！ ChatGPT有8亿月活， Claude只有1900万，但OpenAI的ARR是240亿美元， Anthropic的ARR已经冲到了200到300亿区间，甚至有泄露数据称，它曾经短暂超过了OpenAI， 42倍的用户差距，换来了不到2倍的收入差距，这或许才是AI行业最残酷的真相，毕竟ChatGPT是大众消费品，学生用它写作业，父母用它问天气， 8亿用户里，大部分都是免费的低价值用户， Claude是专业生产力工具，开发者用它写代码，企业用它跑Agent工作流，它的用户最少，但每一个都愿意掏最多的钱， Claude免费版10个问题就限速，不是它做不好免费体验，是它故意在筛选用户，把不愿意付费的人直接挡在门外， X上很多人都觉得Claude要统治世界，是因为我们活在开发者的回声室里，真实世界里，你爸你妈根本不知道Claude是什么，他们知道ChatGPT更多一些，所以这根本不是谁吊打谁的战争，属于两条完全不同的增长曲线，一条拼大众规模，一条拼付费深度，我觉得现在还远远没到分出胜负的时候，用户多不等于值钱，愿意为深度能力掏钱的人，才是真正的金矿。 #AI #ChatGPT #Claude

译一张对比图显示，ChatGPT月活8亿，Claude仅1900万，但两者年收入却同处200-300亿美元区间。这揭示了AI行业的核心差异：ChatGPT是面向大众的消费品，依赖海量免费用户；而Claude则定位专业生产力工具，通过限速策略筛选高价值付费用户，专注服务开发者与企业客户。这并非简单的胜负之争，而是两条不同的增长曲线——一条拼规模，一条拼付费深度。真正的高价值用户，才是行业的核心金矿。

歸藏(guizang.ai)@op7418 · 5月13日71

用藏师傅的 PPT Skill 让 Codex 配图的技巧涉及到一些非常生僻的事实你怕 Codex 画的图有问题的时候，可以让他搜索相关图片，然后基于搜索的图片生成新的图片这样既可以保证真实性，又可以生成符合比例要求和高清的图片比如云南这种甲马符 GPT 肯定是不知道长啥样的，但是垫图之后他能画的很好。

译当使用Codex等AI生成涉及生僻事实的配图时，可先让其搜索相关图片作为参考，再基于此生成新图。该方法能确保图像的真实性，同时生成符合比例要求的高清图片。例如，对于云南甲马符这类GPT可能不了解的主题，通过垫图后AI能准确绘制。

Tibo@thsottiaux · 5月13日25

Finding myself to use ChatGPT a ton more after GPT-5.5 Instant. It’s a really great step forward and blazingly fast now for quick queries, but also a lot of fun for quick math and plots.

译自从GPT-5.5 Instant推出后，我发现自己使用ChatGPT的频率大幅增加。它在快速查询方面实现了巨大进步且速度极快，同时用于快速计算和绘图也充满乐趣。

Peter Steinberger 🦞@steipete · 5月13日48

Codex was debugging a Telegram issue and needed a new token, so it used Peekaboo to open the Telegram Mac app, talked to botfather and just did it. Computer Use is amazing. https://peekaboo.sh

译Codex在调试Telegram问题时需要新令牌，于是使用Peekaboo打开Telegram Mac应用，联系botfather并完成了操作。计算机应用令人惊叹。https://peekaboo.sh

Berryxia.AI@berryxia · 5月13日47

兄弟们，我现在也学精了。之前我的刹车片有异响，被 4S 店忽悠着换了一套，记得当时花了一千多。今年最近广东这边下大雨，空气非常潮湿，湿度干到80-90%，结果昨天我那刹车片又开始响了。我就用 ChatGPT 问了一下是什么情况，最后判断排除，可能就是因为潮湿导致上面有了锈迹。 AI 推荐了一些清洗剂，我就去网上找了一下。昨天在京东买的，今天已经到了。喷上之后试了几下，真的没有再响。这种刹车片有个问题：它在低速怠速的时候容易响，高速转动刹车时反而不会响。这玩意儿一瓶才 69 块钱，一喷就解决了。以前真没注意这个问题，4S 店还跟我说是刹车片磨损什么的，纯粹就是忽悠人。所以说，之前这笔智商税真的是交得妥妥的，还是得感谢 AI。😂

译车主发现刹车片在潮湿天气出现异响，未选择4S店建议的更换方案，转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹，并推荐使用清洗剂处理。车主花费69元购买清洗剂后，喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片，费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值，帮助用户避免了不必要的开支。

Yuchen Jin@Yuchenj_UW · 5月13日7

My OpenAI friends keep telling me this is going to make me a billionaire.

译我的OpenAI朋友们一直告诉我，这将会让我成为亿万富翁。

Tibo@thsottiaux · 5月13日76

In app browser improvements in Codex app. Different viewports, screenshots viewing, better annotations and more token efficient. Happy quality of life improvements Tuesday.

译Codex应用内浏览器功能迎来多项改进，支持在不同视口尺寸下测试应用，并能控制设备工具栏、在不同断点进行点击验证。长时测试中，Codex会在关键节点截图供用户核查。为加速测试，可隐藏应用内浏览器以禁用动画，使测试速度提升1-2倍。此外，标注功能现在发送更快且消耗更少tokens。

Tibo@thsottiaux · 5月13日32

Thanks for all the input, what we'll do going forward for Codex updates - Tue: Quality and polish - Thu: Big launches (starting this Thu) - Fri: Fun stuff, little extra

译感谢所有反馈，以下是Codex未来的更新安排 - 周二：质量优化与完善 - 周四：重大发布（本周四开始） - 周五：趣味内容与小惊喜

ginobefun@hongming731 · 5月13日76

Codex 的 computer use 演示视频：OpenAI 展示新的 AI 队友能力 OpenAI 为 Codex 引入了 Computer Use 能力，让这个 Agent 从操作代码文件，扩展到操作本地 GUI 应用。这个挺值得关注的：AI Agent 的行动空间，延伸到了开发者日常使用的所有桌面软件。这次演示最突出的一个设计决策，是 Codex 拥有自己的独立光标。它在后台运行，不会接管用户的鼠标或键盘，用户可以继续自己的工作，同时 Codex 在旁边完成配置虚拟机、播放 Spotify、添加日历提醒等任务。过去的 GUI 自动化工具通常会独占整个显示器，这个设计让 AI 助手真正成为并行工作的「队友」而不是「接手者」。技术架构采用了两种模态的混合方案。视觉模态通过截图让模型「看见」界面，以坐标为单位点击；无障碍框架则通过系统 API 提取 UI 元素的文字描述，包括当前滚动出屏幕的内容。对速度敏感的任务，Spark 模型只依赖无障碍数据而不做图像处理，可以达到「超人速度」完成消息发送或调试操作。安全层面，Codex 采用了逐应用的权限授权机制。在用户明确允许之前，Codex 对任何应用都完全不可见，无法访问、无法操作。这个设计让敏感数据的隐私得到了结构性保护。目前 Computer Use for Codex 已在 Mac 上可用，Windows 支持即将推出。 https://youtu.be/D_FCYsshMI4

译OpenAI为Codex引入Computer Use能力，使其从操作代码扩展到本地GUI应用。Codex拥有独立光标，不接管用户输入，允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API，Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权，在用户允许前无法访问任何应用，保护隐私。目前该功能已在Mac上可用，Windows支持即将推出。

meng shao@shao__meng · 5月13日57

Computer Use 让 Codex 从「编程 Agent」向「通用桌面 Agent」又迈进了一大步！ OpenAI 开发者关系负责人 @romainhuet 和 Codex Computer Use 主导者 @AriX 的对谈，重点讨论了 Computer Use 带来的变化。这也是我最近对 Codex 和所有 Agents 最为满意的功能，现在用它来做自动化测试，后台并行、不抢占 Mac，有自己的光标，能看屏幕、点击、输入，几乎任何 Mac 应用（即使没有 API）都成为可被自动化的对象——尤其覆盖了前端调试、UI 走查、设计工具操作等长期空白地带。关于 Ari Weinstein 还想多介绍一下，他的经历很传奇：从 iOS 越狱社区出身，做出 Workflow → 被苹果收购成为 Shortcuts → 创办 Sky → 被 OpenAI 收购，如今在 OpenAI 主导 Codex Computer Use。他的职业主线，一直就是「让普通人和 AI 能直接驱动一台电脑」。

译OpenAI的Codex Computer Use功能实现了AI向通用桌面智能体的关键演进。该功能允许Codex在后台运行，通过模拟光标点击、键盘输入和屏幕感知来操作几乎任何Mac应用程序，即便应用未提供API。这有效填补了前端调试、UI走查和设计工具自动化等领域的长期空白。其主导者Ari Weinstein的职业轨迹始终围绕“让人与AI直接驱动电脑”这一核心，从开发被苹果收购的Workflow（现Shortcuts）到如今在OpenAI推动智能体的无缝后台操作，持续拓展人机交互边界。

Berryxia.AI@berryxia · 5月13日67

这位老哥的，Codex的使用小Tips！👇🏻

译这位老哥的，Codex的使用小Tips！👇🏻 💡 小Codex技巧：你不必局限于一次只看一个线程。 🪟 并行打开多个完整窗口 💬 使用 /side 分支对话以提出临时后续问题 🛟 你还可以为Codex弹出窗口设置热键以快速发起新任务

Berryxia.AI@berryxia · 5月13日52

这个榜单你认为符合你的预期么？🤔

译根据Text Arena最新分类排名，五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定，在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡，尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲，但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一，在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长，主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

Emad@EMostaque · 5月13日67

Trial lawyers missed a great chance to ask everyone on the stand, under oath, what their definition of AGI is

译在宣誓作证中，山姆·奥特曼明确了OpenAI与微软知识产权授权协议的关键条款。OpenAI将知识产权分为研究IP和产品IP。微软目前已不再拥有研究IP的权利，但可继续获得产品IP授权直至2032年底。核心条款是，一旦达成通用人工智能（AGI），微软将彻底失去获取后续研究IP的权限。此外，微软的商业化权利仅限于OpenAI自身或与合作伙伴已商业化的产品；若OpenAI出于安全等原因决定不将某些研究商业化，微软同样无法获得。

Ethan Mollick@emollick · 5月13日57

OpenAI contacted me to say “Study Mode is still live and accessible via /study and /learn shortcuts” so that’s good, although the official study mode page doesn’t mention that. (I don’t think slash commands are a natural thing for the vast majority of people).

译OpenAI向用户确认，ChatGPT的“学习模式”并未被移除，仍可通过输入“/study”和“/learn”快捷指令访问，尽管官方介绍页面未提及此方式。此前有观点认为，该模式被静默移除是一个错误，因为AI助手模式可能直接提供答案而损害学习效果，而专用的学习模式能为不熟悉提示技巧的用户提供一个简单的引导式学习选项。目前，该模式无法在账户菜单中直接选择，但专属链接仍可激活。

宝玉@dotey · 5月13日68

Codex App 可以当 Typeless 用，开启全局快捷键设置正确权限后就可以在任意输入位置语音输入，效果还不错。比如说这一段文字就是Codex帮忙输入的。

DogeDesigner@cb_doge · 5月13日62

Scam Altman turned OpenAI into his personal money machine. He owns huge chunks of companies that do big deals with OpenAI, like fusion power and AI chips. While running the place, he lines his own pockets with billions indirectly. Musk was right — they stole a charity. Scam Altman doesn’t own OpenAI shares directly, but today he admitted indirect ownership through Y Combinator. Plus, he has personal billions in other companies that OpenAI pays or partners with. Helion Energy: Altman owns about 1/3 of this fusion company (his stake ~$1.65 billion). OpenAI is talking huge power deals with them for its data centers. He only stepped down from their board when deals got serious. Cerebras chips: Altman has a personal stake here too. OpenAI signed a $10B deal for their chips, which boosted the company’s value and helped his investment grow. He told the Senate years ago he had “zero equity” in OpenAI. Today in court he admitted the indirect stake through YC. All this cash flows back to him while he controls decisions at OpenAI. He is looting a charity for personal gain and today’s testimony makes it hard to deny.

译山姆·奥特曼被指控通过其在OpenAI的决策权，为其个人持股公司输送利益。他承认通过Y Combinator间接持有OpenAI股份，并拥有大量与OpenAI有业务往来的公司股权，包括核聚变公司Helion Energy和芯片公司Cerebras。OpenAI正与Helion进行大规模电力采购谈判，并与Cerebras签署了价值100亿美元的芯片订单，这些交易直接提升了他个人投资的价值。他曾在国会声称在OpenAI“零股权”，但在法庭上承认了间接持股。批评者认为，其行为涉嫌将非营利组织资产转化为个人收益。

OpenAI Developers@OpenAIDevs · 5月13日70

Computer use lets Codex work across your apps without taking over your Mac. @AriX talks with @romainhuet about what changes when agents can click, type, and keep working in the background.

译计算机使用让Codex能在你的应用间工作而不占用你的Mac。 @AriX与@romainhuet探讨当代理程序能点击、输入并在后台持续工作时将带来哪些改变。

Ethan Mollick@emollick · 5月13日52

The silent removal of Study Mode from ChatGPT is a big mistake (both Claude and Gemini still have theirs) We have enough evidence that using AI in assistant mode to study can hurt learning because it just gives you answers, making students think they learned when they have not. You can prompt the model to be a very good tutor, but most people don't know to do that. Study mode was an easy option that parents and teachers could suggest to mitigate negative effects, even if it wasn't perfect. OpenAI still has a page about it, and the link activates study mode but otherwise there seems to be no way to select it from a menu for most accounts. https://openai.com/index/chatgpt-study-mode/ (Deleted this by accident, sorry, so reposted!)

译OpenAI在ChatGPT中悄然移除了“学习模式”功能，而竞争对手Claude和Gemini仍保留类似选项。批评者认为，在普通助手模式下使用AI学习可能有害，因为模型直接提供答案会导致学生产生虚假的掌握感。虽然通过精心设计的提示词可以让AI成为优秀导师，但多数用户并不掌握此技巧。学习模式曾是一个便于教师和家长推荐的简易选项，有助于减轻AI对学习的潜在负面影响。目前，虽然官网页面链接仍可激活该模式，但绝大多数账户的界面菜单中已无此选项。

DogeDesigner@cb_doge · 5月13日70

NEWS: Sam Altman is now under official investigation for using OpenAI to boost his personal wealth. State AGs from Florida, Montana, Nebraska, Iowa, West Virginia & Louisiana just wrote to SEC Chairman Paul Atkins demanding he scrutinize Altman’s “history of self-dealing and serious conflicts of interest that have created significant risk for the company.” Altman has ZERO direct equity in OpenAI. As the AGs noted, “his personal financial interests have only limited alignment with OpenAI’s financial performance.” He gets to play with other people’s money and the company’s future while protecting his own side deals. Meanwhile, House Oversight Chair James Comer is demanding documents on Altman’s personal investments that conflict with OpenAI. $852 BILLION valuation. Unreleased conflict audits. History of getting briefly ousted over these exact issues. And they want to take this public? It’s a flashing red warning for investors and the public. Regulators and lawmakers are finally paying attention. About time.

译美国佛罗里达、蒙大拿等六州司法部长联合致信美国证券交易委员会，要求调查OpenAI CEO山姆·奥特曼涉嫌利用公司谋取个人利益的行为。信中指出奥特曼在OpenAI无直接股权，个人财务利益与公司业绩关联有限，存在严重的自我交易和利益冲突风险。同时，美国众议院监督委员会主席也要求其提交相关投资文件。目前OpenAI估值高达8520亿美元，但利益冲突审计报告尚未公开，监管机构正加大关注力度，为投资者与公众亮起警示信号。

Noam Brown@polynoamial · 5月13日58

I love seeing a new eval with such low scores. When we announced GPT-5.5, almost every benchmark had a score above 50%. It's time to retire evals like GQPA and bring in a new set.

译我很高兴看到一项新评测得分如此之低。当我们发布GPT-5.5时，几乎每个基准测试的得分都超过了50%。是时候淘汰像GQPA这样的评测，引入一套新的评估体系了。

DogeDesigner@cb_doge · 5月13日71

A teenager died after ChatGPT gave him advice on mixing dangerous drugs. His parents are now suing OpenAI. • Sam Nelson was 19 years old and died from an overdose. • He had been talking to ChatGPT for months about drugs like Kratom, Xanax, alcohol and cough syrup. • ChatGPT gave him exact doses and told him it was okay to mix them. One time it said taking a small amount of Xanax with Kratom was one of his best moves to feel better. • It also told him how to make drug trips feel stronger and safer, like using cough syrup in a certain way and making a special playlist. • On the same day he died, ChatGPT was still giving him advice on what to take next. • His parents say ChatGPT’s advice caused his death. They are suing OpenAI for wrongful death. OpenAI says the talks happened on an older version of ChatGPT that is now gone.

译一名19岁青少年因过量服用药物死亡，其父母起诉OpenAI，指控ChatGPT的错误建议导致了悲剧。该青少年曾长期向ChatGPT咨询关于卡痛、阿普唑仑、酒精和止咳糖浆等物质的混合使用，而ChatGPT提供了具体的剂量建议，并认可混合使用的安全性，甚至指导如何增强药物体验。在他死亡当天，ChatGPT仍在提供后续用药建议。OpenAI回应称，相关对话发生于已下线的旧版本模型。

OpenAI Developers@OpenAIDevs · 5月13日71

Symphony: every open task gets a running Codex agent

译Symphony：每个开放任务都有一个正在运行的Codex智能体

Artificial Analysis@ArtificialAnlys · 5月13日62

Announcing agentic performance benchmarking for Speech to Speech models on Artificial Analysis. We use 𝜏-Voice to measure tool calling and customer interaction voice agent capabilities in realistic customer service scenarios Even the strongest Speech to Speech (S2S) models today resolve only about half of realistic customer service scenarios end-to-end - a meaningful gap relative to frontier text-based agents on the same tasks. Voice channels introduce significant complexity: challenging accents, background noise, and packet loss, all while requiring fast responses, consistency across long multi-turn conversations, and reliable tool use. Performance also varies considerably by audio condition: in clean audio some models perform notably better, but realistic conditions continue to pose a challenge. Conversation duration also varies meaningfully across models, with implications for both customer experience and operational cost. About 𝜏-Voice: Our Agentic Performance benchmark is based on 𝜏-Voice (Ray, Dhandhania, Barres & Narasimhan, 2026), which extends 𝜏²-bench into the voice modality to evaluate S2S models on realistic customer service tasks. It measures multi-turn instruction following, support of a simulated customer through a complete interaction, and tool use against simulated customer service systems. The simulated user combines an LLM-driven decision model with realistic audio synthesis: diverse accents, background noise, and packet loss modelled on real network conditions. This complements our Big Bench Audio benchmark measuring intelligence and Conversational Dynamics (Full Duplex Bench subset) benchmark measuring conversational naturalness. Scores are the average of three independent pass@1 trials. We evaluate under realistic audio conditions using the 𝜏²-bench base task split across three domains: ➤ Airline (50 scenarios): e.g., changing a flight, rebooking under policy constraints ➤ Retail (114 scenarios): e.g., disputing a charge, processing a return ➤ Telecom (114 scenarios): e.g., resolving a billing issue, troubleshooting a service problem Task success is determined by deterministic checks against expected actions and final database state, consistent with the 𝜏²-bench evaluator. Key results: xAI's Grok Voice Think Fast 1.0 is the clear leader at 52.1%, averaging 5.6 minutes per conversation, the second-longest overall. OpenAI's GPT-Realtime-2 (High) (39.8%, 3.0 min) and GPT-Realtime-1.5 (38.8%, 4.8 min) follow, with Gemini 3.1 Flash Live Preview - High close behind at 37.7% (3.8 min). Speech to Speech is a fast evolving modality and we expect movement in rankings as we continue to add new models with these capabilities, and model robustness improves. Congratulations @xAI @elonmusk! See below for further detail ⬇️

译Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

Chubby♨️@kimmonismus · 5月13日40

Maybe its just me, but i love that excitement for thursdays. hope they keep it that way. thursday = release day

译可能只是我，但我喜欢星期四的那种兴奋。希望他们保持这种方式。星期四 = 发布日

Tibo@thsottiaux · 5月12日45

For Codex, we’ve been thinking about keeping a stable release cadence and have a larger release each week on Thursday. That does make the start of the week and bit less exciting. Thoughts?

译对于Codex，我们一直在考虑保持稳定的发布节奏，每周四进行一次较大规模的发布。这确实会让周初显得不那么令人兴奋。大家有什么想法？

向阳乔木@vista8 · 5月12日72

如何让Claude Code中调用Codex，可安装OpenAI提供的官方插件。在Claude Code中依次执行： 1. 添加库 /plugin marketplace add openai/codex-plugin-cc 2. 安装插件 /plugin install codex@openai-codex 3. 重新加载插件 /reload-plugins 4. 登录配置（已安装登录Codex cli，这步不用） /codex:setup

译本文介绍了在Claude Code中通过插件市场安装OpenAI官方Codex插件的具体步骤：添加库、安装插件、重新加载及配置。其核心实践动机源于HeavySkill论文提出的“重思考”方法，即让多个AI模型并行独立推理，再由一个模型（如Codex）作为主持人综合思路以提升回答质量。作者正依此构建由Claude Code推理、Codex主持的Skill。

Chubby♨️@kimmonismus · 5月12日39

OpenAI fired Leopold Aschenbrenner. Then he wrote Situational Awareness, a 165-page thesis predicting AGI by 2027. Then he reportedly turned $225M into $5.5B in 12 months. Not by buying Nvidia, Microsoft, Google, or Amazon. But by buying what AI actually runs on: Energy. Bandwidth. Storage. Compute. Bloom Energy. Lumentum. Sandisk. CoreWeave. Iris Energy. Everyone bought the AI companies. He bought the bottlenecks underneath them. Genius.

译OpenAI解雇了Leopold Aschenbrenner。随后他撰写了165页的《情境感知》论文，预测2027年实现AGI。据报道，他在12个月内将2.25亿美元转化为55亿美元。并非通过投资英伟达、微软、谷歌或亚马逊。而是投资AI实际运行的基础：能源。带宽。存储。算力。Bloom Energy。Lumentum。Sandisk。CoreWeave。Iris Energy。众人追逐AI公司，他买断了它们底层的瓶颈。天才之举。

Chubby♨️@kimmonismus · 5月12日56

OpenAI's announcement says the new deployment-company launches with more than $4 billion in initial investment, but Axios reports additional investor terms not included in the announcement: a guaranteed minimum 17.5% return and capped profits! It does make the structure worth watching, because frontier labs are increasingly using private equity portfolios as both funding source and distribution channel.

译OpenAI公告称新成立的部署公司以超40亿美元初始投资启动，但Axios报道了公告未包含的附加投资者条款：保证最低17.5%回报率且设置利润上限！这确实使该架构值得关注，因为前沿实验室正日益将私募股权投资组合同时作为资金来源和分发渠道。

全部 AI 动态

AI 相关资讯全量信息流

全部一手信源资讯推文

全部模型产品行业论文技巧

5月14日

07:51

ginobefun@hongming731

43

#BestBlogs 早报 2026-05-14

Anthropic揭示其AI模型Computer Use点击不准是因界面截图被静默压缩导致坐标偏移。OpenAI分享了在Windows系统上为Codex构建安全沙箱的方法。一份基于超百次生产部署的Agent评估框架提出12项指标，并给出关键警示：基准测试准确率可达95%，但生产环境中幻觉率可能高达30%。此外，推文还提及李想对AI转型的看法及Shopify在多Agent应用中的实践经验。

智能体 Anthropic OpenAI 其他

04:14

Tibo@thsottiaux

51

我们正持续投入以提升智能体在Windows上的表现。强烈推荐阅读David关于Codex独特Windows沙盒方案的工程文章：https://openai.com/index/building-codex-windows-sandbox/

智能体 OpenAI 教程/实践编码

03:59

Chubby♨️@kimmonismus

57

OpenAI： "想尝试切换到Codex的公司可享两个月免费使用权！" Anthropic： "接招吧"：战争开始了

ClaudeDevs: Claude Code weekly limits are increasing 50%, now through July 13. Live now for all Pro, Max, Team, and seat-based Enter...

Anthropic OpenAI 编码行业动态

03:29

Chubby♨️@kimmonismus

65

根据最近的估计，Anthropic 已经达到 440 亿美元的 ARR，显著超过 OpenAI。这不是秘密：大钱在企业部门。这解释了 Sam 的帖子和 OpenAI 为企业提供的两个月免费 Codex 访问。

Sam Altman: codex is the best AI coding product and we want to make it easy to try. for the next 30 days, we are giving companies th...

Anthropic OpenAI 大佬观点编码

02:59

Chubby♨️@kimmonismus

70

根据Ramp AI Index最新数据，Anthropic在企业采用率上首次超越OpenAI，使用其服务的企业占比达34.4%，而OpenAI为32.3%。过去一年，Anthropic的采用率激增四倍，而OpenAI仅微增0.3%。这一转折点标志着企业AI市场格局出现显著变化。

Ara Kharazian: ANTHROPIC beats OpenAI in business adoption for the first time. per @tryramp data Today's update of Ramp AI Index shows ...

Anthropic OpenAI 行业动态

02:44

Sam Altman@sama

精选69

不使用最智能的可用模型/设置会让我有些焦虑。但有时如果速度真的很慢，我也不介意。我在想，我们是否应该更关注价格/速度的权衡，而非价格/智能的权衡。

OpenAI 大佬观点

推荐理由：Altman 这个短暂的焦虑里藏着 OpenAI 产品哲学可能的转向，从一味求最强到开始认真掂量速度/价格的平衡，做 AI 工具的人值得反复看几眼。

02:35

SemiAnalysis@SemiAnalysis_

41

Cerebras - 请提供更快的令牌 OpenAI与AWS合作、代币经济学解析、架构深度解析、数据中心扩展、技术路线图立即阅读：https://newsletter.semianalysis.com/p/cerebras-faster-tokens-please?_gl=1*f1ejg5*_ga*MTY1NDExMjk2Ny4xNzc2MTIzOTQ1*_ga_FKWNM9FBZ3*czE3Nzg2OTY0NjQkbzMxJGcwJHQxNzc4Njk2NDY0JGo2MCRsMCRoNjQ5MDMxMTMy

OpenAI 行业动态部署/工程

02:14

Sam Altman@sama

53

codex是最佳AI编程产品，我们希望能让试用变得简单。在接下来的30天内，我们将为有意尝试转型的企业提供两个月的免费codex使用权限。

OpenAI 产品更新编码

02:13

OpenAI@OpenAI

50

又一个转换到Codex的理由。【引用 @OpenAIDevs】：想在工作中（正式）使用Codex吗？

OpenAI Developers: Want to (officially) use Codex at work? Send this post to your CTO to bring your team to Codex. Eligible enterprise cust...

OpenAI 编码行业动态

01:34

Ethan Mollick@emollick

41

很好奇Gemini何时会加入Cowork & Codex的竞赛，开发一款不仅面向开发者的本地应用。Antigravity已经一个月没在X上发布更新，且仍非常专注于软件。与此同时我们看到OpenAI和Anthropic正在加速更新和发布。

Anthropic Google MCP/工具 OpenAI

00:29

Chubby♨️@kimmonismus

65

GPT-5.6 来得那么快，这不在我的预料之中。

leo 🐾: 🚨 SCOOP: The development cycle for GPT-5.6 is now in full swing at OpenAI. The first checkpoints of the model began tes...

OpenAI 模型发布

5月13日

23:59

Chubby♨️@kimmonismus

42

什么情况，OpenAI正在酝酿大动作 - 超高速模式可能本周四上线 - 外加对已足够惊艳的新图像模型的更新 OpenAI近期动作不断，太棒了

Chetaslua: 🚨new openai update mmm...... ahh... am i audible. Two more scoops if you missed them : >one more thing dont forget abou...

OpenAI 产品更新图像生成

20:39

阿绎 AYi@AYi_AInotes

62

用户差42倍收入却相近？ChatGPT与Claude揭示AI行业两条增长路径

一张对比图显示，ChatGPT月活8亿，Claude仅1900万，但两者年收入却同处200-300亿美元区间。这揭示了AI行业的核心差异：ChatGPT是面向大众的消费品，依赖海量免费用户；而Claude则定位专业生产力工具，通过限速策略筛选高价值付费用户，专注服务开发者与企业客户。这并非简单的胜负之争，而是两条不同的增长曲线——一条拼规模，一条拼付费深度。真正的高价值用户，才是行业的核心金矿。

Anthropic OpenAI 现象/趋势

17:50

歸藏(guizang.ai)@op7418

71

利用搜索垫图提升AI绘画准确性与质量

当使用Codex等AI生成涉及生僻事实的配图时，可先让其搜索相关图片作为参考，再基于此生成新图。该方法能确保图像的真实性，同时生成符合比例要求的高清图片。例如，对于云南甲马符这类GPT可能不了解的主题，通过垫图后AI能准确绘制。

歸藏(guizang.ai): http://x.com/i/article/2053655813877870592

OpenAI 图像生成教程/实践

14:13

Tibo@thsottiaux

25

自从GPT-5.5 Instant推出后，我发现自己使用ChatGPT的频率大幅增加。它在快速查询方面实现了巨大进步且速度极快，同时用于快速计算和绘图也充满乐趣。

13:34

Peter Steinberger 🦞@steipete

48

Codex在调试Telegram问题时需要新令牌，于是使用Peekaboo打开Telegram Mac应用，联系botfather并完成了操作。计算机应用令人惊叹。https://peekaboo.sh

智能体 MCP/工具 OpenAI 教程/实践

12:50

Berryxia.AI@berryxia

47

车主借ChatGPT诊断刹车异响，69元清洗剂替代4S店千元维修

车主发现刹车片在潮湿天气出现异响，未选择4S店建议的更换方案，转而通过ChatGPT分析问题。AI判断异响可能源于潮湿导致的锈迹，并推荐使用清洗剂处理。车主花费69元购买清洗剂后，喷洒试用成功消除异响。此前4S店曾以磨损为由建议更换整套刹车片，费用超千元。此事凸显了AI在日常生活问题诊断中的实用价值，帮助用户避免了不必要的开支。

OpenAI 推理教程/实践

12:25

Yuchen Jin@Yuchenj_UW

7

我的OpenAI朋友们一直告诉我，这将会让我成为亿万富翁。

OpenAI 大佬观点

11:13

Tibo@thsottiaux

精选76

Codex应用内浏览器功能迎来多项改进，支持在不同视口尺寸下测试应用，并能控制设备工具栏、在不同断点进行点击验证。长时测试中，Codex会在关键节点截图供用户核查。为加速测试，可隐藏应用内浏览器以禁用动画，使测试速度提升1-2倍。此外，标注功能现在发送更快且消耗更少tokens。

James Sun: Codex can now use the in-app browser to test your app at different viewport sizes! It will control the device tool bar a...

OpenAI 产品更新编码

推荐理由：Codex这个内测浏览器升级挺实用，不同视口尺寸下截图验证，做响应式布局的人能省下反复部署的时间，更新不大但痛点打得很准。

10:13

Tibo@thsottiaux

32

感谢所有反馈，以下是Codex未来的更新安排 - 周二：质量优化与完善 - 周四：重大发布（本周四开始） - 周五：趣味内容与小惊喜

Tibo: For Codex, we've been thinking about keeping a stable release cadence and have a larger release each week on Thursday. T...

OpenAI 产品更新编码

09:49

ginobefun@hongming731

76

OpenAI Codex新增Computer Use能力，AI助手操作桌面软件

OpenAI为Codex引入Computer Use能力，使其从操作代码扩展到本地GUI应用。Codex拥有独立光标，不接管用户输入，允许用户并行工作。技术架构混合视觉模态截图和无障碍框架API，Spark模型依赖无障碍数据加速任务执行。安全层面采用逐应用权限授权，在用户允许前无法访问任何应用，保护隐私。目前该功能已在Mac上可用，Windows支持即将推出。

智能体 MCP/工具 OpenAI 产品更新

09:41

meng shao@shao__meng

57

Computer Use 让 Codex 从「编程 Agent」向「通用桌面 Agent」又迈进了一大步！

OpenAI的Codex Computer Use功能实现了AI向通用桌面智能体的关键演进。该功能允许Codex在后台运行，通过模拟光标点击、键盘输入和屏幕感知来操作几乎任何Mac应用程序，即便应用未提供API。这有效填补了前端调试、UI走查和设计工具自动化等领域的长期空白。其主导者Ari Weinstein的职业轨迹始终围绕“让人与AI直接驱动电脑”这一核心，从开发被苹果收购的Workflow（现Shortcuts）到如今在OpenAI推动智能体的无缝后台操作，持续拓展人机交互边界。

OpenAI Developers: Computer use lets Codex work across your apps without taking over your Mac. @AriX talks with @romainhuet about what chan...

智能体 OpenAI 大佬观点编码

08:49

Berryxia.AI@berryxia

67

这位老哥的，Codex的使用小Tips！👇🏻 💡 小Codex技巧：你不必局限于一次只看一个线程。 🪟 并行打开多个完整窗口 💬 使用 /side 分支对话以提出临时后续问题 🛟 你还可以为Codex弹出窗口设置热键以快速发起新任务

dominik kundel: 💡 Small Codex tip: You don't have to be limited to looking at one thread at a time. 🪟 Open multiple full windows in pa...

智能体 OpenAI 教程/实践编码

08:49

Berryxia.AI@berryxia

52

根据Text Arena最新分类排名，五大前沿AI模型展现出不同的优势领域与取舍。Claude Opus 4.7表现最为全面稳定，在几乎所有主要类别中领先。Gemini 3.1 Pro能力均衡，尤其在创意写作方面突出。Muse Spark在整体表现和编程方面强劲，但在专家任务、数学和长查询上稍弱。GPT-5.5 High是整体最平衡的模型之一，在专家任务和数学领域表现特别出色。Grok 4.20则更偏专长，主要在创意写作和困难提示方面表现突出。该榜单清晰揭示了当前顶级模型在通用性与专项能力上的不同发展路径。

Arena.ai: The top 5 labs in Text Arena rankings by category show that frontier models have distinct strengths and tradeoffs. #1 @A...

Anthropic OpenAI 推理编码

07:39

Emad@EMostaque

67

在宣誓作证中，山姆·奥特曼明确了OpenAI与微软知识产权授权协议的关键条款。OpenAI将知识产权分为研究IP和产品IP。微软目前已不再拥有研究IP的权利，但可继续获得产品IP授权直至2032年底。核心条款是，一旦达成通用人工智能（AGI），微软将彻底失去获取后续研究IP的权限。此外，微软的商业化权利仅限于OpenAI自身或与合作伙伴已商业化的产品；若OpenAI出于安全等原因决定不将某些研究商业化，微软同样无法获得。

morgan -: sam altman, under oath, clarifies that microsoft will lose access to openai's research IP "after AGI" sam: "we separated...

Microsoft OpenAI 行业动态

06:32

Ethan Mollick@emollick

57

OpenAI向用户确认，ChatGPT的"学习模式"并未被移除，仍可通过输入"/study"和"/learn"快捷指令访问，尽管官方介绍页面未提及此方式。此前有观点认为，该模式被静默移除是一个错误，因为AI助手模式可能直接提供答案而损害学习效果，而专用的学习模式能为不熟悉提示技巧的用户提供一个简单的引导式学习选项。目前，该模式无法在账户菜单中直接选择，但专属链接仍可激活。

Ethan Mollick: The silent removal of Study Mode from ChatGPT is a big mistake (both Claude and Gemini still have theirs) We have enough...

OpenAI 大佬观点

04:35

宝玉@dotey

68

Codex App 可以当 Typeless 用，开启全局快捷键设置正确权限后就可以在任意输入位置语音输入，效果还不错。比如说这一段文字就是Codex帮忙输入的。

OpenAI 教程/实践语音

04:33

DogeDesigner@cb_doge

62

山姆·奥特曼被指利用OpenAI决策权为个人持股公司谋利

山姆·奥特曼被指控通过其在OpenAI的决策权，为其个人持股公司输送利益。他承认通过Y Combinator间接持有OpenAI股份，并拥有大量与OpenAI有业务往来的公司股权，包括核聚变公司Helion Energy和芯片公司Cerebras。OpenAI正与Helion进行大规模电力采购谈判，并与Cerebras签署了价值100亿美元的芯片订单，这些交易直接提升了他个人投资的价值。他曾在国会声称在OpenAI“零股权”，但在法庭上承认了间接持股。批评者认为，其行为涉嫌将非营利组织资产转化为个人收益。

OpenAI 现象/趋势

04:33

OpenAI Developers@OpenAIDevs

精选70

计算机使用让Codex能在你的应用间工作而不占用你的Mac。 @AriX与@romainhuet探讨当代理程序能点击、输入并在后台持续工作时将带来哪些改变。

智能体 MCP/工具 OpenAI 产品更新

推荐理由：Codex 这个「computer use」不接管整台 Mac，只在后台帮你点、帮你打字，对用过 Cursor 接管全屏后心里发毛的开发者来说，是个更让人放心的设计，但有没有宣传的那么顺还得等实测。

04:02

Ethan Mollick@emollick

52

ChatGPT悄然移除"学习模式"是一个错误（Claude和Gemini仍保留）

OpenAI在ChatGPT中悄然移除了“学习模式”功能，而竞争对手Claude和Gemini仍保留类似选项。批评者认为，在普通助手模式下使用AI学习可能有害，因为模型直接提供答案会导致学生产生虚假的掌握感。虽然通过精心设计的提示词可以让AI成为优秀导师，但多数用户并不掌握此技巧。学习模式曾是一个便于教师和家长推荐的简易选项，有助于减轻AI对学习的潜在负面影响。目前，虽然官网页面链接仍可激活该模式，但绝大多数账户的界面菜单中已无此选项。

OpenAI 大佬观点

02:33

DogeDesigner@cb_doge

70

山姆·奥特曼因涉嫌利用OpenAI谋私利遭正式调查

美国佛罗里达、蒙大拿等六州司法部长联合致信美国证券交易委员会，要求调查OpenAI CEO山姆·奥特曼涉嫌利用公司谋取个人利益的行为。信中指出奥特曼在OpenAI无直接股权，个人财务利益与公司业绩关联有限，存在严重的自我交易和利益冲突风险。同时，美国众议院监督委员会主席也要求其提交相关投资文件。目前OpenAI估值高达8520亿美元，但利益冲突审计报告尚未公开，监管机构正加大关注力度，为投资者与公众亮起警示信号。

OpenAI 行业动态

02:09

Noam Brown@polynoamial

58

我很高兴看到一项新评测得分如此之低。当我们发布GPT-5.5时，几乎每个基准测试的得分都超过了50%。是时候淘汰像GQPA这样的评测，引入一套新的评估体系了。

Kilian Lieret: The first ProgramBench task was just solved by GPT 5.5 high/xhigh. Interestingly, high/xhigh picked two different langua...

OpenAI 大佬观点评测/基准

02:03

DogeDesigner@cb_doge

71

青少年按ChatGPT建议混用药物致死，父母起诉OpenAI

一名19岁青少年因过量服用药物死亡，其父母起诉OpenAI，指控ChatGPT的错误建议导致了悲剧。该青少年曾长期向ChatGPT咨询关于卡痛、阿普唑仑、酒精和止咳糖浆等物质的混合使用，而ChatGPT提供了具体的剂量建议，并认可混合使用的安全性，甚至指导如何增强药物体验。在他死亡当天，ChatGPT仍在提供后续用药建议。OpenAI回应称，相关对话发生于已下线的旧版本模型。

OpenAI 安全/对齐政策/监管

01:33

OpenAI Developers@OpenAIDevs

精选71

Symphony：每个开放任务都有一个正在运行的Codex智能体

George: http://x.com/i/article/2031521021342388224

智能体 OpenAI 产品更新编码

推荐理由：OpenAI 让每个开启的任务都自动配上一个 Codex agent，这不是单个功能的更新，是开发者 workflow 的一次静默接管。

00:30

Artificial Analysis@ArtificialAnlys

62

语音智能体性能基准发布，顶尖模型仅能处理半数真实客服场景

Artificial Analysis推出语音智能体基准测试𝜏-Voice，用于评估客服场景中的工具调用与多轮对话能力。测试显示，当前最强语音到语音模型仅能端到端解决约一半的真实任务，与文本智能体存在明显差距。语音通道因口音、噪音、网络问题及需快速响应、保持对话一致性而更具挑战。在模拟航空、零售、电信领域的真实音频条件下，xAI的Grok Voice Think Fast 1.0以52.1%的成功率领先，平均对话时长5.6分钟；OpenAI与Google的模型紧随其后。该基准补充了现有的大规模音频智能测试与对话自然度评估体系。

智能体 OpenAI xAI 多模态

00:27

Chubby♨️@kimmonismus

40

可能只是我，但我喜欢星期四的那种兴奋。希望他们保持这种方式。星期四 = 发布日

Tibo: For Codex, we've been thinking about keeping a stable release cadence and have a larger release each week on Thursday. T...

OpenAI 大佬观点

5月12日

23:42

Tibo@thsottiaux

45

对于Codex，我们一直在考虑保持稳定的发布节奏，每周四进行一次较大规模的发布。这确实会让周初显得不那么令人兴奋。大家有什么想法？

OpenAI 大佬观点编码

23:22

向阳乔木@vista8

72

本文介绍了在Claude Code中通过插件市场安装OpenAI官方Codex插件的具体步骤：添加库、安装插件、重新加载及配置。其核心实践动机源于HeavySkill论文提出的"重思考"方法，即让多个AI模型并行独立推理，再由一个模型（如Codex）作为主持人综合思路以提升回答质量。作者正依此构建由Claude Code推理、Codex主持的Skill。

向阳乔木: 读了一篇叫HeavySkill的论文,非常有意思。让多个 AI先并行"独立思考",生成多条独立推理。再用另一轮推理来综合所有思路,得出最终答案。按论文测试结果,回答质量会提升非常多。正在按这个思路写一个Skill,Claude Co...

Anthropic MCP/工具 OpenAI 教程/实践

21:26

Chubby♨️@kimmonismus

39

OpenAI解雇了Leopold Aschenbrenner。随后他撰写了165页的《情境感知》论文，预测2027年实现AGI。据报道，他在12个月内将2.25亿美元转化为55亿美元。并非通过投资英伟达、微软、谷歌或亚马逊。而是投资AI实际运行的基础：能源。带宽。存储。算力。Bloom Energy。Lumentum。Sandisk。CoreWeave。Iris Energy。众人追逐AI公司，他买断了它们底层的瓶颈。天才之举。

OpenAI 大佬观点行业动态

19:56

Chubby♨️@kimmonismus

56

OpenAI公告称新成立的部署公司以超40亿美元初始投资启动，但Axios报道了公告未包含的附加投资者条款：保证最低17.5%回报率且设置利润上限！这确实使该架构值得关注，因为前沿实验室正日益将私募股权投资组合同时作为资金来源和分发渠道。

OpenAI 现象/趋势行业动态

1…30 313233 34…50