AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2159 条
全部一手资讯X论文
标签「OpenAI」清除
Epoch AI@EpochAIResearch · 6月13日64

FrontierMath: Tiers 1–4 (v2) is live. We concluded an audit that addressed errors in 42% of problems. Rankings are similar but scores are higher across the board. The current leaders are GPT-5.5 (xhigh) with 85% on Tiers 1–3 and Google’s AI co-mathematician with 76% on Tier 4.

译FrontierMath: Tiers 1–4 (v2) 现已上线。 我们完成了一项审计,修正了 42% 的问题中的错误。排名相似,但整体得分更高。目前的领先者是 GPT-5.5 (xhigh),在 Tiers 1–3 上达到 85%,以及 Google 的 AI co-mathematician,在 Tier 4 上达到 76%。

Chubby♨️@kimmonismus · 6月13日31

Holy, no way! (/s)

译据 The Information 报道,OpenAI 正在准备一个新 AI 模型。主推文回应:“天哪,不会吧!(/s)”

jason@jxnlco · 6月13日16

codex users! how have you found codex'x ability to use (correctly) computer use / chrome extension / in app browser? if you want to give us feedback leave a comment and I'll organize it for the team!

译codex 用户们! 你们觉得 codex 在(正确)使用电脑/Chrome 扩展/应用内浏览器方面的能力怎么样?如果想给我们反馈,请留下评论,我会整理给团队的!

Tibo@thsottiaux · 6月13日50

Heard your (amusing) feedback that it was at times annoying to receive a reset of your Codex usage without warning. Next time we press the button you will get to choose when it actually applies. Happy codexing.

译听到了你们(有趣的)反馈,说有时在毫无预警的情况下收到 Codex 用量重置让人烦心。 下次我们按按钮时,你可以选择它实际何时生效。祝编程愉快。

jason@jxnlco · 6月13日46

codex for open source! just granted about another huge batch including some that you might recognize! tensorflow/tensorflow n8n-io/n8n twbs/bootstrap github/gitignore ytdl-org/youtube-dl vercel/next.js 30-seconds/30-seconds-of-code kubernetes/kubernetes papers-we-love/papers-we-love angular/angular neovim/neovim microsoft/web-dev-for-beginners florinpop17/app-ideas bitcoin/bitcoin gin-gonic/gin microsoft/playwright laravel/laravel gothinkster/realworld spring-projects/spring-boot tensorflow/models apple/swift unclecode/crawl4ai tldr-pages/tldr snowpackjs/astro embedchain/embedchain vim/vim pingcap/tidb jonnyburger/remotion aspnet/aspnetcore seleniumhq/selenium jqlang/jq immutable-js/immutable-js anncwb/vue-vben-admin pynecone-io/pynecone martinvonz/jj serverless-stack/serverless-stack manojvivek/responsively-app trekhleb/homemade-machine-learning sipeed/picoclaw spicetify/spicetify-cli vueuse/vueuse guidance-ai/guidance nautechsystems/nautilus_trader hshoff/vx preservim/nerdtree officedev/office-ui-fabric-react carlospolop/peass-ng reduxjs/reselect adonisjs/adonis-framework rizinorg/cutter facebookresearch/llama-recipes stackexchange/dapper resendlabs/react-email tomav/docker-mailserver lichess-org/lila google/libphonenumber apache/incubator-brpc googlechrome/chrome-app-samples hwchase17/langchainjs fanux/sealos argoproj/argo argoproj/argo-workflows rjsf-team/react-jsonschema-form secureauthcorp/impacket scylladb/scylla uuidjs/uuid cayleygraph/cayley cesiumgs/cesium eclipse-vertx/vert.x pyodide/pyodide jetstack/cert-manager rileytestut/altstore sunnyyoung/wechattweak-macos pydanny/cookiecutter-django pandas-profiling/pandas-profiling espanso/espanso ansible-semaphore/semaphore k9mail/k-9 nock/nock dotnet/aspnetcore.docs selectize/selectize.js mozilla-mobile/firefox-ios wanghongenpin/network_proxy_flutter webpack-contrib/webpack-bundle-analyzer alicevision/meshroom actions/virtual-environments jxnl/instructor theramu/fay svprogresshud/svprogresshud lexikos/autohotkey_l lipis/flag-icon-css redpanda-data/redpanda vega/vega mrjbq7/ta-lib uber/ludwig keplergl/kepler.gl devicons/devicon crossplane/crossplane openaccess-ai-collective/axolotl go-shiori/shiori audiokit/audiokit pyroscope-io/pyroscope px4/px4-autopilot quickwit-oss/quickwit vuecomponent/ant-design-vue-pro divanteltd/vue-storefront k2-fsa/sherpa-onnx jantimon/html-webpack-plugin mockery/mockery automattic/node-canvas divio/django-cms containers/skopeo kubernetes/kompose lucia-auth/lucia microsoft/fluentui-system-icons triton-inference-server/server pressly/goose altair-viz/altair pwndbg/pwndbg maplibre/maplibre-gl-js webtorrent/webtorrent-desktop hackmdio/codimd

译Codex 为开源项目提供免费授权,最新一批包括 TensorFlow、Next.js、Kubernetes、Angular、Swift、Spring Boot、Playwright、Vim、Bitcoin、n8n、Bootstrap、酷狗(30-seconds-of-code)等大量知名开源仓库,列表涵盖机器学习、前端框架、基础设施、游戏开发、数据库等众多领域。具体授权范围和细则未在推文中说明。

Ethan Mollick@emollick · 6月12日72

There has been a push to use OpenEvidence AI for doctors. But this paper suggests general models are much better: “Frontier LLMs outperformed clinical AI tools in all three evaluations. Clinical AI tools performed comparably to auto-enabled Google Search AI Overview on the RCQ.”

译一项发表在Nature Medicine的研究显示,通用前沿大语言模型(Google、OpenAI、Anthropic)在医学信息评估中全面优于专门的临床AI工具(OpenEvidence和UpToDate)。12名美国临床医生进行随机盲测,Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Emad@EMostaque · 6月12日38

If you think AI valuations are crazy just wait until SpaceX, OpenAI and Anthropic all are liquid. Hopefully some crazy ideas and impactful ideas get funded, especially as many of the stockholders think AGI is coming so like use it or lose it

译如果你觉得AI估值疯狂,那就等到SpaceX、OpenAI和Anthropic都变得流通起来。 希望一些疯狂但有影响力的想法能得到资助,尤其是很多股东认为AGI即将到来,所以要么利用它要么失去它。

Chubby♨️@kimmonismus · 6月12日68

This is so awesome! OpenAI is now letting Codex users save their rate limit resets and use them later, starting with one free saved reset for Go, Plus, Pro, and Business users.

译太棒了! OpenAI 现在允许 Codex 用户保存他们的速率限制重置,稍后使用,Start 从 Go、Plus、Pro 和 Business 用户开始免费赠送一次保存重置。

🚨 AI News | TestingCatalog@testingcatalog · 6月12日45

For the next 2 weeks, Codex users can invite up to 3 friends to get a one-time rate limit reset that can be saved for later. Hoarding time 👀

译接下来两周,Codex 用户可以邀请最多 3 位朋友,获得一次可留待后用的速率限制重置。 收藏时间 👀

Artificial Analysis@ArtificialAnlys · 6月12日60

We've updated the Artificial Analysis Coding Agent Index, replacing SWE-Bench Pro with Datacurve's DeepSWE benchmark - the swap lifts Codex with GPT-5.5 (xhigh) above Claude Code with Opus 4.8 (max), while the newly released Claude Fable 5 (max) in Claude Code debuts at the top DeepSWE, built by @datacurve, writes its tasks from scratch rather than adapting them from public GitHub issues or pull requests, so no model has seen the solutions during training. That matters because SWE-Bench Pro, the benchmark it replaces in our Coding Agent Index, had grown gameable, with some models recovering the fix from the repository's commit history instead of solving the task. The swap reorders the index: Codex with GPT-5.5 (xhigh) rises from 65 to 76, overtaking Claude Code with Opus 4.8 (max) at 73. Claude Code with Fable 5 (max), which enters directly on the refreshed index, leads at 77. SWE-Bench Pro had been flattering some combinations and penalizing others. More below.

译Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

jason@jxnlco · 6月12日9

We don’t need no IPO to go shopping

译我们不需要 IPO 也能去购物 (引用推文问:OpenAI/Anthropic 的员工 IPO 后都去哪儿买衣服?)

karminski-牙医@karminski3 · 6月12日64

我现在的体感是,模型能力到底强不强(仅讨论编程),会极度体现在代码直觉上,而这部分是最难训练的。这是海量的开发经验堆出来的。 比如我这个bug, 生成的路网是断裂的, GPT-5.5-pro-xhigh都修不好. 但其实问题很简单, 我跟他说路网断裂, 他就觉得, 你矩形地块就是4条边, 对应4个tile, 然后4个角再来4个tile, 完事了, 怎么会断裂呢? 而实际上每条边需要用2个tile才能填充完毕, 这种"每条边一个tile"的固有直觉, 直到你发现之前, 你让它修, 是怎么都修不好的, 多模态模型截图打他脸也没用(强烈怀疑向量空间映射到一起了). 只能靠你自己发现问题的根源, 并反推模型在哪里出现了问题. 我这个case断断续续修了4小时了, 直到我意识到了, 我得自己下场了, 于是让它给每个tile编上ID,然后直接问他, 你觉得这两个tile之间可以容纳几个tile. 立刻露馅了, 他就觉得填充一个tile就ok了... 修复过程立刻就变得极其弱智, 告诉它应用规则, 每个tile对应几个单位长度. 然后计算填充就完事了... 而现在有一个模型, 上来就不会犯这个错误. 然后又有一个模型, 虽然会犯错误, 但是迭代几次修好了, 最后就是怎么都修不好. 大家会觉得哪个模型能力强?

译作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。

jason@jxnlco · 6月12日62

Silicon Valley Halloween couple costume is going to be Tibo and the reset button.

译OpenAI 宣布即日起,用户可将 Codex 速率限制重置保存至稍后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。对此,Jason Liu 调侃道:硅谷万圣节情侣装将是 Tibo 和重置按钮。

Berryxia.AI@berryxia · 6月12日49

中转站的哥哥们大喜~~~

译Codex Plus 和 Pro 用户可在未来两周内邀请最多三位朋友试用。被邀请人发送第一条 Codex 消息后,双方各获一次额度重置。限制:不可邀请自己、被邀请人过去 2 个月未使用过 Codex、且未持有有效邀请。

Berryxia.AI@berryxia · 6月12日54

Codex 模型没有新模型发布,但是玩法高出新花样。 可以邀请好友给你重置一次额度。 这不妥妥的利好中转站和俄罗斯套娃拉~

宝玉@dotey · 6月12日66

Codex 真是把 Token 用量重置玩出花开了,邀请好友,双方都获得一次重置机会,自己重置。

小互@xiaohu · 6月12日51

OpenAI 公布 邀请好友重置用量规则: Plus 和 Pro 用户可以邀请最多三位朋友试用 Codex。 当你邀请的一位朋友发送他的第一条 Codex 消息时,你们双方都会获得另一个储备重置机会。 这个重置用量机会可以一直保留,你可以在任意的时候选择使用。 使用后你的Codex 用量将会重置,重新计算。

译OpenAI 公布 Codex 新邀请规则:Plus 和 Pro 用户可邀请最多三位朋友试用 Codex。被邀请好友首次发送 Codex 消息时,邀请者与该好友各获得一次储备重置机会。该机会可保留,用户可随时手动使用,重置后 Codex 用量重新计算,且可重复通过邀请新好友获取新重置机会。

凡人小北@frxiaobei · 6月12日77

AI 上云

译OpenAI已达成协议收购Ona。其安全云执行技术将帮助Codex在笔记本电脑合盖后继续处理长时间运行的工作,并帮助更多组织在生产环境中安全部署AI智能体。交易完成后,Ona将加入OpenAI Codex团队。主推文:「AI 上云」。

meng shao@shao__meng · 6月12日60

OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存(bank/save)速率限制重置的功能,用户可将重置额度留存至后续自行使用,而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置 可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时,双方各获得一次额外可银行重置(30 天内可兑现),限时两周 -- 这也太 PDD 了,朋友们帮砍一刀?

宝玉@dotey · 6月12日37

收到 ChatGPT pro 的纪念笔了,感谢 @ChatGPTapp ❤️

译OpenAI 为 ChatGPT Pro 早期订阅者送出限量版纪念笔。福利面向首批 4000 名填表申领的 Pro 用户,填表不保证资格,部分国家可能无法配送。主推文作者@dotey 已收到并致谢。

jason@jxnlco · 6月12日75

Great ship by the growth team! Give @abraibrai a follow!

译OpenAI 宣布,用户现可保存 Codex 速率限制重置以供之后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。

jason@jxnlco · 6月12日66

Great ship by the browser team! Make sure to give @JamesZmSun a follow!

译浏览器团队干得漂亮!记得关注 @JamesZmSun! (摘要:OpenAI 为 Chrome 和 Codex 应用内浏览器推出开发者模式,Codex 可通过 Chrome DevTools 协议分析 JavaScript 性能并检查控制台输出、网络流量和页面状态。)

OpenAI Developers@OpenAIDevs · 6月12日53

Invite a friend to Codex and add another reset to the bank. When they send their first Codex message, you’ll both bank one to use when you need it. Rate limit banking is rolling out to Go, Plus, Pro, and Business users, with the first reset on us. https://x.com/OpenAI/status/2065225362544726371

译OpenAI 为 Codex 推出“邀请好友”功能:用户邀请朋友加入 Codex,对方发送第一条消息后,双方各获得一次速率限制(rate limit)重置额度,可存入“银行”留待需要时使用。该功能即日起向 Go、Plus、Pro 和 Business 用户逐步开放,每人首条重置免费。引用推文指出,用户现在可自主保存 rate limit 重置,不再受限于固定时间点。

OpenAI Developers@OpenAIDevs · 6月12日69

Introducing developer mode for browser use in Chrome and the Codex in-app browser. Codex can use the Chrome DevTools Protocol (CDP) to debug browser issues by profiling JavaScript performance and inspecting console output, network traffic, and page state.

译为 Chrome 和 Codex 内置浏览器引入开发者模式。 Codex 可以使用 Chrome DevTools 协议(CDP)来调试浏览器问题,通过分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。

Greg Brockman@gdb · 6月12日60

For next two weeks, refer your friends to Codex, and you'll bank a rate limit reset:

译接下来两周,推荐朋友使用 Codex,你将获得一次速率限制重置:

OpenAI@OpenAI · 6月12日70

We heard you wanted to use Codex rate limit resets on your own time. Starting today, we’re rolling out the ability to save rate limit resets to use later. We’re starting Go, Plus, Pro, and Business users with one free reset:

译我们听说您希望能在自己方便的时候使用 Codex 速率限制重置。 从今天起,我们开始推出将速率限制重置保留到以后使用的功能。 我们从 Go、Plus、Pro 和 Business 用户开始,每人提供一次免费重置:

🚨 AI News | TestingCatalog@testingcatalog · 6月12日30

Codex now has an icon selector with new Lite and Dark options available. Classic, Lite, or Dark? 👀

译Codex 现在有一个图标选择器,同时提供了新的 Lite 和 Dark 选项。 经典、Lite 还是 Dark?👀

Ethan Mollick@emollick · 6月12日61

This is an interesting test, and the frontier models (GPT-5.5 Pro Extended, Claude 5 Fable Max) do fail. They refuse to turn the "three words" into "four" if that fits better Prompting the AI to act like a translator surfaces the problem, but it still avoids changing the wording

译Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto‑Trombetti 翻译测试中失败。该测试要求将“Solo 3 parole: non sei solo”译为英语,同时将 meta‑linguistic 声明从“3 parole”更新为“4 words”(正确译文:“Just 4 words: you are not alone”)。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Tibo@thsottiaux · 6月12日71

Codex 🤟Ona Beyond excited to work with Johannes and team to build the future.

译OpenAI宣布已达成协议收购Ona,其安全的云执行技术将帮助Codex处理更长期的任务(即使笔记本电脑关闭也能运行),并让更多组织安全地部署智能体。收购完成后,Ona将加入OpenAI的Codex团队。Tibo对此表示“无比兴奋,期待与Johannes及团队共同构建未来”。

elvis@omarsar0 · 6月12日25

Got my 10yr old introduced to Codex today. The excitement in his face tells it all. After struggling with Claude Code CLI for a bit, today he was like “this is the future, dad”. The Codex team built a beautiful app.

译今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:“这就是未来,爸爸。” Codex团队打造了一个漂亮的应用程序。

swyx@swyx · 6月12日61

congrats to our friends @ona_hq on joining @openai! see their talk here for alpha on what’s next for Codex 👀

译swyx 祝贺 ONA 团队加入 OpenAI,并引用其演讲透露 Codex 的下一步方向。同时引述 @aiDotEngineer 观点:运行 Agent 集群需要三层——Runtime 与编排触发器已解决,但协调层(Agent 间任务交接、验证阶段、继续执行)仍未解决。Stripe 和 RAMP 各自自建了内部方案 Minions 和 Inspect。@loujaybee 指出 GitHub 作为协调层很差——噪音大、仅为人类设计,不适合数百个并行 PR。他提出的修复方案是构建一个 CLI 网关,供本地编码 Agent 调用以检查当前 SDLC 阶段是否已通过、能否继续。

Peter Steinberger 🦞@steipete · 6月12日17

Getting Chris to do a PR with Codex!

译让 Chris 用 Codex 做 PR!

elvis@omarsar0 · 6月12日59

Same here. Happy with Opus 4.8 (planning) and GPT-5.5 (execution). Also, breaking steps into smaller ones for increasing quality is so underrated. This is why dynamic workflows are a bigger deal than most people think.

译threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

Rohan Paul@rohanpaul_ai · 6月12日67

OpenAI is buying Ona to give Codex agents a secure cloud desk that stays open after humans leave. Codex already has 5M weekly users, up 400%, but harder work breaks the old chat pattern because agents need tools, files, credentials, logs, and time. Ona adds persistent cloud workspaces, meaning an agent gets a controlled place to run commands, inspect systems, preserve context, and resume work without depending on one device. The enterprise angle is the real acquisition target: companies want agents inside their own cloud boundary, with scoped credentials, review trails, access limits, and auditable activity. This makes Codexmore like a managed execution layer for tests, bug fixes, refactors, vulnerability work, migrations, and multi-step knowledge tasks.

译OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。

Sam Altman@sama · 6月12日41

really looking forward to working together!

译非常期待合作!

Greg Brockman@gdb · 6月12日69

welcome @ona_hq to the team, to help organizations deploy agents securely in production!

译欢迎 @ona_hq 加入团队,帮助组织在生产环境中安全部署智能体!

Rohan Paul@rohanpaul_ai · 6月12日82

WSJ: OpenAI is considering deep price reductions as competition with Anthropic intensifies. Anthropic is pressuring OpenAI because its strongest growth is coming from developer and coding workflows, specially with Claude Code, where users can generate huge token volume every day and quickly make Claude part of their normal work. OpenAI is still the bigger consumer brand, but in this fight the valuable prize is not casual chat users, it is enterprise teams paying metered bills for coding agents, automation, and internal tools. The difference is that Anthropic seems to have a sharper wedge in high-spend technical work, while OpenAI has to defend ChatGPT’s broad lead and stop Claude from becoming the default tool inside companies. --- wsj. com/tech/ai/openai-considers-drastic-price-cuts-anticipating-war-for-users-with-anthropic-9b8c178e

译WSJ 报道,OpenAI 正考虑大幅降价以应对与 Anthropic 的竞争。Anthropic 增长主要来自开发者和编码工作流,Claude Code 消耗大量 token,已让企业团队将其融入日常工作。OpenAI 虽在消费品牌上更大,但企业市场才是关键——企业为编码智能体、自动化等工具付费。同时,OpenAI 在 IPO 前准备对 ChatGPT 进行史上最大改版,将其打造成涵盖编码、AI 智能体、图像生成和商业软件的超级应用,改版将在未来几周陆续推出。OpenAI 将更多资源投入编码工具 Codex,目标实现 Codex 工程负责人所说的“个人智能体”。

jason@jxnlco · 6月12日61

I met @jolandgraf et la with @humford and Sandeep over a year ago and im even more excited to see them at the office soon! https://openai.com/index/openai-to-acquire-ona/

译一年多前我见到了@jolandgraf等人、@humford和Sandeep,现在更兴奋很快就能在办公室见到他们! https://openai.com/index/openai-to-acquire-ona/

Noam Brown@polynoamial · 6月12日63

I'm happy GPT-5.5 tops this eval I'm even happier it's still doing the best when measured vs tokens, cost, or wall-clock time!

译OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

🚨 AI News | TestingCatalog@testingcatalog · 6月12日71

OpenAI ❤️ Ona OpenAI acquired Ona, a cloud execution platform for AI agents. > Its secure cloud execution technology will help Codex take on longer-running work, even when laptops are closed, and help more organizations deploy agents securely in production. Managed OpenAI Agents soon?

译OpenAI 已达成协议收购云执行平台 Ona,其安全云执行技术将帮助 Codex 处理更长时任务(即使笔记本关闭也能继续运行),并让更多组织在生产环境中安全部署智能体。收购完成后,Ona 团队将加入 OpenAI 的 Codex 部门,此举或预示着托管 OpenAI 智能体服务的到来。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
6月13日
01:56
Epoch AI@EpochAIResearch
64
FrontierMath: Tiers 1-4 (v2) 现已上线。 我们完成了一项审计,修正了 42% 的问题中的错误。排名相似,但整体得分更高。目前的领先者是 GPT-5.5 (xhigh),在 Tiers 1-3 上达到 85%,以及 Google 的 AI co-mathematician,在 Tier 4 上达到 76%。
GoogleOpenAI推理评测/基准
00:50
Chubby♨️@kimmonismus
31
据 The Information 报道,OpenAI 正在准备一个新 AI 模型。主推文回应:"天哪,不会吧!(/s)"

unusual_whales: OpenAI is preparing a new AI model, per The Information

OpenAI行业动态
00:47
jason@jxnlco
16
codex 用户们! 你们觉得 codex 在(正确)使用电脑/Chrome 扩展/应用内浏览器方面的能力怎么样?如果想给我们反馈,请留下评论,我会整理给团队的!
OpenAI其他编码
00:34
Tibo@thsottiaux
50
听到了你们(有趣的)反馈,说有时在毫无预警的情况下收到 Codex 用量重置让人烦心。 下次我们按按钮时,你可以选择它实际何时生效。祝编程愉快。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
00:17
jason@jxnlco
46
"Codex 为开源项目免费开放新一批授权"

Codex 为开源项目提供免费授权,最新一批包括 TensorFlow、Next.js、Kubernetes、Angular、Swift、Spring Boot、Playwright、Vim、Bitcoin、n8n、Bootstrap、酷狗(30-seconds-of-code)等大量知名开源仓库,列表涵盖机器学习、前端框架、基础设施、游戏开发、数据库等众多领域。具体授权范围和细则未在推文中说明。

OpenAI产品更新开源生态编码
6月12日
23:02
Ethan Mollick@emollick
72
一项发表在Nature Medicine的研究显示,通用前沿大语言模型(Google、OpenAI、Anthropic)在医学信息评估中全面优于专门的临床AI工具(OpenEvidence和UpToDate)。12名美国临床医生进行随机盲测,Frontier LLMs在三项评估中均胜出。临床AI工具的表现与自动启用的Google Search AI Overview在RCQ测试中相当。

Eric Topol: For medical information, general AI frontier models (Google, OpenAI, Anthropic) outperformed specialized @EvidenceOpen a...

AnthropicGoogleOpenAI论文/研究
22:40
Emad@EMostaque
38
如果你觉得AI估值疯狂,那就等到SpaceX、OpenAI和Anthropic都变得流通起来。 希望一些疯狂但有影响力的想法能得到资助,尤其是很多股东认为AGI即将到来,所以要么利用它要么失去它。
AnthropicOpenAI大佬观点
16:20
Chubby♨️@kimmonismus
68
太棒了! OpenAI 现在允许 Codex 用户保存他们的速率限制重置,稍后使用,Start 从 Go、Plus、Pro 和 Business 用户开始免费赠送一次保存重置。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
15:10
🚨 AI News | TestingCatalog@testingcatalog
45
接下来两周,Codex 用户可以邀请最多 3 位朋友,获得一次可留待后用的速率限制重置。 收藏时间 👀

Greg Brockman: For next two weeks, refer your friends to Codex, and you'll bank a rate limit reset:

OpenAI产品更新
15:03
Artificial Analysis@ArtificialAnlys
60
Artificial Analysis 更新 Coding Agent Index:DeepSWE 替换 SWE-Bench Pro,Claude Code with Fable 5 登顶

Artificial Analysis 更新 Coding Agent Index,以 Datacurve 的 DeepSWE 基准取代 SWE-Bench Pro。DeepSWE 从头编写测试任务,而非改编自公开 GitHub issue/PR,避免训练数据泄露;原 SWE-Bench Pro 存在模型从仓库提交历史恢复修复的作弊问题。换基准后排名变动:Codex with GPT-5.5 (xhigh) 从 65 升至 76,超过 Claude Code with Opus 4.8 (max) 的 73;新发布的 Claude Code with Fable 5 (max) 以 77 分直接登顶。

智能体AnthropicOpenAI编码
11:47
jason@jxnlco
9
我们不需要 IPO 也能去购物 (引用推文问:OpenAI/Anthropic 的员工 IPO 后都去哪儿买衣服?)

Max Zeff: where are openai/anthropic employees buying clothes from post IPO

OpenAI其他
11:37
karminski-牙医@karminski3
64
作者谈模型编程能力取决于"代码直觉"--以GPT-5.5-pro-xhigh修复路网断裂bug为例

作者认为模型编程能力取决于“代码直觉”,由海量开发经验堆出,极难训练。他以路网断裂bug为例:GPT-5.5-pro-xhigh错误认为矩形每条边只需1个tile,实际需2个tile,多模态截图也无法纠正。作者费4小时,让模型给tile编ID并质问“两个tile之间能容纳几个tile”才暴露缺陷,随后告知每个tile对应单位长度并应用规则,修复变简单。不同模型表现:有的开始不犯错,有的迭代修复,有的怎么都修不好。

OpenAI大佬观点编码
10:17
jason@jxnlco
62
OpenAI 宣布即日起,用户可将 Codex 速率限制重置保存至稍后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。对此,Jason Liu 调侃道:硅谷万圣节情侣装将是 Tibo 和重置按钮。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
10:11
Berryxia.AI@berryxia
49
Codex Plus 和 Pro 用户可在未来两周内邀请最多三位朋友试用。被邀请人发送第一条 Codex 消息后,双方各获一次额度重置。限制:不可邀请自己、被邀请人过去 2 个月未使用过 Codex、且未持有有效邀请。

Yanhua: Codex版拼多多来了👇 在接下来的两周内,Codex Plus 和 Pro 用户可以邀请最多三位朋友试用 Codex: 当朋友发送他们的第一条 Codex 消息时,双方都将获得一次额度重置。 注意有三个限制条件: 1⃣ 不能邀请自己 2...

OpenAI产品更新编码
10:11
Berryxia.AI@berryxia
54
Codex 模型没有新模型发布,但是玩法高出新花样。 可以邀请好友给你重置一次额度。 这不妥妥的利好中转站和俄罗斯套娃拉~

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
09:24
宝玉@dotey
66
Codex 真是把 Token 用量重置玩出花开了,邀请好友,双方都获得一次重置机会,自己重置。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
09:24
小互@xiaohu
51
OpenAI Codex 推邀请好友重置用量活动

OpenAI 公布 Codex 新邀请规则:Plus 和 Pro 用户可邀请最多三位朋友试用 Codex。被邀请好友首次发送 Codex 消息时,邀请者与该好友各获得一次储备重置机会。该机会可保留,用户可随时手动使用,重置后 Codex 用量重新计算,且可重复通过邀请新好友获取新重置机会。

小互: OpenAI 的骚操作真多 哈哈哈 推出了一个活动:每邀请一个好友加入Codex 就帮你自动重置一次用量😅 而且可以重复使用,每当你想重置的时候就可以去邀请好友...

OpenAI产品更新编码
09:14
凡人小北@frxiaobei
77
OpenAI已达成协议收购Ona。其安全云执行技术将帮助Codex在笔记本电脑合盖后继续处理长时间运行的工作,并帮助更多组织在生产环境中安全部署AI智能体。交易完成后,Ona将加入OpenAI Codex团队。主推文:「AI 上云」。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
关联讨论 1 条OpenAI:官网动态(RSS · 排除企业/客户案例)
08:59
meng shao@shao__meng
60
OpenAI Codex 可保存速率重置并推拉新奖励

OpenAI Codex 是不是挖来了 PDD 增长负责人 😂 OpenAI 推出可保存(bank/save)速率限制重置的功能,用户可将重置额度留存至后续自行使用,而非必须在重置窗口内立即消耗。 Go、Plus、Pro 和 Business 用户立即获得 1 次免费重置 可银行储存。 Plus 和 Pro 用户可邀请最多 3 位好友试用 Codex。好友首次发送 Codex 消息时,双方各获得一次额外可银行重置(30 天内可兑现),限时两周 -- 这也太 PDD 了,朋友们帮砍一刀?

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
08:54
宝玉@dotey
37
OpenAI 为 ChatGPT Pro 早期订阅者送出限量版纪念笔。福利面向首批 4000 名填表申领的 Pro 用户,填表不保证资格,部分国家可能无法配送。主推文作者@dotey 已收到并致谢。

宝玉: OpenAI 给 ChatGPT Pro 早期订阅者送了个小礼物:一支限量版纪念笔。 这次福利面向前 4000 名填表申领的 Pro 用户,填表不保证资格,部分国家可能无法配送。

OpenAI行业动态
08:47
jason@jxnlco
75
OpenAI 宣布,用户现可保存 Codex 速率限制重置以供之后使用。Go、Plus、Pro 及 Business 用户将获得一次免费重置。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
08:47
jason@jxnlco
66
浏览器团队干得漂亮!记得关注 @JamesZmSun! (摘要:OpenAI 为 Chrome 和 Codex 应用内浏览器推出开发者模式,Codex 可通过 Chrome DevTools 协议分析 JavaScript 性能并检查控制台输出、网络流量和页面状态。)

OpenAI Developers: Introducing developer mode for browser use in Chrome and the Codex in-app browser. Codex can use the Chrome DevTools Pro...

OpenAI产品更新编码
08:42
OpenAI Developers@OpenAIDevs
53
OpenAI 为 Codex 推出"邀请好友"功能:用户邀请朋友加入 Codex,对方发送第一条消息后,双方各获得一次速率限制(rate limit)重置额度,可存入"银行"留待需要时使用。该功能即日起向 Go、Plus、Pro 和 Business 用户逐步开放,每人首条重置免费。引用推文指出,用户现在可自主保存 rate limit 重置,不再受限于固定时间点。

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新
08:42
OpenAI Developers@OpenAIDevs
精选69
为 Chrome 和 Codex 内置浏览器引入开发者模式。 Codex 可以使用 Chrome DevTools 协议(CDP)来调试浏览器问题,通过分析 JavaScript 性能、检查控制台输出、网络流量和页面状态。
MCP/工具OpenAI产品更新编码

推荐理由:Codex 现在能直接调用 Chrome DevTools 调试浏览器问题,做前端和全栈的同行可以试试,省得在应用和调试工具之间来回切。
08:39
Greg Brockman@gdb
60
接下来两周,推荐朋友使用 Codex,你将获得一次速率限制重置:

OpenAI: We heard you wanted to use Codex rate limit resets on your own time. Starting today, we're rolling out the ability to sa...

OpenAI产品更新编码
08:29
OpenAI@OpenAI
精选70
我们听说您希望能在自己方便的时候使用 Codex 速率限制重置。 从今天起,我们开始推出将速率限制重置保留到以后使用的功能。 我们从 Go、Plus、Pro 和 Business 用户开始,每人提供一次免费重置:
OpenAI产品更新编码

推荐理由:OpenAI 给 Codex 加了个攒速率重置的小功能,没用完的可以存起来以后用,适合偶尔深夜冲刺的开发者。不算大更新,但挺实用。
07:08
🚨 AI News | TestingCatalog@testingcatalog
30
Codex 现在有一个图标选择器,同时提供了新的 Lite 和 Dark 选项。 经典、Lite 还是 Dark?👀
OpenAI产品更新
07:00
Ethan Mollick@emollick
61
Ethan Mollick 指出,GPT-5.5 Pro Extended 和 Claude 5 Fable Max 在 Beninatto-Trombetti 翻译测试中失败。该测试要求将"Solo 3 parole: non sei solo"译为英语,同时将 meta-linguistic 声明从"3 parole"更新为"4 words"(正确译文:"Just 4 words: you are not alone")。但前沿模型拒绝修改措辞,即使提示扮演翻译角色仍回避变更。Valerio Capraro 认为,Claude 5 Fable 作为最新 LLM 仍无法通过此简单测试,说明 LLM 擅重组已知知识但缺乏真正理解,AGI 仍遥远。

Valerio Capraro: Claude Fable 5 doesn't truly understand. And here is a beautiful proof: The Beninatto-Trombetti test is a translation te...

AnthropicOpenAI大佬观点推理
06:32
Tibo@thsottiaux
71
OpenAI宣布已达成协议收购Ona,其安全的云执行技术将帮助Codex处理更长期的任务(即使笔记本电脑关闭也能运行),并让更多组织安全地部署智能体。收购完成后,Ona将加入OpenAI的Codex团队。Tibo对此表示"无比兴奋,期待与Johannes及团队共同构建未来"。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
06:03
elvis@omarsar0
25
今天让我10岁的孩子体验了Codex。 他脸上的兴奋说明了一切。 在用Claude Code CLI折腾了一会儿之后,今天他说:"这就是未来,爸爸。" Codex团队打造了一个漂亮的应用程序。
OpenAI编码评测/基准
05:22
swyx@swyx
61
swyx 祝贺 ONA 团队加入 OpenAI,并引用其演讲透露 Codex 的下一步方向。同时引述 @aiDotEngineer 观点:运行 Agent 集群需要三层--Runtime 与编排触发器已解决,但协调层(Agent 间任务交接、验证阶段、继续执行)仍未解决。Stripe 和 RAMP 各自自建了内部方案 Minions 和 Inspect。@loujaybee 指出 GitHub 作为协调层很差--噪音大、仅为人类设计,不适合数百个并行 PR。他提出的修复方案是构建一个 CLI 网关,供本地编码 Agent 调用以检查当前 SDLC 阶段是否已通过、能否继续。

AI Engineer: Three layers you need to run agent swarms at scale: - Runtime: solved. - Orchestration and triggers: solved. - Coordinat...

智能体OpenAI行业动态
05:05
Peter Steinberger 🦞@steipete
17
让 Chris 用 Codex 做 PR!

Chris Williamson: Cooking. @steipete 🦞

OpenAI其他编码
05:02
elvis@omarsar0
59
threepointone 使用 Fable 处理一个约 10k 行代码的大 PR,花费 $250,认为不值,更倾向小步骤。Elvis Saravia 认同,表示自己用 Opus 4.8 做规划、GPT-5.5 做执行,并将任务拆解成更小步骤能显著提升质量。他认为动态工作流(dynamic workflows)的重要性被大多数人低估了。其日常仍使用 Cursor AI。

sunil pai: spent all day on fable for a giant PR. ~10kloc, lots of testing and intervention. 250$. I... don't think it's worth it? ...

AnthropicOpenAI大佬观点编码
04:59
Rohan Paul@rohanpaul_ai
67
OpenAI 收购 Ona,为 Codex 智能体提供持久云端工作空间

OpenAI 宣布收购 Ona,其安全云端执行技术可为 Codex 智能体创建持久云端工作空间——用户离开后,智能体仍可持续运行命令、检查系统、保留上下文并跨设备恢复任务。目前 Codex 周活用户达 500 万(增长 400%)。收购旨在强化企业级部署:智能体可在企业云边界内运行,具备作用域凭证、审核追踪、访问限制和可审计活动,适用于测试、漏洞修复、重构、迁移等多步骤任务。收购完成后,Ona 团队将加入 OpenAI Codex 团队。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体MCP/工具OpenAI编码
04:21
Sam Altman@sama
41
非常期待合作!

Johannes Landgraf: http://x.com/i/article/2064952499363000320

OpenAI行业动态
03:39
Greg Brockman@gdb
69
欢迎 @ona_hq 加入团队,帮助组织在生产环境中安全部署智能体!

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
03:29
Rohan Paul@rohanpaul_ai
同事件精选82
WSJ:OpenAI 考虑大幅降价,同准备 ChatGPT 史上最大改版备战 IPO

WSJ 报道,OpenAI 正考虑大幅降价以应对与 Anthropic 的竞争。Anthropic 增长主要来自开发者和编码工作流,Claude Code 消耗大量 token,已让企业团队将其融入日常工作。OpenAI 虽在消费品牌上更大,但企业市场才是关键——企业为编码智能体、自动化等工具付费。同时,OpenAI 在 IPO 前准备对 ChatGPT 进行史上最大改版,将其打造成涵盖编码、AI 智能体、图像生成和商业软件的超级应用,改版将在未来几周陆续推出。OpenAI 将更多资源投入编码工具 Codex,目标实现 Codex 工程负责人所说的“个人智能体”。

Rohan Paul: OpenAI is preparing its biggest ChatGPT redesign yet, before its IPO. To make it into a superapp for coding, AI agents, ...

AnthropicOpenAI编码行业动态
同一事件,精选展示《ChatGPT 要变 AgentGPT 了》
推荐理由:WSJ这篇把OpenAI的窘境说清了,C端用户再多也不如开发者每天烧token来钱,所以降价是必然,但ChatGPT变超级应用是在抄Anthropic的作业。
02:46
jason@jxnlco
61
一年多前我见到了@jolandgraf等人、@humford和Sandeep,现在更兴奋很快就能在办公室见到他们! https://openai.com/index/openai-to-acquire-ona/
OpenAI开源生态数据/训练行业动态
01:55
Noam Brown@polynoamial
63
OpenAI 研究员 Noam Brown 表示,GPT-5.5 在 Agents' Last Exam(ALE)基准中排名第一,且按模型 token、成本或墙钟时间衡量同样表现最佳。ALE 由 @dawnsongtweets 团队创建,是一个滚动基准,包含超过 1500 个专家任务、覆盖 55 个职业,测试 AI 智能体能否执行实际经济价值工作。评估对象包括 GPT-5.5、Fable 5、Composer 2.5 等前沿系统。结果显示:当前智能体能解决部分专业任务,但在需要持续推理和深度专业知识的最难层级,所有被测前沿智能体(包括 Fable 5)成功率为 0%。

Dawn Song: Everyone says the latest AI agents will be "job-ready" soon, especially after the release of Fable 5 this week. But is t...

OpenAI大佬观点评测/基准
00:08
🚨 AI News | TestingCatalog@testingcatalog
71
OpenAI 已达成协议收购云执行平台 Ona,其安全云执行技术将帮助 Codex 处理更长时任务(即使笔记本关闭也能继续运行),并让更多组织在生产环境中安全部署智能体。收购完成后,Ona 团队将加入 OpenAI 的 Codex 部门,此举或预示着托管 OpenAI 智能体服务的到来。

OpenAI Newsroom: We've reached an agreement to acquire @ona_hq. Its secure cloud execution technology will help Codex take on longer-runn...

智能体OpenAI行业动态部署/工程
‹ 上一页
1…1112131415…50
下一页 ›