AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2161 条
全部一手资讯X论文
标签「OpenAI」清除
Kling AI@Kling_ai · 5月12日63

Imagine what you could create, templates ready in Kling AI! 🟢

译用户利用GPT image 2与Kling AI,根据详细提示词生成了一张模拟电视转播视角的超写实F1赛事直播截图。画面聚焦于一位在VIP围场/车队车库中的年轻女性,其身份特征从参考图像中被精确保留。她佩戴专业赛车耳机,神情紧张专注,画面包含“FINAL LAP”横幅、计时塔、直播标识等完整的转播图形元素。作品特别注重广播级细节,如压缩伪影、自然肤质和8K画质,旨在完美呈现如同真实电视截图的视觉效果。

Chubby♨️@kimmonismus · 5月12日57

This explains why Sam Altman might be so mad at Dario Amodei: during OpenAI’s messiest breakup episode, the board apparently tried to give Dario the keys, the house, and Sam’s job. Id be pissed too tbh.

译根据Ilya Sutskever的宣誓证词,2023年11月Sam Altman被解雇后,OpenAI董事会曾秘密接触Anthropic,提议其与OpenAI合并,并邀请Anthropic联合创始人Dario Amodei出任新公司的CEO,但该提议遭到Anthropic拒绝。这一曾被质疑为虚假的传闻如今被证实,解释了Sam Altman对Dario Amodei不满的原因。

Greg Brockman@gdb · 5月12日76

AI for helping you build apps powered by AI:

译AI助力构建AI驱动应用: [引用 @OpenAIDevs]:通过OpenAI开发者插件,Codex现可利用OpenAI API助您更快构建AI应用与智能体。

Greg Brockman@gdb · 5月12日65

Having an agent in your meeting is such a futuristic experience:

译让AI代理参与你的会议是一种极具未来感的体验: [引用 @OpenAIDevs]:如果你的团队进行站会汇报时,GPT-Realtime-2自动处理任务工单呢?

Tibo@thsottiaux · 5月12日49

Cybersecurity is changing. Daybreak brings together our most capable cyber models, Trusted Access tiers, advanced security workflows in Codex and at scale repo scanning with patch generation. With much more to come.

译网络安全正在变革。 Daybreak汇聚了我们最强大的网络模型、可信访问层级、Codex中的高级安全流程,以及大规模仓库扫描与补丁生成功能。更多创新即将到来。

Rohan Paul@rohanpaul_ai · 5月12日49

OpenAI just warned investors again with an official blog that unauthorized deals claiming exposure to its equity may be legally void and worth $0. OpenAI equity is not freely tradeable, because every direct or indirect transfer needs written consent from OpenAI before the seller can move any economic interest. This restriction does not only cover normal share sales, but also pledges, side agreements, SPVs, tokenized claims, forward contracts, or any structure designed to give someone the financial upside of OpenAI shares. An SPV is a small investment vehicle that often pools money to buy one private company’s shares, but OpenAI is saying even indirect exposure through such a vehicle can violate its rules. A tokenized interest is a blockchain-based claim that tries to represent ownership or upside in an asset, but OpenAI is saying a token cannot bypass the legal contract governing the actual equity. A forward contract is a promise to deliver future economics tied to shares, but OpenAI is treating these arrangements as possible attempts to transfer value without permission.

译OpenAI通过官方博客再次明确警告,任何未经公司书面同意的股权或经济利益转移均可能无效且价值归零。其股权不可自由交易,所有直接或间接的转让行为,包括出售、质押、侧协议、特殊目的载体(SPV)、代币化权益、远期合约等任何旨在获取OpenAI股份经济收益的结构,都必须事先获得公司批准。OpenAI特别指出,即使通过SPV等间接投资工具获取敞口,或试图利用区块链代币化权益、远期合约等方式绕过股权法律约束,均可能违反规定,导致相关交易在法律上无效。

SiliconFlow@SiliconFlowAI · 5月12日74

Sometimes it’s not just about the answer itself. How information is structured and presented is becoming part of the intelligence layer🧐

译信息的结构与呈现方式本身正成为AI智能层的关键。当前,让大语言模型以HTML格式输出,能提供比默认Markdown更丰富的视觉布局与交互性,是值得尝试的技巧。长远来看,人类虽偏好用音频输入,但视觉(图像/动画/视频)才是更理想的AI输出形式,因为大脑约三分之一皮层专司视觉处理。AI输出形态将沿“原始文本→Markdown→HTML→交互式神经视频/模拟”的路径演进,最终可能由扩散神经网络直接生成交互视频。同时,输入方式也需融合音频、文本、视频及手势等多模态交互。在人机输入输出深度融合方面,仍有巨大发展空间。

Tibo@thsottiaux · 5月12日15

Now that the Codex app is close to being the super app. What should the super duper app do?

译既然Codex应用已接近成为超级应用。 那么超级加强版应用又该做什么呢?

Noam Brown@polynoamial · 5月12日61

Fun fact: the fatal errors were initially flagged using @OpenAI's GPT-5.5

译趣闻:这些致命错误最初是用@OpenAI的GPT-5.5标记的 [引用 @EpochAIResearch]:我们正在对FrontierMath的1-4级进行AI辅助审查。这已标记出约三分之一题目的致命错误,且我们认为大多数标记是有效的。完成人工审核后,我们将在修正数据集上公布更新分数。

meng shao@shao__meng · 5月12日71

Codex 发布 OpenAI Developers 插件 OpenAI Developers 插件,把分散在 OpenAI 平台上的多条开发链路(API Key、Agents SDK、Apps SDK / ChatGPT Apps)打包进 Codex,让 Codex 能在一个会话里完成「拿到密钥 → 写应用 / Agent → 排查 API 错误 → 准备 ChatGPT Apps 提审」的闭环。 插件包括:1 个 App + 5 个 Skill 1 App:OpenAI Platform 5 Skill:OpenAI API Key Setup、OpenAI API Troubleshooting、Agents SDK、Build ChatGPT App、ChatGPT App Submission 插件适用场景三个动词:build / create / diagnose · build —— 让 Codex 用 OpenAI API 直接产出一个可运行的应用、Agent 或 ChatGPT App,而不是只给一段 snippet。 · create —— 在 Codex 里直接生成 API Key 并完成本地配线,省掉来回切 Dashboard、复制粘贴 .env 的步骤。 · diagnose —— 看到报错时把"错误码 → 含义 → 该改哪行代码"一次性给齐,避免漫无目的地搜索社区。

译OpenAI 为 Codex 推出 OpenAI Developers 插件,将 API 密钥管理、Agents SDK、Apps SDK 及 ChatGPT Apps 开发等分散流程整合至单一会话环境。该插件包含一个 OpenAI Platform 应用和五项核心技能,支持开发者直接构建完整应用、创建并配置 API 密钥,以及诊断 API 错误。其核心目标是帮助开发者更高效地利用 OpenAI API 构建 AI 应用和智能体,实现从开发到提审的闭环工作流,提升开发效率。

Ethan Mollick@emollick · 5月12日65

gpt-realtime-2 is a great voice model (with a typically bad OpenAI name). Voice models are natively processing speech, not transcribing it, so the intelligence of the model matters. The old voice model was GPT-4o level, this is much smarter (how smart? OpenAI gave no benchmarks)

译gpt-realtime-2 是一个出色的语音模型(名字却沿袭了OpenAI一贯的糟糕风格)。 语音模型本质上是处理语音,而非转录语音,因此模型的智能程度至关重要。 旧版语音模型是 GPT-4o 级别,而新版则智能得多(有多智能?OpenAI未提供基准测试数据)。

ginobefun@hongming731 · 5月12日71

http://x.com/i/article/2053997483949453312 # BestBlogs 早报·05-12:Claude Code 智能体视图、OpenAI 部署公司、AI 英雄主义时代终结 在线阅读和收听:https://www.bestblogs.dev/explore/brief/2026-05-12 ## 导语 今天是 2026 年 5 月 12 日,欢迎收听 BestBlogs 每日早报。 今天的内容主线,可以用一个词来概括:落地。 Claude Code 上线智能体视图,开发者终于能在一块面板里统管所有并行会话,并发工作的认知成本大幅下降。这不只是一个 UI 改进,而是 AI 辅助编程从"单线程"跳到"多线程"的关键一跳——以往你需要在十几个终端标签和 tmux 格子之间来回横跳,现在一个左箭头就能看到全局。 与此同时,OpenAI 成立了独立部署子公司,初始投入超四十亿美元,并将一百五十名前线部署工程师直接派驻进企业内部。这是一个明确的信号:AI 的瓶颈已经从"模型够不够强"切换到"AI 能不能真正跑进生产"。卖许可证的时代告一段落,服务到现场才是下半场的竞争。 而在今天最值得细听的一篇内容里,亲历了 Anthropic 和 Google DeepMind 前沿训练的研究员姚顺宇,用四小时的对话说清楚了一件事:AI 行业的英雄主义时代已经过去了,这个行业真正稀缺的不是天才,而是靠谱、做事细、对自己的工作负责。 今天我们有三篇精讲,七篇速览,以及五篇扩展阅读。我们开始吧。 ## 精讲一:Claude Code 中的智能体视图 | Claude 来源:Claude Blog 背景:并行工作是开发者最痛的认知负担 如果你最近用 Claude Code 跑过多任务,应该对这个场景很熟悉:一个窗口在帮你写测试,另一个窗口在 review PR,第三个在搜索 bug。你需要在多个终端标签之间来回切换,同时还要记住"哪个任务跑到哪里了、哪个在等我回复"。这个认知开销随着并发任务数线性增长,最终会把人逼回单任务模式。 Claude Code 今天发布的智能体视图(Agent View),正是为了解决这个问题。 核心功能:一屏总览,按需介入 智能体视图的核心设计思路是:将所有并行会话集中在一个面板里,让你只在关键决策节点介入。 操作方式很简单:在任意会话中按左箭头,或在终端执行 claude agents,即可打开智能体视图。每一行显示一个会话的状态——是否在等你输入、当前的最后一条响应内容、上次交互时间。你可以快速"Peek"(预览)某个会话的最后一轮,如果需要决策,可以直接在预览界面回复,无需切换进入完整对话。会话收到回复后,自动继续往下跑。 对于长期运行的任务,可以通过 /bg 指令把当前会话发到后台,或者启动时直接用 claude --bg [task] 跳过前台,作为纯后台任务运行。 早期用户的实际使用模式 根据官方整理的早期用户反馈,有几个典型使用场景: 最常见的是批量下发任务:把多个想法或任务同时分配给多个 Claude 会话,每个会话可以配合不同的 skill,等一批 PR 同时就绪再集中审查。这个模式相当于把原本串行的开发流程改成了并行流水线。 另一个场景是管理长期运行的 Agent:比如 PR 守卫、Dashboard 更新器这类循环作业,在智能体视图里可以直接看到下一次运行时间,不需要再去查日志。 第三个是在多任务中快速切换:当你正在进行一个主任务时,突然想开一个新的快速问题或子任务,按左箭头打开智能体视图,新建会话,得到答案后右箭头回到原来的会话。Peek 功能会在答案就绪时直接显示,不需要你主动去切换。 为什么这个更新很重要 Claude Code 之前的多任务体验,高度依赖用户自己管理 tmux 或多终端标签,认知负担都压在开发者身上。智能体视图的意义在于,它把"多 Agent 协作"的组织成本从用户侧转移到了工具侧。 以研究预览形式,当前开放给 Pro、Max、Team、Enterprise 以及 API 用户,需要运行 claude agents 来手动开启。感兴趣可以访问官方文档了解更多。 这篇内容的完整阅读地址:https://www.bestblogs.dev/article/e8c4364d ## 精讲二:OpenAI 推出 OpenAI 部署公司,助力企业围绕智能构建业务 来源:OpenAI Blog 不是卖许可证,是派人到现场 OpenAI 今天宣布成立一家新的独立子公司:OpenAI Deployment Company(OpenAI 部署公司)。这家公司的使命,是帮助企业真正把 AI 系统用起来、用好——不是卖一个 API 调用权限,而是派人到企业里,贴着业务场景把 AI 推进生产。 核心执行力量是一批被称为 **FDE(Forward Deployed Engineers,前线部署工程师)**的人。通过收购应用 AI 咨询公司 Tomoro,OpenAI 部署公司从第一天起就配备了大约 150 名经验丰富的 FDE 和部署专家。这些人将常驻在客户的内部团队中,识别 AI 能发挥最大价值的场所,重新设计围绕 AI 的组织基础设施和关键工作流,并把阶段性收益固化成可持续的系统。 超四十亿美元的起步资金 OpenAI 部署公司以超过四十亿美元的初始投入正式启动,由 TPG 领投,Advent、Bain Capital 和 Brookfield 作为联合创始合伙人,Goldman Sachs、SoftBank Corp.、McKinsey、Bain & Company、Capgemini 等十九家机构也在其中。 OpenAI 对该子公司拥有多数所有权和控制权,客户无论是直接与 OpenAI 合作,还是通过 OpenAI 部署公司合作,都将获得统一的体验。未来募集的资金将用于扩大运营规模,以及继续收购能够加速 AI 部署的公司。 瓶颈从模型能力转向落地能力 OpenAI 在公告中直接说清楚了这一战略背景:过去几年,超过一百万家企业采用了 OpenAI 的产品和 API。通过这些部署,一个规律越来越清晰——企业 AI 的下一阶段,将由企业把技术真正跑进实际业务的能力来决定,而不是由模型本身有多强来决定。 这不是 OpenAI 的一厢情愿,而是一个在市场上已经反复被验证的现象:AI 系统训练好了、API 也打通了,但一旦到了需要真正改变业务流程的地方,就卡住了。卡在哪里?卡在组织惰性、流程设计、安全顾虑、以及缺乏专门了解 AI 局限性的工程人才。 OpenAI 部署公司的逻辑,是把这"最后一公里"的落地能力变成一项可规模化交付的服务,并且配上足够多的人力和资本让它真的做到。 一个标志性的业务模式转变 这一举动背后,是 OpenAI 对当前企业 AI 采用现状的清晰判断:技术已经够用了,但大量企业不知道如何把 AI 系统真正嵌入到关键业务流程中。 一个典型的 OpenAI 部署公司参与模式,从诊断开始:定位 AI 能在哪些业务场景创造最大价值,选出少量优先流程与客户领导层和运营团队共同确定目标,然后 FDE 进驻企业内部,完成系统设计、开发、测试和部署——把 OpenAI 的模型与客户的数据、工具、控制体系和业务流程连接起来,让团队在日常工作中可以稳定使用。 一个行业信号 从 Palantir 的部署工程师模式,到今天腾讯研究院分析的 FDE 岗位暴增,再到 OpenAI 直接成立独立公司——AI 从"研究机构"走向"商业化运营机构"的转型,今天的发布是一个明确的结构性确认。 值得注意的是,OpenAI 部署公司的独立运营,也意味着 OpenAI 正在把这个增长方向从内部项目升格为战略级业务,与 Google Cloud、AWS 等云厂商通过专业服务团队推动企业 AI 采用的路径,形成了直接的正面竞争。AI 落地能力,已经成为这轮竞争的新高地。 完整公告见:https://www.bestblogs.dev/article/f648cbd2 ## 精讲三:姚顺宇 4 小时访谈:在 Anthropic 训 Claude、AI 英雄主义时代已过去 来源:张小珺 Jùn|商业访谈录 一个"小疯"的亲历者 今天要介绍的这期节目,是张小珺对姚顺宇长达四小时的深度访谈。姚顺宇毕业于清华和斯坦福,研究背景是理论物理(非厄米系统、量子物理、高能物理),博士毕业后转行进入 AI 领域。过去两年,他先后在 Anthropic 和 Google DeepMind 担任研究科学家,参与了 Claude 3.7、4.5 和 Gemini 3 等关键模型的开发。 按理说,这样的履历应该让人谦虚地说"只是参与了重要的项目"。事实上他确实这么说了——但他说这句话的语气,和表面意思恰好相反,带着一种对 AI 行业"神话个体"叙事的主动警惕。 "AI 不太需要脑子"是什么意思 访谈里,姚顺宇说了一句容易被断章取义的话: > "AI 这个事,本来也不太需要脑子——真的不太需要脑子。这个行业最重要的特质,就是靠谱,就是做事细,对自己做的事情负责任。" 听起来像在说 AI 研究很简单,其实他在说的是:AI 行业的核心竞争力,已经不再是某种难以复制的天才洞察,而是工程执行力。在预训练规模已经证明有效、主要技术路线基本确立的今天,能把一件事做踏实、不出岔子、持续迭代,反而是真正的稀缺能力。 他做了一个很有意思的比喻: > "现在大家都是冲浪的人,本质上是那个浪,而不是你那个冲浪的人。" 意思是,模型能力的演进(那个"浪")才是主要动力,而研究员只是借着这个浪在推进工作。在这个背景下,对个体天赋的过度崇拜,很可能是一种认知偏差。 AI 英雄主义时代已经过去 这句话是访谈里的核心判断。 2020 年前后,AI 领域确实经历了一段个人英雄主义色彩浓厚的时期——一篇论文、一个算法、一个团队,可以显著推动整个领域的进步。但在今天,前沿模型的训练是一个需要数百人协作、跨越漫长时间线、依赖海量算力的工程行动。个人的贡献被稀释进了集体的系统中。 姚顺宇说: > "AI 个人英雄主义时代已经过去了,所以也没有什么英雄,有时候甚至觉得旧时代英雄有点蠢。" 这句话的语气很直,但背后的逻辑是认真的:如果我们继续用英雄主义的叙事框架来理解 AI 行业,就会把注意力放错地方——崇拜某个人,而不是理解整个系统是如何工作的。 在 Anthropic 训练 Claude 的第一手观察 访谈的技术部分,姚顺宇谈到了预训练的现状(他的判断是"Pre-train 没有到头")、Coding 爆发的背后驱动力、"硬蒸"和"聪明的蒸"的本质区别,以及字节豆包在技术路线上的判断。 由于涉及企业机密,他在许多地方选择点到为止,但光是这些点到为止的判断,已经比大多数媒体报道包含更多信息密度。 录制于 2026 年 3 月,节目发出时 AI 领域又已发生了许多变化——他特别说明,请大家体谅内容的滞后性。这大概也是这个行业的宿命:任何"最新判断",很快就会成为"历史记录"。 完整访谈:https://www.bestblogs.dev/podcast/a4391a3 ## 速览 今天还有七篇值得关注的内容,我来快速过一遍。 Anthropic 推出 Claude Managed Agents,助力规模化部署 Anthropic 官方宣布推出 Claude Managed Agents,面向需要大规模构建和部署 AI Agent 的用户。核心功能包括顾问策略(Prompt Caching 和 System Prompts)、代码执行环境,以及网络搜索能力。Anthropic 负责运营这项服务,所有新功能将在原生 Claude API 上线的同一天同步推出。这是 Anthropic 在企业级 Agent 基础设施层面迈出的重要一步,配合今天 Claude Code 智能体视图的发布,当前的方向非常清晰:把并发 Agent 的部署和管理,变成一种标准化、可托管的能力。 阅读地址:https://www.bestblogs.dev/status/2053868595394879553 Andrej Karpathy 谈人机交互的未来:从文本到交互式神经视频 Karpathy 分享了一个实用技巧:让 LLM 以 HTML 格式输出,然后在浏览器里打开——视觉效果比纯文本 Markdown 丰富得多。他借此延伸出一个更大的判断:音频是人类的优选输入方式,而视觉(图像、动画、视频)是人类的优选输出方式。他描绘了一条从纯文本到 Markdown 到 HTML,再到扩散模型直接生成的交互式神经视频的演进路径。更丰富的输入模态(比如直接用手指向屏幕内容描述上下文)也是他认为需要补全的一环。不算深度技术文章,但这种把实用技巧和长期判断连接起来的思维方式,值得学习。 阅读地址:https://www.bestblogs.dev/status/2053872850101285137 我们刚过了人类最后一个劳动节?AI 新职业的八个变化 腾讯研究院基于 7 家 AI 原生公司 2026 年劳动节当天的 1570 个在招岗位做了一次数据分析,得出了八个结构性结论。最值得关注的几条:岗位总量在 8 个月内翻了一倍多(从 718 涨到 1570);AI 公司的人力重心从研发转向了产品和商业化,但工程师绝对数量没有下降;部署类岗位(尤其是 FDE,前线部署工程师)从零星几个暴涨到了上百个;推广者(销售、客户成功、合作伙伴)增速全类别最快,增长到了原来的四倍多。这份数据很适合拿来和今天 OpenAI 部署公司的新闻一起看,两个信号相互印证:AI 行业的下半场,商业化落地能力才是核心战场。 阅读地址:https://www.bestblogs.dev/article/9042fa70 Pinterest 如何构建生产级 MCP 生态系统 ByteByteGo 这篇文章,详细拆解了 Pinterest 内部是如何把 MCP(Model Context Protocol)做到生产级的。他们面对的问题是:五个 AI 接入面(内部聊天应用、IDE 插件、聊天机器人、CLI Agent、自主 Agent)加上十个内部工具,如果没有统一协议,就需要五十个定制集成,每多加一个面或工具都是乘法。MCP 把这个 N×M 的问题变成了 N+M 的问题。但真正的工程量不在协议本身,而在协议周边:中央注册表、双层认证系统、统一部署流水线,以及从第一天起就内嵌的可观测性。对于正在或打算在公司内推广 MCP 的人,这篇文章是一份很好的实践参考。 阅读地址:https://www.bestblogs.dev/article/dcf387de SocialReasoning-Bench 揭示当前 AI 智能体的局限性 微软研究院推出了一个新的基准测试——SocialReasoning-Bench,专门评估 AI Agent 在社交情境中的表现。测试设计了两个场景:日历协调和市场谈判。结论很刺激:前沿模型在这两类场景中,始终无法为用户争取到最大利益,大量价值被遗留在谈判桌上。即便通过 Prompt 明确指示"代表用户争取最大利益",表现依然远低于一个称职的代理应该达到的水平。这意味着,在需要社交推理和利益博弈的场景中,AI Agent 现在其实并不可靠——这既是当前的局限,也是一个清晰的研究机会。 阅读地址:https://www.bestblogs.dev/article/d1e95073 再也无需手写项目更新:Notion 的 AI 赋能工程会议 来自 Notion 工程总监 Ryan Nystrom 的分享,演示了 AI 如何彻底重塑工程站会。核心是一个叫"Hot Potato"的自定义 Notion AI Agent,每天早上 9 点自动运行,对过去 24 小时的 Slack 对话、GitHub PR、Notion 任务库和 Honeycomb 指标(通过 MCP 接入)做一次"Map-Reduce"——开会的时候,AI 已经准备好了一份有内容的会议前置文档,团队直接跳过状态播报环节,进入实质讨论。还有一个叫 Boxy 的内部工具,通过在 Notion 评论里 @ AI Agent,带着 bug 描述或特性需求,Agent 会自动开一个 VM 写代码、跑测试、开 PR。这是工程管理流程里 AI 落地最完整的案例之一。 阅读地址:https://www.bestblogs.dev/video/121c5d7 Netflix 借助 Apache Druid 的区间感知缓存,84% 的查询结果来自缓存 Netflix 面临的问题很典型:实时分析系统每天处理万亿级数据行,而 Dashboard 上的查询通常是"过去 3 小时的错误率"这类滚动窗口查询。时间窗口每隔几分钟稍微一移,传统缓存系统就认为这是一个全新请求,完全重算。Netflix 引入了区间感知缓存策略:把查询拆解成稳定子区间和最新动态段,稳定部分命中缓存,最新的动态部分实时计算后合并。结果是 84% 的查询命中了缓存,查询负载下降了 33%,P90 查询时间提升了 66%。对做数据分析系统的工程师来说,这是一篇值得精读的系统设计案例。 阅读地址:https://www.bestblogs.dev/article/8ba3a393 ## 扩展阅读 今天还有五篇值得一读的好文,根据你的兴趣选择。 深度拆解:AI Agent Harness 的构造(宝玉的分享) AI Agent 在 Demo 上跑得不错,放进生产就开始掉链子——问题不在模型,在模型外围的基础设施。这篇文章系统拆解了 AI Agent Harness 的十二个核心组件,涵盖编排循环、工具调用、记忆管理、上下文管理,并对比了 Anthropic、OpenAI、LangChain 等主流框架的实现差异。如果你正在搭建或优化自己的 Agent 系统,这是一份很好的组件清单和设计参考。 阅读地址:https://www.bestblogs.dev/article/40a5fbba 在 Anthropic 的读心术之外,大模型黑盒迎来了真正的法医(腾讯科技) Anthropic 用 SAE(Sparse Autoencoder)路线做模型可解释性——通过激活分析读懂模型在"想什么"。而 Goodfire 的 Tom McGrath(Anthropic 和 DeepMind 可解释性团队前成员)走了一条不同的路:直接拆模型权重本身。他们的 VPD(对抗参数分解)方法,把一个 67M 的小语言模型拆成了数万个可以单独命名和修改的最小计算单元。这篇文章深入对比了这两条路线,并指出这是 AI 从炼金术走向科学的一颗信号弹。和今日精讲三在主题上也有共鸣:当我们更清楚地理解模型是如何工作的,"AI 英雄主义"的叙事会更进一步被解构。 阅读地址:https://www.bestblogs.dev/article/17cd71a0 PayPal 借助 Cursor 将路线图吞吐量提升 40%(Cursor Blog) PayPal 有 8000 名开发者,代码库跨越数十年。他们用 Cursor 完成了一次标志性的规模验证:原本需要 8 到 12 个月的 3000 个应用 Java 升级,两个月搞定。路线图吞吐量提升了 40%,部署节奏从每周变成了每日。这篇文章没有停在数字上,而是详细讲了 PayPal 如何从高影响力团队开始切入,逐步推广 Cursor 使用的过程。对于在大型企业内推广 AI 编程工具的人,这是一个可以直接借鉴的路径。 阅读地址:https://www.bestblogs.dev/article/839fd633 黄金时代论:Marc Andreessen 谈 AI 与劳动力的未来(a16z) Marc Andreessen 在播客访谈中阐述了他的"黄金时代论":AI 不只是工具,而是一种普适的超能力,将劳动力从专业化角色转变为无所不包的"建设者"(Builder)。他认为,以前创建软件需要程序员、产品经理、设计师三类角色,AI Agent 现在让一个人可以同时做到三件事,进入"超级生产者"时代。这个判断和今天精讲三里姚顺宇的"集体主义胜利"论形成了有趣的张力——Andreessen 看到的是个体能力的放大,姚顺宇看到的是英雄主义的式微,两者其实都是真实的,只是站的维度不同。 阅读地址:https://www.bestblogs.dev/video/21d8b07 裁员潮将持续,直到我们学会发掘 AI 的商业价值(宝玉的分享) 这篇文章来自一位正处于裁员名单边缘的工程师,在 5 月 20 日公布结果前写下的思考——所以特别有真实感。他的核心论点是:当前的裁员潮,不是因为 AI 直接取代了员工,而是因为企业还没学会把海量 AI 投入转化成商业成果。AI 带来的是"投入"(更多代码、更多功能、更多方案),但"成果"(收入增长、用户增长、实际业务价值)没有同步提升。为了抵消高昂的 AI 支出和膨胀的组织内耗,裁员成了短期平衡手段。和今日腾讯研究院的那篇数据文章放在一起读,构成了同一个问题的两面:岗位在增加,但价值转化的压力也在增加。 阅读地址:https://www.bestblogs.dev/article/a77fcd78 ## 今日阅读路径 如果今天时间有限,我建议按以下顺序读三篇: 第一篇:Claude Code 中的智能体视图 如果你用 Claude Code,这是今天最值得立刻打开的一篇。跟着文章走一遍,开启 claude agents 体验一下智能体视图,20 分钟能建立起直接的使用感知。 第二篇:姚顺宇 4 小时访谈 这篇耗时最长,但信息密度极高。建议选一个整块的时间,把从 1:53:47 开始的"在 Anthropic 训练 Claude"部分认真听完——这是你能从一个亲历者口中听到的、关于前沿模型训练最真实的描述之一。 第三篇:我们刚过了人类最后一个劳动节 1570 个岗位的数据,比任何关于 AI 就业的预测文章都更有说服力。和今天 OpenAI 部署公司的新闻放在一起看,能帮助你快速建立对 AI 行业真实结构变化的感知。 今天的早报就到这里。感谢收听 BestBlogs 每日早报 EP55,我们明天见。 BestBlogs Pro 早鸟内测开放:你可以自定义订阅源、配置兴趣标签,每天获得一份属于自己的头条早报。欢迎抢先体验,并把反馈发回给我们:https://bestblogs.dev

译Claude Code发布智能体视图,将多会话管理集成于单一面板,旨在降低开发者并行工作的认知负担,标志着AI辅助编程进入“多线程”阶段。OpenAI宣布成立独立部署子公司,初始投入超四十亿美元,并派驻约150名前线部署工程师进入企业,表明AI竞争焦点已从模型能力转向实际落地能力。同时,行业观点认为,AI的“英雄主义时代”已经过去,当前稀缺的是靠谱、细致、负责任的工程执行力,而非天才洞察。

ginobefun@hongming731 · 5月12日72

OpenAI 推出 OpenAI 部署公司 OpenAI 今天宣布成立独立子公司 OpenAI Deployment Company,专门解决企业 AI 真正落地的问题。 核心角色是一批前线部署工程师(FDE,Forward Deployed Engineers)。他们会常驻进企业内部,和业务团队、技术团队以及一线员工一起工作,找出 AI 能创造最大价值的场景,重新设计关键流程,把 AI 系统跑进生产环境。通过收购 AI 咨询公司 Tomoro,这家新公司从第一天起就拥有了约 150 名有实战经验的 FDE 和部署专家。 初始投入超过 40 亿美元,由 TPG 领投,Goldman Sachs、SoftBank、McKinsey、Bain & Company 等 19 家机构参与,OpenAI 持有多数股权。 这次成立的战略背景,OpenAI 在公告里说得很清楚:过去几年,超过 100 万家企业采用了 OpenAI 的产品和 API。从这些部署里看到的规律是:企业 AI 下一阶段的决定因素,已经从模型本身有多强,转向了企业能否把技术真正跑进实际业务。技术够用了,瓶颈在落地。 典型的部署方式:先诊断,找出哪些场景 AI 能创造最大价值;和客户管理层确定优先流程;然后 FDE 进驻内部,完成系统设计、开发和部署,把 OpenAI 的模型与客户的数据和工作流接起来。 从 Palantir 的驻场工程师模式,到腾讯研究院记录的 FDE 岗位在 8 个月内暴增,再到 OpenAI 直接成立独立公司:AI 落地能力已经成为这轮竞争的新主轴。OpenAI 把这个方向从内部项目升格为战略级业务,与 Google Cloud、AWS 等云厂商的企业服务团队形成直接竞争。

译OpenAI宣布成立独立子公司OpenAI Deployment Company,旨在解决企业AI落地难题。该公司通过收购AI咨询公司Tomoro,组建了约150名前线部署工程师团队,将常驻企业内部,识别高价值场景并将AI系统整合至工作流。OpenAI指出,当前企业AI的瓶颈已从模型能力转向实际业务落地。此轮融资超40亿美元,由TPG领投。此举标志着AI竞争焦点转向落地能力,OpenAI将该业务提升至战略层级,直接与主要云厂商的企业服务竞争。

meng shao@shao__meng · 5月12日66

OpenAI Daybreak OpenAI 面向网络安全防御的整体战略与产品矩阵,核心目标是把前沿模型能力优先且可控地交到防御者手里,让软件从一开始就"内生抗攻击",而不是事后修补。 核心理念:从"打补丁"转向"内生韧性" 传统安全是"发现漏洞 → 修补"的被动循环。Daybreak 提出的范式是: · Resilient by design(设计即韧性):安全在编码阶段就介入 · AI 加速防御闭环:跨代码库推理、识别隐蔽漏洞、验证补丁、分析陌生系统、从发现到修复一路打通 · 能力对称带来风险:同样的能力可被滥用,因此 Daybreak 的另一半是信任、验证、按比例的安全栏与问责 定位词:"Daybreak"(破晓)= 更早看到风险、更快采取行动。 产品三层访问体系(关键结构) 1. GPT-5.5(默认):通用安全护栏,用于通用开发与知识工作 2. GPT-5.5 + Trusted Access for Cyber (TAC):对已验证的防御工作放宽分类器拒答,用于安全代码审查、漏洞分诊、恶意软件分析、检测工程、补丁验证 3. GPT-5.5-Cyber:最宽松行为,但配以更强账户验证与监控,用于授权红队、渗透测试、受控验证(限量预览) 判断逻辑:同一个 prompt(例如"为某 CVE 写一个 PoC"),三层模型给出的回复可能从"拒答"到"给出防御性脚本"再到"实际验证 exploit 可执行"。区分点不在模型本身的智力,在于调用者是谁、做什么、有没有被授权。 Trusted Access for Cyber (TAC):身份即权限 TAC 是 Daybreak 的"准入控制层",2026 年 2 月推出,本次升级到 GPT-5.5: · 个人:在 chatgpt. com/cyber 验证身份 · 企业:通过 OpenAI 销售渠道为团队整体申请 · 强制安全:2026 年 6 月 1 日起,访问最强模型必须启用抗钓鱼账户保护(或企业 SSO 等价机制) 被允许的:漏洞识别与分诊、恶意软件分析、二进制逆向、检测工程、补丁验证。 仍被阻断的:凭据窃取、隐匿持久化、恶意软件部署、攻击第三方系统。 生态与"安全飞轮"(Security Flywheel) OpenAI 没有把自己定位成端到端安全产品商,而是做底层模型 + Codex agent harness,和各层伙伴拼成闭环: · 漏洞研究/修补:Intel 等 · 检测与监控(EDR/SIEM):SentinelOne · 软件供应链:Snyk、Semgrep、Socket、Gen Digital(典型用例:拦截类似 axios 投毒事件) · 网络与边缘防护:Cisco、Cloudflare(在补丁全量铺开前用 WAF 缓解) 飞轮逻辑:研究方披露 → 供应链工具阻止脏依赖入库 → EDR/SIEM 发现野外利用 → 网络层临时缓解。AI 让每一环都更快。 Codex Security:把能力下沉到开源 · Codex Security 是 agent 形态的安全工作流:自动建威胁模型、模拟攻击路径、隔离环境验证、提补丁等待人工审。 · Codex for Open Source:关键开源项目维护者可拿到 Codex Security + API 额度,降低维护负担。 · 提供 Codex Security 插件,可直接嵌入 Codex App / CLI。 战略意图很明显:开源是漏洞扩散最快的通道,所以直接补贴上游维护者。

译OpenAI推出网络安全整体战略“Daybreak”,旨在将前沿AI能力优先、可控地赋予防御者,推动安全范式从“事后修补”转向“设计即内生韧性”。其基于GPT-5.5模型构建三层访问体系,通过“身份即权限”的信任访问机制,为已验证的防御任务放宽能力限制。该战略联合Intel、Cisco等生态伙伴形成“安全飞轮”,并通过Codex Security agent赋能开源软件供应链上游,加速防御闭环。

Sam Altman@sama · 5月12日30

would you call it a superapp?

译你会称它为 超级应用吗?

Sam Altman@sama · 5月12日32

speaking of things that have gotten over a threshold for me, the combo of the new ChatGPT model, personality, and personalization feels like a new thing

译说到那些对我来说已跨越阈值的事物,新版ChatGPT模型、个性化和定制功能的结合,感觉像一种全新存在。

Berryxia.AI@berryxia · 5月12日71

Codex 现在直接把自己变成了能自己造 AI 产品的工厂。 OpenAI 今天官宣:Codex 新增「OpenAI Developers」插件,能在终端里直接创建 API Key、调用 OpenAI 所有 API。 自动把想法变成完整可运行的 AI app 和 agent,完全不用手动配环境、写 boilerplate。

译OpenAI宣布为Codex新增“OpenAI Developers”插件,开发者可直接在终端内创建API Key并调用所有OpenAI API。该功能旨在将想法自动转化为完整可运行的AI应用和智能体,无需手动配置开发环境或编写基础模板代码,显著简化了AI产品的开发流程。

Berryxia.AI@berryxia · 5月12日64

太牛了! OpenAI直接把AI塞进了网络安全的最前线。 他们今天正式推出Daybreak,用最强模型 + Codex + 安全合作伙伴共同打造的“前沿AI网络防御武器”,目标是让安全团队终于能跟上攻击者的速度。 提前发现漏洞、快速修复、自动化检测验证和响应,把积压的安全工作彻底清掉。

译OpenAI正式推出名为Daybreak的“前沿AI网络防御武器”。该产品旨在将AI直接应用于网络安全最前线,目标是帮助安全团队跟上攻击者的速度。Daybreak整合了OpenAI最强大的模型、Codex以及安全合作伙伴的技术,其核心功能包括提前发现漏洞、快速修复、自动化检测验证和响应,以期彻底清除安全工作的积压任务。

OpenAI Developers@OpenAIDevs · 5月12日48

What if your team gave standup updates, and GPT-Realtime-2 moved the tickets?

译如果你的团队在站会中更新进度,而GPT-Realtime-2自动移动任务票呢?

Sam Altman@sama · 5月12日61

OpenAI is launching Daybreak, our effort to accelerate cyber defense and continuously secure software. AI is already good and about to get super good at cybersecurity; we'd like to start working with as many companies as possible now to help them continuously secure themselves.

译OpenAI正在启动Daybreak项目,旨在加速网络防御并持续保护软件安全。 AI在网络安全领域已表现优异且即将实现突破;我们希望立即与尽可能多的公司合作,助力其实现持续安全防护。

Greg Brockman@gdb · 5月12日67

Daybreak: our umbrella effort for defensive acceleration, equipping cyber defenders with the best possible frontier AI capabilities.

译Daybreak:我们的防御加速伞式计划,为网络防御者提供最前沿的AI能力。 [引用 @OpenAI]:Introducing Daybreak: frontier AI for cyber defenders. Daybreak汇聚了最强大的OpenAI模型、Codex以及我们的安全合作伙伴,以加速网络防御并持续保障软件安全。 迈向安全团队能以防御所需速度行动的未来。

OpenAI@OpenAI · 5月12日60

Introducing Daybreak: frontier AI for cyber defenders. Daybreak brings together the most capable OpenAI models, Codex, and our security partners to accelerate cyber defense and continuously secure software. A step toward a future where security teams can move at the speed defense demands.

译推出Daybreak:面向网络防御者的前沿AI。 Daybreak汇集了最强大的OpenAI模型、Codex以及我们的安全合作伙伴,以加速网络防御并持续保障软件安全。 朝着安全团队能以防御所需速度行动的未来迈进一步。

宝玉@dotey · 5月12日66

Codex 的野心,MCP 和 Skill 的下一步 这段时间我在密集使用 Codex App、Cursor 等 Agent 应用,有件事越来越觉得有意思。 去年大家争的是谁家模型更强,今年争的好像变成了谁家窗口右侧更好用。 Codex、Claude 桌面版、Cursor 3.0、TRAE SOLO,这几家最顶尖的 Agent,在完全没有协商的情况下,几乎同时收敛到了同一个界面布局:左侧是项目和会话列表,中间是和 Agent 的对话,右侧是工作区,放着文件浏览、网页预览、文件变更审查这些功能。 肯定不是相互之间的抄袭,更像是当前 Agent 交互的最优解。 【1】为什么是三栏 传统 Chatbot 只需要两栏,左边会话历史,右边对话窗口,你问它答,用完走人。 到了 Agent 时代,Agent 能自己写代码、改文件、调工具了。它做完之后,你得看看有没有做对——右侧工作区就是为这件事出现的。 但这只是第一阶段。 随着用户越来越多时间是在指挥 Agent,打开 VSCode 这类专业工具的时间自然越来越少。那个问题迟早会冒出来:Agent 帮你写完代码、做完 PPT,你想微调几个字,还要专门切出去打开另一个软件? 没有人愿意这样。用户的自然期待是:能不能直接在 Agent 里改?这也是目前 Codex App 呼声最高的功能之一(另一个呼声高的是手机版,马上要出了)。 于是各家开始悄悄升级右侧工作区,让它从只能看文件编辑记录,变成了一个多功能区。Codex 在 4 月 16 日的大版本更新里,右侧工作区的改动幅度是所有功能里最大的。 交互细节上各家略有差异。Codex 和 Cursor 用 Tab 切换,Claude 用浮动面板。我自己用下来觉得 Codex 最顺手,Claude 的浮动面板方案设计感有余、实用性不足,迟早要改。 【2】Codex 的真正野心 但如果只把这个变化读成“设计界面进化”,就低估 Codex 了。 Codex 4 月大版本发布时的口号是“Codex for (almost) everything”——几乎任何任务都能做。你可以把它理解成一句广告口号,但更像是一个产品方向的声明。 要兑现这句话,Codex 不能只是个擅长写代码的 Agent,它必须能处理各种文件格式,支持各领域的专业工作流,还要让用户能在它里面完成全程闭环,包括最后的人工微调。 目前 Codex 还做不到最后一步:生成之后无法编辑,代码、Markdown、PPTX 都不行。这可能是产品上有意为之的克制,可能是技术上还没跑通,也可能是在等一个统一的解决方案出现。 我猜是第三种。 【3】MCP 和 Skill 都只解决了一半 要理解 Codex 在等什么,得先想清楚 Agent 能力拼图里现在差哪一块。 MCP 解决了“连接”问题:Agent 通过统一规范接入各种工具,数据库、日历、代码仓库,都能打通。 Agent Skills 解决了“怎么做”的问题:Agent 学会了它没训练过的领域知识和最佳实践,比如怎么写特定风格的文章,怎么处理某类复杂任务。 这两件事做得都还不错。但有一块缺口始终没补上:用户的二次编辑。 你让 AI 写完一篇文章,最后还是要自己打开编辑器改几处,毕竟很多时候最后那 5% 的精准度,只有自己动手才能到位。就算将来 AI 再聪明,它也做不到百分百的懂你,还是少不了要手动去做修改。 于是最近 Markdown 编辑器又火了,各种 Vibe Coding 出来的 Markdown 产品满天飞。 但 Codex 不会自己做一个 Markdown 编辑器,因为每个人的偏好都不一样,做出来永远有人不满意;更何况它也不可能把每个垂直领域的专业编辑器都集成进来。 最合理的路,是插件机制。 【4】下一步:Agent 版 App Store 把 Agent 做成平台,让社区来贡献插件,就像 VSCode 和 Chrome 那样。 Codex 只需要聚焦在 Agent 调度这一层,把文件预览、二次编辑、垂直领域的专业能力都交给插件来扩展。用户按需安装,做设计的装设计插件,写作者装写作插件。 插件机制还能顺手解决一个长期没有答案的问题:Skill 没办法商业化。 我自己的 baoyu-skills 快 2 万 Star 了,但从中赚到的钱是 $0。Skill 这东西几乎是透明的,对 Agent 透明,对人也透明,复刻成本极低,不管你写得再好,护城河都很浅。 插件不一样。App Store 和 Chrome 插件市场已经跑通了一套收费和版权保护机制,把它移植到 Agent 插件市场完全可行。好插件可以收费,开发者才有持续打磨的动力,生态才真正能转起来。 Codex 现在已经有了一个非常原始的插件市场。从这里到成熟的收费插件生态,还有很长的路,但方向是对的。 想做这件事的不止 Codex 一家。Cursor 我能看到类似的影子。唯独 Claude Code 和 Cowork,目前没看到这个方向的产品迹象——也许他们不屑于做,也许只是还没走到这一步。 【5】留给中小团队的窗口 如果 Codex 真的跑通了插件生态,对中小团队意味着什么? 除了自己做一个垂直 Agent,还有另一条路:在 Codex 这样的平台上做插件。不用自己搭 Agent 调度层,不用解决 Token 接入,用户分发也靠平台。你只需要专注在那个“最后一公里”——帮用户把 Agent 生成的结果处理好、编辑好、用得顺手。 这个窗口不会开太久。先进去的能拿到冷启动红利,晚进去的只剩存量竞争。 时间点不会太远,也许就在这几个月。 Codex 的野心摆在那里,“几乎任何任务”这个口号要真正兑现,插件机制是绕不过去的一步。如果 OpenAI 在这件事上继续犹豫,那才是真的失误。 你觉得这个插件生态最后会是哪家先跑通?或者说你觉得有更适合 Agent 的产品表现形式?欢迎留言分享!

译Codex、Claude等顶尖Agent应用均采用三栏界面,反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台,但用户需二次编辑AI生成内容。目前MCP解决工具连接,Skill解决执行方法,仍缺编辑闭环。作者认为,建立类似VSCode的插件生态是合理路径,将文件预览、专业编辑等能力开放给社区开发,实现商业化,从而为中小团队提供开发垂直插件的机遇。

Chubby♨️@kimmonismus · 5月12日72

Anthropic: “Claude Mythos is too cyber-capable to release broadly. We need tight controls. 😳” OpenAI: “Here’s GPT-5.5-Cyber, Codex Security, Trusted Access tiers, repo scanning, patch generation, and red-team workflows. Please be verified first, but yes, go find the bugs. 😎”

译Anthropic因认为其Claude Mythos模型网络能力过强,决定采取严格管控措施,暂不广泛发布。与之形成鲜明对比的是,OpenAI推出了一系列开放的网络安全工具与策略,包括GPT-5.5-Cyber、Codex Security、信任访问分级、代码库扫描、补丁生成和红队工作流,并要求用户在通过验证后参与漏洞发现。同时,OpenAI还推出了整合前沿模型与Codex的Daybreak平台,旨在加速网络防御,帮助安全团队提升响应速度。这清晰地反映了两家公司在AI安全开发与部署理念上的根本差异。

OpenAI Developers@OpenAIDevs · 5月12日69

Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.

译Codex现可通过OpenAI Developers插件,帮助您利用OpenAI API更快地构建AI应用和智能体。

Ethan Mollick@emollick · 5月12日61

One of the most important properties of LLMs that we take for granted is that newer, bigger models are just better at everything. The AI Labs are pouring effort into economically valuable fields like coding, but bigger models are also better at negotiation, alignment, poetry, etc

译大语言模型(LLM)的一个重要特性是,更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域,但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如,在PACT基准测试的数千场模拟谈判中,GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩,这印证了模型规模与综合能力提升的正相关关系。

PixVerse@PixVerse_ · 5月12日70

ok @PixVerse_ these vibrant panels slap 🔥

译用户通过引用推文展示了由GPT Image 2在PixVerse平台上生成的一组高端时尚编辑图像。该图像采用2行4列的网格布局,包含8个独立面板。每个面板均以不同鲜艳纯色或渐变背景呈现一位身着现代街头服饰的年轻男模特,搭配滑板、吉他等道具,并采用简洁的工作室布景。图像整体追求商业广告摄影风格,具有奢侈品品牌广告的美学质感,强调柔和灯光、清晰阴影、逼真皮肤和电影级质感,且不含任何文字或标识。

Greg Brockman@gdb · 5月12日71

Introducing the OpenAI Deployment Company, which will help businesses maximally succeed with their deployments of AI. Starting with 150 Forward Deployed Engineers and Deployment Specialists, and $4 billion of initial investment from 19 partners.

译OpenAI宣布成立一家由其控股的部署公司,旨在帮助企业成功部署和应用AI技术。该公司整合了19家领先的投资机构、咨询公司和系统集成商作为合作伙伴,并获得了40亿美元的初始投资。启动团队包括150名前沿部署工程师和部署专家,核心目标是协助各类组织将前沿AI技术投入生产环境,以产生实际的商业影响。

Artificial Analysis@ArtificialAnlys · 5月11日65

Announcing the Artificial Analysis Coding Agent Index! Our new coding agent benchmarks measure how combinations of agent harnesses and models perform on 3 leading benchmarks, token usage, cost and more When developers use AI to code they’re choosing a model, but also pairing it with a specific harness. It makes sense to benchmark that combination to understand and compare performance. The Artificial Analysis Coding Agent Index includes 3 leading benchmarks that represent a broad spectrum of coding agent use: ➤ SWE-Bench-Pro-Hard-AA, 150 realistic coding tasks that frontier models struggle with, sampled from Scale AI’s SWE-Bench Pro ➤ Terminal-Bench v2, 84 agentic terminal tasks from the Laude Institute and that range from system administration and cryptography to machine learning. 5 tasks were filtered due to environment incompatibility ➤ SWE-Atlas-QnA, 124 technical questions developed by Scale AI about how code behaves, root causes of issues, and more, requiring agents to explore codebases and give text answers Analysis of results: ➤ Opus 4.7 and GPT-5.5 lead the Index: Opus 4.7 in Cursor CLI scores 61, followed closely by GPT-5.5 in Codex and Opus 4.7 in Claude Code at 60. GPT-5.5 in Cursor CLI follows at 58. ➤ Open weights models are competitive, but still trail the leaders: GLM-5.1 in Claude Code is the top open-weight result at 53, followed by Kimi K2.6 and DeepSeek V4 Pro in Claude Code at 50. These are strong results, but still meaningfully behind the top proprietary models. ➤ Gemini 3.1 Pro in Gemini CLI underperforms: Gemini 3.1 Pro in Gemini CLI scores 43, well below where Gemini 3.1 Pro sits on our Intelligence Index, highlighting that Gemini’s performance in Gemini CLI remains a relative weak spot for Google’s offering. ➤ Cost per task (API token pricing) varies >30x: Composer 2 in Cursor CLI is cheapest at $0.07/task, followed by DeepSeek V4 Pro in Claude Code at $0.35/task and Kimi K2.6 in Claude Code at $0.76/task. At the high end, GPT-5.5 in Codex costs $2.21/task, while GLM-5.1 in Claude Code costs $2.26/task. For both models this was contributed to by high token usage, and in GPT-5.5’s case by a relatively higher per token cost. ➤ Token usage varies >3x: GLM-5.1 in Claude Code uses the most tokens at 4.8M/task, followed by Kimi K2.6 at 3.7M/task and DeepSeek V4 Pro at 3.5M/task. GPT-5.5 in Codex uses 2.8M tokens/task, substantially more than Opus 4.7 in Claude Code at 1.7M/task. In GLM-5.1’s case, higher token usage, cost and execution time were partly driven by the model entering loops on some tasks. ➤ Cache hit rates remain high but vary materially: Cache hit rates range from 80% to 96% across combinations. Provider routing, harness prompt structure and cache behavior can materially change the economics of running the same model given cached inputs are typically <50% the API price of regular input tokens. ➤ Time per task varies >7x: Opus 4.7 in Claude Code is fastest at ~6 minutes/task, while Kimi K2.6 in Claude Code is slowest at ~40 minutes/task. This is contributed to by differences in average turns per task, token usage and API serving speed. Opus 4.7 had materially lower amount of turns to complete a task than all other models while Kimi K2.6 had the most. ➤ Cursor made real progress with Composer 2: Composer 2 in Cursor CLI scores 48, near the leading open-weight model results, while being the cheapest combination measured at $0.07/task. Cursor has stated Composer 2 is built from Kimi K2.5, showcasing they have made substantial post-training gains. This is just the start. We are planning to add additional agents (both harnesses and models). Let us know what you would like to see added next.

译人工智能分析发布编码代理基准指数,评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先,GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分,表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊:每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等,后者因任务循环令牌使用高达480万;任务耗时差异超7倍,Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高,影响实际运行成本。

swyx 🌉@swyx · 5月11日60

openai's new $10b forward deployed company is so locked in they can't even bother to server side render properly (jk congrats, nice win for UK AI 🇬🇧)

译openai的新万亿级前向部署公司如此专注,甚至懒得做好服务器端渲染 (开玩笑的,祝贺英国AI取得漂亮胜利🇬🇧)

Chubby♨️@kimmonismus · 5月11日79

OpenAI is no longer just selling models. With its new Deployment Company, OpenAI is moving deeper into the enterprise stack: not only giving companies access to AI models, but helping them actually deploy AI inside real business workflows. (A push presumably intended to make OpenAI more attractive than Anthropic in the enterprise sector.) The key idea: Forward Deployed Engineers. These are engineers who work closely with customers, understand their internal processes, connect AI to existing tools and data, and build systems that actually run in production. The value comes when AI is embedded into core operations: sales, legal, customer support, software engineering, finance, research, and supply chains. That is the gap OpenAI now wants to own. The obvious comparison is Palantir. Palantir became powerful by sending engineers into complex organizations and building deeply integrated software systems around their data and decisions. OpenAI is now applying a similar model to frontier AI. This is a major strategic behind it? OpenAI does not want to be just the model provider. It wants to become the deployment layer of the AI economy.

译OpenAI正从单纯销售模型转向深入企业技术栈,其新成立的“部署公司”旨在通过“前沿部署工程师”帮助客户将AI深度集成到实际业务流程中。此举意在增强其企业市场竞争力,对标Palantir的深度集成服务模式。OpenAI收购Tomoro,将立即获得150名经验丰富的部署工程师与专家,以加速这一战略。其核心目标是成为AI经济的“部署层”,而不仅仅是模型提供商。

meng shao@shao__meng · 5月11日83

OpenAI 成立"部署公司"(DeployCo):从模型供应商走向企业级落地服务商 OpenAI 宣布成立 OpenAI Deployment Company(DeployCo),独立但由 OpenAI 控股的子公司,专门帮助企业把前沿 AI 真正嵌入到核心业务流程中。同时收购英国应用 AI 咨询公司 Tomoro,并联合 19 家全球顶级 PE 与咨询集成商组成"联合舰队",启动资金超过 40 亿美元。 https://openai.com/index/openai-launches-the-deployment-company/ 新公司定位 · 由 OpenAI 多数股权控股、控制 · 作为独立业务单元运营,拥有自己的节奏与客户运营模式 · 但保持与 OpenAI 研究、产品、内部部署团队的紧密连接 · 核心工种:Forward Deployed Engineer(FDE,前置部署工程师) 收购 Tomoro · 应用 AI 咨询与工程公司,客户包括 Tesco、Virgin Atlantic、Supercell · 带来约 150 名经验丰富的 FDE 与部署专家 · 让 DeployCo "第一天就有人能干活" 合作伙伴结构 · 牵头投资方:TPG · 联合创始合伙人:Advent、Bain Capital、Brookfield · 创始合伙人:B Capital、BBVA、Emergence Capital、Goanna、Goldman Sachs、SoftBank Corp.、Warburg Pincus、WCAS · 咨询与系统集成方:Bain & Company、Capgemini、McKinsey & Company 19 家投资与咨询伙伴的被投企业组合共覆盖 2000+ 家公司,加上集成商的客户网络则达"数千家"。 资金体量 · 启动资金 40 亿美元以上 · 用途:扩大运营规模 + 持续收购能加速 AI 部署的公司 DeployCo 的典型交付流程: · 诊断 → 找到最高价值的 AI 切入点 · 选定少数优先工作流(不是大而全) · 驻场设计、构建、测试、部署生产系统 · 把 OpenAI 模型连接到客户的数据、工具、控制、业务流程 "Forward Deployed Engineer"几乎是 Palantir 商业模式的代名词——工程师驻场客户、围绕真实业务流程构建系统、然后把通用模式沉淀回平台。

译OpenAI宣布成立由其控股的独立子公司OpenAI Deployment Company,旨在帮助企业将前沿AI技术深度集成至核心业务流程。该公司通过收购英国咨询公司Tomoro获得了约150名部署专家,并联合了包括TPG、贝恩资本、高盛等在内的19家顶级投资机构和咨询集成商,形成覆盖数千家企业的服务网络。启动资金超过40亿美元,将用于扩大运营和持续收购。其核心工作模式是派遣“前置部署工程师”驻场,为客户量身定制并部署AI生产系统。

凡人小北@frxiaobei · 5月11日82

OpenAI 成立 Deployment Company,拉来麦肯锡、贝恩、凯捷当股东。 画个重点:不是合作伙伴,是直接成立公司成为股东了!!! 这个结构下,大概就是 PE 机构带资入场,被投企业顺势成为天然客户池,然后咨询公司负责把 AI 渗透进甲方的每条工作流。OpenAI 自己也不用跑销售,客户网络直接继承了几大 PE 的产业版图。 其实 5.4 Anthropic 也宣布与高盛、Blackstone 成立类似合资公司。不过跟 OpenAI 那边相比规模小不少,15 亿 vs 100 亿,但逻辑一模一样,都是派驻工程师进企业重构工作流,靠 PE 被投企业做客户池。​​​​​​​​​​​​​​​​ 模型到了这个时间点,配合上 coding harness 能力已经爆了,企业 AI 落地的战场正式打响,而且两家同时选择用联姻金融资本+咨询机构的方式开局,说明单靠 API 卖模型已经到天花板了。 国内这边估计很快会有跟进动作,华为、阿里、字节在企业侧早有布局,这个打法对他们并不陌生,只是规模和结构会有本土化变体。 麦肯锡、贝恩、凯捷这些公司入局,传统 IT 咨询/实施类公司(比如埃森哲)的企业 AI 份额受挤压压力持续加大,PE 机构把被投企业批量导入,相当于给 OpenAI 锁定了一批中大型 B 端客户,短期应该利好 AI 应用层估值逻辑。加上川普访华,可以入些相关股票了。 国内对标来看,能做驻场落地的 AI 服务商会比纯 SaaS 模式更受资本青睐,人力密集型的 AI 交付模式反而成了壁垒,利好华为啊。

译OpenAI 成立由其控股的部署公司,引入麦肯锡、贝恩、凯捷等咨询公司及多家投资机构作为股东,旨在共同推动前沿AI在企业生产环境中的落地。其核心模式是私募机构提供资金与被投企业客户资源,咨询公司负责将AI深度集成至企业工作流,使OpenAI能快速承接庞大B端客户网络。几乎同时,Anthropic也与高盛等成立了类似合资公司。这标志着企业AI落地战役进入新阶段,单纯售卖API的模式面临瓶颈,深度驻场交付成为新竞争壁垒。预计国内厂商将跟进类似策略。

Peter Steinberger 🦞@steipete · 5月11日35

GPT got sassy.

译GPT变得俏皮了。

OpenAI@OpenAI · 5月11日69

Today we’re launching the OpenAI Deployment Company to help businesses build and deploy AI. It's majority-owned and controlled by OpenAI. It brings together 19 leading investment firms, consultancies, and system integrators to help organizations deploy frontier AI to production for business impact. https://openai.com/index/openai-launches-the-deployment-company/

译今天我们正式启动OpenAI Deployment Company,以帮助企业构建和部署人工智能。 该公司由OpenAI持有多数股权并控制。它汇聚了19家领先的投资公司、咨询机构和系统集成商,共同帮助各组织将前沿AI技术部署到生产环境中以实现商业影响。https://openai.com/index/openai-launches-the-deployment-company/

🚨 AI News | TestingCatalog@testingcatalog · 5月11日40

OPENAI 🔥: A mention of a new Ultrafast mode appeared for some time on the Codex GitHub repository. &gt; "The fastest available responses for latency-sensitive work." Seems like it was unintended push 👀

译OPENAI 🔥: Codex GitHub仓库曾短暂出现新型超高速模式的提及。 &gt; "为延迟敏感型任务提供最快的可用响应。" 此次推送似乎属于意外操作 👀

Peter Steinberger 🦞@steipete · 5月11日53

I'm adding new features to https://gogcli.sh and Codex noticed that the API it needs is not enabled, so it started Computer Use and is happily clicking around in Google Cloud Admin to turn on what's needed.

译我正在为https://gogcli.sh添加新功能,Codex注意到所需的API未启用,于是它启动计算机使用功能,正在Google Cloud管理界面中愉快地点击以开启所需服务。

Peter Steinberger 🦞@steipete · 5月11日62

Can highly recommend running a claw cron job that sweeps through mentions. GPT is really good at detecting shills and AI reply guy slop.

译强烈推荐运行一个抓取提及的定时脚本。 GPT非常擅长识别推广账号和AI回复的垃圾内容。

Chubby♨️@kimmonismus · 5月11日37

Looks like "ultra-fast"-mode coming to Codex very soon!

译看起来"极速"模式很快就要登陆Codex了!

Peter Steinberger 🦞@steipete · 5月11日25

challenged codex to e2e test improvements to the OpenClaw chat completion endpoint WITH openclaw. Used /side to ask more question while it works.

译使用OpenClaw对OpenClaw聊天完成端点的端到端测试改进发起挑战。 在它工作时使用/side功能提出更多问题。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月12日
18:33
Kling AI@Kling_ai
63
用户利用GPT image 2与Kling AI,根据详细提示词生成了一张模拟电视转播视角的超写实F1赛事直播截图。画面聚焦于一位在VIP围场/车队车库中的年轻女性,其身份特征从参考图像中被精确保留。她佩戴专业赛车耳机,神情紧张专注,画面包含"FINAL LAP"横幅、计时塔、直播标识等完整的转播图形元素。作品特别注重广播级细节,如压缩伪影、自然肤质和8K画质,旨在完美呈现如同真实电视截图的视觉效果。

Ciri: Made with GPT image 2 + Kling AI Prompt: Ultra-realistic F1 live TV broadcast screenshot, identity preserved exactly fro...

OpenAI图像生成多模态教程/实践
16:56
Chubby♨️@kimmonismus
57
根据Ilya Sutskever的宣誓证词,2023年11月Sam Altman被解雇后,OpenAI董事会曾秘密接触Anthropic,提议其与OpenAI合并,并邀请Anthropic联合创始人Dario Amodei出任新公司的CEO,但该提议遭到Anthropic拒绝。这一曾被质疑为虚假的传闻如今被证实,解释了Sam Altman对Dario Amodei不满的原因。

Andrew Curran: In November 2023, after Sam Altman had been fired, it was reported that OpenAI met secretly with Anthropic and asked Dar...

AnthropicOpenAI行业动态
14:59
Greg Brockman@gdb
76
AI助力构建AI驱动应用: 【引用 @OpenAIDevs】:通过OpenAI开发者插件,Codex现可利用OpenAI API助您更快构建AI应用与智能体。

OpenAI Developers: Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.

智能体OpenAI产品更新编码
13:29
Greg Brockman@gdb
65
让AI代理参与你的会议是一种极具未来感的体验: 【引用 @OpenAIDevs】:如果你的团队进行站会汇报时,GPT-Realtime-2自动处理任务工单呢?

OpenAI Developers: What if your team gave standup updates, and GPT-Realtime-2 moved the tickets?

智能体OpenAI产品更新语音
12:12
Tibo@thsottiaux
49
网络安全正在变革。 Daybreak汇聚了我们最强大的网络模型、可信访问层级、Codex中的高级安全流程,以及大规模仓库扫描与补丁生成功能。更多创新即将到来。
OpenAI产品更新安全/对齐编码
12:01
Rohan Paul@rohanpaul_ai
49
OpenAI再次警告投资者:未经授权的股权交易可能无效且价值归零

OpenAI通过官方博客再次明确警告,任何未经公司书面同意的股权或经济利益转移均可能无效且价值归零。其股权不可自由交易,所有直接或间接的转让行为,包括出售、质押、侧协议、特殊目的载体(SPV)、代币化权益、远期合约等任何旨在获取OpenAI股份经济收益的结构,都必须事先获得公司批准。OpenAI特别指出,即使通过SPV等间接投资工具获取敞口,或试图利用区块链代币化权益、远期合约等方式绕过股权法律约束,均可能违反规定,导致相关交易在法律上无效。

OpenAI行业动态
11:12
SiliconFlow@SiliconFlowAI
精选74
信息的结构与呈现方式本身正成为AI智能层的关键。当前,让大语言模型以HTML格式输出,能提供比默认Markdown更丰富的视觉布局与交互性,是值得尝试的技巧。长远来看,人类虽偏好用音频输入,但视觉(图像/动画/视频)才是更理想的AI输出形式,因为大脑约三分之一皮层专司视觉处理。AI输出形态将沿"原始文本→Markdown→HTML→交互式神经视频/模拟"的路径演进,最终可能由扩散神经网络直接生成交互视频。同时,输入方式也需融合音频、文本、视频及手势等多模态交互。在人机输入输出深度融合方面,仍有巨大发展空间。

Andrej Karpathy: This works really well btw, at the end of your query ask your LLM to "structure your response as HTML", then view the ge...

OpenAI多模态大佬观点

推荐理由:Karpathy 给的路线图从文本到 HTML 再到神经视频,其中第一步的‘让 LLM 输出 HTML’你今晚就能用上。未来交互形态的思考,值得产品经理细读。
09:42
Tibo@thsottiaux
15
既然Codex应用已接近成为超级应用。 那么超级加强版应用又该做什么呢?
OpenAI大佬观点编码
09:35
Noam Brown@polynoamial
61
趣闻:这些致命错误最初是用@OpenAI的GPT-5.5标记的 【引用 @EpochAIResearch】:我们正在对FrontierMath的1-4级进行AI辅助审查。这已标记出约三分之一题目的致命错误,且我们认为大多数标记是有效的。完成人工审核后,我们将在修正数据集上公布更新分数。

Epoch AI: We are conducting an AI-assisted review of FrontierMath: Tiers 1-4. This has flagged fatal errors in about a third of pr...

OpenAI论文/研究评测/基准
09:05
meng shao@shao__meng
71
Codex 发布 OpenAI Developers 插件

OpenAI 为 Codex 推出 OpenAI Developers 插件,将 API 密钥管理、Agents SDK、Apps SDK 及 ChatGPT Apps 开发等分散流程整合至单一会话环境。该插件包含一个 OpenAI Platform 应用和五项核心技能,支持开发者直接构建完整应用、创建并配置 API 密钥,以及诊断 API 错误。其核心目标是帮助开发者更高效地利用 OpenAI API 构建 AI 应用和智能体,实现从开发到提审的闭环工作流,提升开发效率。

OpenAI Developers: Codex can now help you build AI apps and agents faster with OpenAI APIs using the OpenAI Developers plugin.

智能体MCP/工具OpenAI产品更新
08:59
Ethan Mollick@emollick
65
gpt-realtime-2 是一个出色的语音模型(名字却沿袭了OpenAI一贯的糟糕风格)。 语音模型本质上是处理语音,而非转录语音,因此模型的智能程度至关重要。 旧版语音模型是 GPT-4o 级别,而新版则智能得多(有多智能?OpenAI未提供基准测试数据)。
OpenAI多模态大佬观点语音
08:49
ginobefun@hongming731
71
Claude Code推智能体视图,OpenAI成立部署公司,AI英雄主义时代终结

Claude Code发布智能体视图,将多会话管理集成于单一面板,旨在降低开发者并行工作的认知负担,标志着AI辅助编程进入“多线程”阶段。OpenAI宣布成立独立部署子公司,初始投入超四十亿美元,并派驻约150名前线部署工程师进入企业,表明AI竞争焦点已从模型能力转向实际落地能力。同时,行业观点认为,AI的“英雄主义时代”已经过去,当前稀缺的是靠谱、细致、负责任的工程执行力,而非天才洞察。

智能体AnthropicOpenAI行业动态
08:49
ginobefun@hongming731
72
OpenAI 推出 OpenAI 部署公司

OpenAI宣布成立独立子公司OpenAI Deployment Company,旨在解决企业AI落地难题。该公司通过收购AI咨询公司Tomoro,组建了约150名前线部署工程师团队,将常驻企业内部,识别高价值场景并将AI系统整合至工作流。OpenAI指出,当前企业AI的瓶颈已从模型能力转向实际业务落地。此轮融资超40亿美元,由TPG领投。此举标志着AI竞争焦点转向落地能力,OpenAI将该业务提升至战略层级,直接与主要云厂商的企业服务竞争。

OpenAI行业动态部署/工程
08:35
meng shao@shao__meng
66
OpenAI发布网络安全战略"Daybreak":以AI赋能防御者

OpenAI推出网络安全整体战略“Daybreak”,旨在将前沿AI能力优先、可控地赋予防御者,推动安全范式从“事后修补”转向“设计即内生韧性”。其基于GPT-5.5模型构建三层访问体系,通过“身份即权限”的信任访问机制,为已验证的防御任务放宽能力限制。该战略联合Intel、Cisco等生态伙伴形成“安全飞轮”,并通过Codex Security agent赋能开源软件供应链上游,加速防御闭环。

OpenAI: Introducing Daybreak: frontier AI for cyber defenders. Daybreak brings together the most capable OpenAI models, Codex, a...

OpenAI产品更新安全/对齐开源生态
07:10
Sam Altman@sama
30
你会称它为 超级应用吗?

Rex Sorgatz: After being a Claude Code devotee for a year, I finally tried Codex on a new project this weekend. Once again, in the ma...

OpenAI大佬观点编码
07:10
Sam Altman@sama
32
说到那些对我来说已跨越阈值的事物,新版ChatGPT模型、个性化和定制功能的结合,感觉像一种全新存在。
OpenAI大佬观点
06:49
Berryxia.AI@berryxia
71
OpenAI推出开发者插件,终端内直接创建API与应用

OpenAI宣布为Codex新增“OpenAI Developers”插件,开发者可直接在终端内创建API Key并调用所有OpenAI API。该功能旨在将想法自动转化为完整可运行的AI应用和智能体,无需手动配置开发环境或编写基础模板代码,显著简化了AI产品的开发流程。

智能体OpenAI产品更新编码
06:49
Berryxia.AI@berryxia
64
OpenAI推出Daybreak,AI驱动网络防御新武器

OpenAI正式推出名为Daybreak的“前沿AI网络防御武器”。该产品旨在将AI直接应用于网络安全最前线,目标是帮助安全团队跟上攻击者的速度。Daybreak整合了OpenAI最强大的模型、Codex以及安全合作伙伴的技术,其核心功能包括提前发现漏洞、快速修复、自动化检测验证和响应,以期彻底清除安全工作的积压任务。

OpenAI产品更新安全/对齐
06:31
OpenAI Developers@OpenAIDevs
48
如果你的团队在站会中更新进度,而GPT-Realtime-2自动移动任务票呢?
OpenAI教程/实践语音
05:40
Sam Altman@sama
61
OpenAI正在启动Daybreak项目,旨在加速网络防御并持续保护软件安全。 AI在网络安全领域已表现优异且即将实现突破;我们希望立即与尽可能多的公司合作,助力其实现持续安全防护。
OpenAI产品更新安全/对齐
05:28
Greg Brockman@gdb
67
Daybreak:我们的防御加速伞式计划,为网络防御者提供最前沿的AI能力。 【引用 @OpenAI】:Introducing Daybreak: frontier AI for cyber defenders. Daybreak汇聚了最强大的OpenAI模型、Codex以及我们的安全合作伙伴,以加速网络防御并持续保障软件安全。 迈向安全团队能以防御所需速度行动的未来。

OpenAI: Introducing Daybreak: frontier AI for cyber defenders. Daybreak brings together the most capable OpenAI models, Codex, a...

OpenAI产品更新安全/对齐
05:10
OpenAI@OpenAI
60
推出Daybreak:面向网络防御者的前沿AI。 Daybreak汇集了最强大的OpenAI模型、Codex以及我们的安全合作伙伴,以加速网络防御并持续保障软件安全。 朝着安全团队能以防御所需速度行动的未来迈进一步。
OpenAI产品更新安全/对齐
05:03
宝玉@dotey
66
Codex 的野心,MCP 和 Skill 的下一步

Codex、Claude等顶尖Agent应用均采用三栏界面,反映其从问答转向任务执行与审查的演进。Codex野心是成为“处理一切任务”的平台,但用户需二次编辑AI生成内容。目前MCP解决工具连接,Skill解决执行方法,仍缺编辑闭环。作者认为,建立类似VSCode的插件生态是合理路径,将文件预览、专业编辑等能力开放给社区开发,实现商业化,从而为中小团队提供开发垂直插件的机遇。

智能体MCP/工具OpenAI现象/趋势
04:55
Chubby♨️@kimmonismus
72
Anthropic因认为其Claude Mythos模型网络能力过强,决定采取严格管控措施,暂不广泛发布。与之形成鲜明对比的是,OpenAI推出了一系列开放的网络安全工具与策略,包括GPT-5.5-Cyber、Codex Security、信任访问分级、代码库扫描、补丁生成和红队工作流,并要求用户在通过验证后参与漏洞发现。同时,OpenAI还推出了整合前沿模型与Codex的Daybreak平台,旨在加速网络防御,帮助安全团队提升响应速度。这清晰地反映了两家公司在AI安全开发与部署理念上的根本差异。

OpenAI: Introducing Daybreak: frontier AI for cyber defenders. Daybreak brings together the most capable OpenAI models, Codex, a...

OpenAI产品更新安全/对齐
04:01
OpenAI Developers@OpenAIDevs
精选69
Codex现可通过OpenAI Developers插件,帮助您利用OpenAI API更快地构建AI应用和智能体。
智能体OpenAI产品更新编码

推荐理由:把 Codex 直接接入 OpenAI API 开发流程,这是在给自家开发者递快刀,做 AI 应用和 Agent 的可以第一时间装上,省掉的不只是时间,还有调试的心力。
02:29
Ethan Mollick@emollick
61
大语言模型(LLM)的一个重要特性是,更新、更大的模型在所有方面都表现更优。AI实验室正将大量资源投入编程等经济价值高的领域,但更大的模型在谈判、对齐、诗歌创作等广泛任务上同样更具优势。例如,在PACT基准测试的数千场模拟谈判中,GPT-5.5在买卖双方多轮议价游戏中取得了最佳成绩,这印证了模型规模与综合能力提升的正相关关系。

Lech Mazur: First update to PACT, my head-to-head LLM negotiation benchmark! 20-round buyer-seller bargaining game: each round the A...

OpenAI大佬观点推理现象/趋势
01:53
PixVerse@PixVerse_
70
用户通过引用推文展示了由GPT Image 2在PixVerse平台上生成的一组高端时尚编辑图像。该图像采用2行4列的网格布局,包含8个独立面板。每个面板均以不同鲜艳纯色或渐变背景呈现一位身着现代街头服饰的年轻男模特,搭配滑板、吉他等道具,并采用简洁的工作室布景。图像整体追求商业广告摄影风格,具有奢侈品品牌广告的美学质感,强调柔和灯光、清晰阴影、逼真皮肤和电影级质感,且不含任何文字或标识。

Cherry 2.O: GPT Image 2 on @PixVerse_ Prompt 👇 Ultra high-end fashion editorial collage in a 2 rows and 4 columns grid layout (tota...

OpenAI图像生成教程/实践
01:27
Greg Brockman@gdb
71
OpenAI宣布成立一家由其控股的部署公司,旨在帮助企业成功部署和应用AI技术。该公司整合了19家领先的投资机构、咨询公司和系统集成商作为合作伙伴,并获得了40亿美元的初始投资。启动团队包括150名前沿部署工程师和部署专家,核心目标是协助各类组织将前沿AI技术投入生产环境,以产生实际的商业影响。

OpenAI: Today we're launching the OpenAI Deployment Company to help businesses build and deploy AI. It's majority-owned and cont...

OpenAI行业动态部署/工程
5月11日
23:57
Artificial Analysis@ArtificialAnlys
65
人工智能分析发布编码代理基准指数,揭示模型与执行框架组合表现

人工智能分析发布编码代理基准指数,评估不同模型与执行框架组合在三大编码基准中的表现。Opus 4.7在Cursor CLI中以61分领先,GPT-5.5与Opus 4.7在其它框架中得分60紧随其后。开源模型GLM-5.1在Claude Code中获得53分,表现竞争但仍显著落后顶尖闭源模型。经济性差异悬殊:每任务成本从Composer 2的0.07美元到GLM-5.1的2.26美元不等,后者因任务循环令牌使用高达480万;任务耗时差异超7倍,Opus 4.7仅需6分钟而Kimi K2.6需40分钟。缓存命中率普遍较高,影响实际运行成本。

智能体AnthropicDeepSeekOpenAI
23:34
swyx 🌉@swyx
60
openai的新万亿级前向部署公司如此专注,甚至懒得做好服务器端渲染 (开玩笑的,祝贺英国AI取得漂亮胜利🇬🇧)

OpenAI: We've also agreed to acquire Tomoro, which will bring 150 experienced Forward Deployed Engineers and Deployment Speciali...

OpenAI行业动态
22:53
Chubby♨️@kimmonismus
79
OpenAI成立部署公司,深入企业AI应用层

OpenAI正从单纯销售模型转向深入企业技术栈,其新成立的“部署公司”旨在通过“前沿部署工程师”帮助客户将AI深度集成到实际业务流程中。此举意在增强其企业市场竞争力,对标Palantir的深度集成服务模式。OpenAI收购Tomoro,将立即获得150名经验丰富的部署工程师与专家,以加速这一战略。其核心目标是成为AI经济的“部署层”,而不仅仅是模型提供商。

OpenAI: We've also agreed to acquire Tomoro, which will bring 150 experienced Forward Deployed Engineers and Deployment Speciali...

OpenAI行业动态部署/工程
22:34
meng shao@shao__meng
83
OpenAI成立部署公司,携40亿美元助企业落地AI

OpenAI宣布成立由其控股的独立子公司OpenAI Deployment Company,旨在帮助企业将前沿AI技术深度集成至核心业务流程。该公司通过收购英国咨询公司Tomoro获得了约150名部署专家,并联合了包括TPG、贝恩资本、高盛等在内的19家顶级投资机构和咨询集成商,形成覆盖数千家企业的服务网络。启动资金超过40亿美元,将用于扩大运营和持续收购。其核心工作模式是派遣“前置部署工程师”驻场,为客户量身定制并部署AI生产系统。

OpenAI: Today we're launching the OpenAI Deployment Company to help businesses build and deploy AI. It's majority-owned and cont...

OpenAI行业动态部署/工程
22:31
凡人小北@frxiaobei
82
OpenAI 成立控股部署公司,联合投资机构与咨询公司构建生态

OpenAI 成立由其控股的部署公司,引入麦肯锡、贝恩、凯捷等咨询公司及多家投资机构作为股东,旨在共同推动前沿AI在企业生产环境中的落地。其核心模式是私募机构提供资金与被投企业客户资源,咨询公司负责将AI深度集成至企业工作流,使OpenAI能快速承接庞大B端客户网络。几乎同时,Anthropic也与高盛等成立了类似合资公司。这标志着企业AI落地战役进入新阶段,单纯售卖API的模式面临瓶颈,深度驻场交付成为新竞争壁垒。预计国内厂商将跟进类似策略。

OpenAI: Today we're launching the OpenAI Deployment Company to help businesses build and deploy AI. It's majority-owned and cont...

OpenAI行业动态部署/工程
22:00
Peter Steinberger 🦞@steipete
35
GPT变得俏皮了。
OpenAI其他
21:38
OpenAI@OpenAI
69
今天我们正式启动OpenAI Deployment Company,以帮助企业构建和部署人工智能。 该公司由OpenAI持有多数股权并控制。它汇聚了19家领先的投资公司、咨询机构和系统集成商,共同帮助各组织将前沿AI技术部署到生产环境中以实现商业影响。https://openai.com/index/openai-launches-the-deployment-company/
OpenAI产品更新部署/工程
21:32
🚨 AI News | TestingCatalog@testingcatalog
40
OPENAI 🔥: Codex GitHub仓库曾短暂出现新型超高速模式的提及。 &gt; "为延迟敏感型任务提供最快的可用响应。" 此次推送似乎属于意外操作 👀

AiBattle: Ultrafast mode was recently spotted in the Codex GitHub repo and has since been deleted "The fastest available responses...

OpenAI产品更新编码
19:30
Peter Steinberger 🦞@steipete
53
我正在为https://gogcli.sh添加新功能,Codex注意到所需的API未启用,于是它启动计算机使用功能,正在Google Cloud管理界面中愉快地点击以开启所需服务。
智能体OpenAI现象/趋势编码
19:00
Peter Steinberger 🦞@steipete
62
强烈推荐运行一个抓取提及的定时脚本。 GPT非常擅长识别推广账号和AI回复的垃圾内容。
OpenAI教程/实践
18:53
Chubby♨️@kimmonismus
37
看起来"极速"模式很快就要登陆Codex了!
OpenAI产品更新编码
16:00
Peter Steinberger 🦞@steipete
25
使用OpenClaw对OpenClaw聊天完成端点的端到端测试改进发起挑战。 在它工作时使用/side功能提出更多问题。
MCP/工具OpenAI其他编码
‹ 上一页
1…3132333435…50
下一页 ›