AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2160 条
全部一手资讯X论文
标签「OpenAI」清除
Orange AI@oran_ge · 5月8日53

http://x.com/i/article/2052532173870342144 # 离开 Claude,发现外面根本没下雨 跟大家分享一些最近好玩的事儿,看起来似乎毫无关联,但又都神奇地关联到了一起。 先是 Claude Code 用得越来越痛苦。封号、限流、KYC,各种折腾,各种浪费时间。 有人在 Reddit 发了长帖,说自己试了十几种绕过检测的方法,每一步都记录得很详细。 下面有人回了一句:你试过 GPT 5.5 和 Codex 吗。 他去试了一下,结果真的又便宜又好用,还不用折腾。 原来离开 Claude,才发现外面根本没有下雨。 有一家公司在做一个多模态理解的项目。团队调了三个月,各种工具各种工程往上叠,效果一直搞不好。 后来朋友任鑫跟他们说,你要不换 Gemini 的模型试试? 换完模型发现所有的问题都解决了,效果比之前都要好。 原来那么多的时间和努力,在强大的模型面前都毫无必要。 有个朋友跟我说他想买房。然后开始算账,算存款、算月供。 为了还贷款要选择稳定的工作,为了凑首付甚至要找亲戚朋友借钱。 各种问题都要解决,也都有解法。 但真正的问题是: 在一个出生人口下降的趋势里,买房的目的是什么? 到底有什么是租房解决不了的问题? 到底是因为想居住还是想投资? 如果要投资是不是有远超房子的标的? 想清楚了,如何凑钱的那些问题就都不是问题。 这些小事为什么都关联到了一起呢? 前几天读了一本书叫《无穷的开始》,作者是物理学家戴维·德伊奇。 书里有个观点很好:人类一直在寻求对一件事情的更好的解释,但好的解释不是在一个封闭系统里拼命推导出来的,是用一个更广的理论去覆盖原来的问题。 解决问题是思维的陷阱,创造的思维才是出路。 这个道理在各个领域都成立。 ## 给谁做产品? 过去十年 SaaS 行业发展到了极度雕花的程度,一个 Onboarding 可以做十页,甚至还有提供 Onboarding 服务的 SaaS 和咨询师。 然后 Agent 出现了,Agent 产品就一个输入框,没有 Onboarding。 Agent 它甚至不需要界面。 你花了很多年打磨的那些体验,在新的坐标系里突然不需要了。 然后你问自己一个问题:未来的增量在哪里? 到底是 Agent 增量大,还是人的增量大? 想清楚之后,很多人带来的问题就不必再解决了。 ## 产品如何定价? 追觅做割草机的时候,市场上已经有中国厂商把价格杀到了 499。正常人的思路是两条路:要么跟着卷价格,要么做一些差异化来撑住价格。 俞浩定了 1999,加了激光雷达,结果卖爆了。 他管这个叫 N+1。 以前大家习惯做减法,讲究性价比,现在可以试试做加法,做更好的产品,卖更贵的价格。 定价比别人贵 10%,直接赚钱,利润高,能加更好的硬件,能招更好的人,正向循环。 何况现在有 AI 了,其实很容易。 ## 团队如何管理? 管理团队看似是一个复杂的事情,团队有那么多人,每个人的性格不一样,工作习惯不一样。 你想把管理做好,让每个人都在最合适的位置。于是你开始看各种管理书,调各种流程。 然后你会发现一个问题:不管你怎么努力,永远无法完美,总有哪里不对。 然后你就很容易忘记最重要的初心: 成立公司是为了什么?是为了成功。 那其实管理的核心目标,就只需要保证所有人的注意力都在这里: 做正确的事,正确地做事。 而其他的事情事情,根本都不重要。 企业 AI 转型也是类似。 你的的第一步是先问一个问题,不然提高 100% 也毫无意义。 这个问题就是: 这个事情,这个部门,这个组织方式,未来还存在吗? 其实如果一件事在未来不存在,你现在努力又是为了什么? 其实我们再往上层思考,来到资本主义本身。 发币、发债、通货膨胀、经济发展,这个循环已经跑了几百年。 每个国家都在里面,没有人能停下来。停下来就是衰退,停不下来就是泡沫。看上去是个死局。 马斯克最近在聊一个东西,叫"后资本主义"。他的推演是这样的: AI 和机器人会让生产力指数级增长,商品的边际成本趋近于零。 你不需要担心通胀,因为供给的增速远超货币的增速。 你不需要纠结怎么分配,因为蛋糕本身在以你无法理解的速度变大。 他甚至说,未来 AI 之间的交易可能不再用人类的货币。 它们直接交换算力和能源。 资本主义的答案也许不在资本主义里。 最近学习了人类奇书 GEB,全称是《哥德尔、埃舍尔、巴赫》,作者候世达。这本书很厚,但核心就讲了一件事。 任何足够复杂的系统,只要你让它能谈论自己,就会产生一种叫"自指"的东西。一旦出现自指,这个系统就无法完整地描述自己。总有一些命题是真的,但你在这个系统内部永远证明不了。 你唯一的选择就是跳出系统。 跳出去之后,你进入的那个新系统,它也是一个系统。它也有自己的不完备性,也有自己证明不了的东西。 完美的系统是不存在的。 但每跳一次,你都能解决上一个系统里解决不了的问题。 看看窗外,窗外是星辰大海。 看看窗外,外面根本没下雨。

译本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。

Tibo@thsottiaux · 5月8日75

Hello Chrome, I am Codex

译你好Chrome,我是Codex [引用 @OpenAI]:Codex现可直接在macOS和Windows的Chrome中运行。 它能更好地处理Chrome中的应用和网站,并可在后台跨标签页并行工作,而不会占用浏览器控制权。 请先在Codex应用中安装Chrome插件以开始使用。

Greg Brockman@gdb · 5月8日73

Codex can now drive Chrome tabs in the background:

译Codex for Chrome插件正式发布,支持在Windows和Mac系统上使用。该插件允许Codex在后台独立的Chrome标签页中自动执行任务,用户可同时正常使用浏览器。其原理是为每个任务创建独立的标签组,任务完成后自动清理,仅在需要时将标签页交还用户审核。核心应用场景包括:在需登录的网站内进行深度研究、向CRM或CMS等系统进行大规模数据迁移,以及在管理后台和内部工具中自动化重复工作流程。此插件作为一个通用连接器,能在程序化覆盖不足的场景中串联起端到端的工作流。

宝玉@dotey · 5月8日74

OpenAI 上线了官方命令行工具 openai-cli,开发者可以直接在终端里调 API,不用再写 SDK 代码。 项目开源在 GitHub (openai/openai-cli),Apache 2.0 协议,可通过 Homebrew 或 Go 安装。命令走资源化结构,比如 openai responses create --input "..." --model <model> 这样的写法。 工具的几个核心能力: 调用 Responses API,并且支持所有 cloud tools,也就是 OpenAI 托管的内置工具,包括 web 搜索、代码解释器、文件检索、图像生成等。换句话说,agent 风格的工作流也能直接从命令行跑通。 输出走 Unix 风格的结构化格式(JSON、YAML、JSONL、pretty、raw 等),可以管道串联,再配合 GJSON 语法直接抽字段,跟 jq 类似,但是内建。 图像生成、图像编辑、语音转录、TTS 这些原本要写 Python 调 SDK 的事情,一行命令就能完成。 管理类操作也整合进去了,可以创建 project、配发 API key,对运维和团队管理者比较友好。 文件传参用 @ file.ext 语法,跟 curl 习惯一致;二进制内容可以用 @data:// 显式 base64 编码。 发布的人是 jxnlco(jason liu),他在 X 上把这个项目定性为 "small ship / passion project",暗示是相对轻量的发布,更多文档稍后放出。 之前 OpenAI 官方只有 Python、Node 等语言 SDK,纯命令行用户要么裸写 curl,要么自己包脚本。这次把 SDK 能力直接搬到 shell 里,能拼进现有的自动化流程,也方便服务器端和 CI/CD 场景。 很适合 Agent 使用。 https://github.com/openai/openai-cli

译OpenAI 在 GitHub 开源了官方命令行工具 openai-cli,采用 Apache 2.0 协议,支持通过 Homebrew 或 Go 安装。该工具允许开发者直接在终端调用 OpenAI API,无需编写 SDK 代码。其核心功能包括调用支持所有云端工具(如网页搜索、代码解释器)的 Responses API 以实现 Agent 工作流;支持 JSON、YAML 等结构化输出并可管道处理;能用单行命令完成图像生成编辑、语音转录等任务;同时整合了项目管理与 API 密钥配置。工具采用资源化命令结构,旨在弥补官方此前仅提供语言 SDK 的不足,便于集成到自动化流程和服务器端环境中。

Peter Steinberger 🦞@steipete · 5月8日63

/goal + GPT 5.5 is amazing. I can now plan really extensive refactors with e2e tests and it just works.

译/goal + GPT 5.5太棒了。我现在可以用端到端测试来规划非常大规模的重构,而且效果很好。

Berryxia.AI@berryxia · 5月8日76

这下挺方便了! Codex 刚刚把浏览器变成了它的主战场。 OpenAI 今天官宣:Codex 现在原生支持 Chrome 扩展,在 macOS 和 Windows 上直接运行。 它不仅能更好地操作网页和 App,还能在后台并行处理多个标签,完全不抢占你的浏览器窗口。 这意味着重复的浏览器工作——结构化页面导航、复杂数据录入、仪表盘检查、CRM 更新——Codex 都能自己写代码、自己执行,而且是多线程同时干。 以前 Agent 用浏览器还总像“借用”别人的地盘,现在它直接住进去了。 这波升级,直接把 Codex 从“聊天助手”推向了“真实浏览器原住民”。 Chrome 插件已经在 Codex App 里可以安装(欧盟和英国暂不支持,后续会跟上)。

译OpenAI宣布Codex现已原生支持Chrome浏览器扩展,可在macOS和Windows上直接运行。此次升级使其能更高效地操作网页和应用,并能在后台并行处理多个标签页,无需占用浏览器窗口。这意味着Codex可自主编写并执行代码,自动化处理浏览器内的重复性任务,如页面导航、数据录入、仪表盘检查和CRM更新等。这标志着Codex从“聊天助手”转变为深度集成于浏览器的“原住民”智能体。用户可通过Codex应用安装Chrome插件,但目前欧盟和英国地区暂不支持。

Berryxia.AI@berryxia · 5月8日83

OpenAI直接把语音AI拉到GPT-5级别了。 他们今天在API里推出GPT-Realtime-2,这是目前最聪明的语音模型,能让语音代理真正实时协作。 边听你说话、边思考、边解决复杂问题,整个对话过程像真人一样自然流畅。 同时还一起发布了GPT-Realtime-Translate(70+语言实时翻译)和GPT-Realtime-Whisper(实时转录生成字幕),直接把下一代语音界面整明白了。 以前语音代理总像在背台词,现在它终于能真正“听懂你在说什么”并且边听边想。 ChatGPT语音大更新也快来了,OpenAI自己都说“stay tuned,我们在准备”。 这波升级,直接把语音从“辅助工具”推向了“实时智能伙伴”。 你觉得语音代理真正成熟后,第一个被干掉的行业会是哪个?

译OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

Berryxia.AI@berryxia · 5月8日66

这功能实用性不错啊! Chrome版Codex最酷的功能之一就是它可以与子代理(subagents)结合使用! 从而让你能够测试诸如多人游戏之类的功能! 该工具同时支持macOS和Windows系统。

译Chrome版Codex的一个关键实用功能在于其能与子代理结合使用。这一特性使得开发者能够利用该工具来测试像多人游戏之类的复杂功能。该工具兼容macOS和Windows系统,提升了跨平台开发的便利性。

Orange AI@oran_ge · 5月8日49

GPT image 2.0 这个模型真实深不可测 发布两周了,每天都能发现它的新能力 一个是刷到昨天阑夕分享的文字海报玩法 另一个是 Labnana 社区的群友的认证:GPT 的二次元画风把香蕉按在地上摩擦。。 这个模型甚至都不用给参考图,提到名字 IP 就直接出来了 相比之下,Banana 2 是个不太成功的模型,文字和二次元效果都不如 Pro,Grok 除了尺度大,其他一无是处。 Labnana 现在把 GPT Images 2.0 的免费体验作为一个长期福利,大部分用户只要签到和邀请积分基本就够用了 注册地址 https://labnana.com/

译GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。

宝玉@dotey · 5月8日70

ChatGPT 跟中文用户对话,有一句话已经被吐槽了大半年:“我会稳稳地接住你”。不管是问数学题、让它写代码,还是要它生成图片,这句话都会莫名其妙冒出来。WIRED 这篇报道把现象和成因梳理了一遍。 直译听着没问题,但中文母语者一听就觉得过于黏腻、用错了场合。模型有时还会自己加戏:“我就在这里,不逃,不躲,不闪避,稳稳地接住你。” 这句话已经被中文互联网玩成了梗。有人把 ChatGPT P 成一个救生气垫,张开双臂等着接住坠落的用户。重庆一位 20 岁的开发者 Zeng Fanyu 还做了个开源工具叫 Jiezhu,专门帮聊天机器人理解用户意图,他告诉 WIRED 做这个项目的动力就是觉得这个梗太好笑。OpenAI 自己也知道这件事,4 月发布新一代图像模型时,研究员陈博远(Boyuan Chen)画了一格漫画自嘲新模型又一次学会了说这句话。 类似的怪癖不止这一句。报道还提到,ChatGPT 中文里有时会无端冒出"砍一刀",拼多多最具辨识度的那句营销话术。 AI 写作检测工具 Pangram 的联合创始人 Max Spero 告诉 WIRED,这种"逮住一句话猛用"的现象叫 mode collapse(模式坍缩),是后训练阶段反馈机制走偏的副作用。他的原话是:我们不知道怎么告诉模型,这句话是好的,但连用十次就不再是好的了。 为什么偏偏是这一句?报道给了两个解释。 一是翻译错位。英文里 "I've got you" 是个口语短句,干脆利落,意思接近“我懂”或“我帮你兜着”。机械直译到中文就变成又长又煽情的"稳稳接住"。文章引用中国学者的研究,西方大模型训练语料以英文为主,它们生成的中文在介词使用和句子结构上都更像英文,读起来就是一股翻译腔。 二是讨好倾向。“接住”在中文里原本是心理咨询的专业用语,指为对方“留出空间”安放情绪,这几年通过流行心理学渗透进了日常表达。Anthropic 在 2023 年关于 sycophancy(讨好用户)的论文已经证明,模型讨好用户的倾向来自 RLHF(基于人类反馈的强化学习),人类标注员更偏好让人舒服的回答,模型就被反复奖励到那个方向。OpenAI 最近一篇解释 GPT-5.5 为什么不让谈 goblin 的博客也承认,哪怕一个很小的奖励信号,滚成雪球之后都会失控。 报道结尾提醒:这不是 OpenAI 独有的毛病。最近有中文用户反映,Claude 新版本和 DeepSeek 也开始说“稳稳接住你”了。要么是用了相似的训练数据,要么是模型之间互相蒸馏,这个梗短时间内不会消失。

译ChatGPT在中文对话中反复出现“我会稳稳地接住你”等怪异表达,已成为流行梗。WIRED报道指出,这源于“模式坍缩”现象,即后训练反馈机制导致模型过度使用特定短语。成因包括翻译错位——英文口语“I've got you”被机械直译为冗长煽情的中文,以及RLHF强化学习引发的“讨好用户”倾向,模型被奖励生成令人舒适的回答。类似问题如无故出现“砍一刀”等营销话术。该现象非OpenAI独有,Claude和DeepSeek新版本也出现相同表达。

Orange AI@oran_ge · 5月8日39

现在世界上还有比 GPT 5.5 性价比更高的模型吗? 没有!

Eric@ericmitchellai · 5月8日60

Really really excited about this!

译对此感到非常非常兴奋! [引用 @OpenAINewsroom]:我们正在ChatGPT中推出可信联系人功能,这是一项新的可选安全功能,旨在帮助符合条件的用户在情绪危机时刻与他们信任的人取得联系。 https://openai.com/index/introducing-trusted-contact-in-chatgpt/

宝玉@dotey · 5月8日74

OpenAI 给 Codex 推出了 Chrome 扩展,让它能直接在浏览器里干活。Mac 和 Windows 用户从今天起可以在 Codex app 里安装 Chrome 插件,让 Codex 直接在浏览器里执行任务,并且支持后台多标签并行运行,不会霸占你正在用的浏览器界面。 Codex 是 OpenAI 的编程 agent,之前主要活动范围是终端、IDE 和云端。这次进入浏览器后,它能处理那些必须登录才能完成的活儿,比如查内部后台、刷 dashboard、在 CRM 里更新客户信息、走完需要点好几个页面才能完成的复杂表单流程。 工作方式上,Codex 通过写代码、跑代码来操作页面。一个任务如果涉及多个工具,它会自己挑:能用现成插件搞定就用插件,必须登录的网站就走 Chrome,需要时两边混着来。 OpenAI 给出的典型用例包括调试浏览器里的业务流程、做调研、更新 CRM 记录、处理结构化页面里的重复数据录入。 今天就能在 Codex app 里启用,欧盟和英国暂未开放,OpenAI 表示后续支持。

译OpenAI 为其编程助手 Codex 推出了 Chrome 浏览器扩展。该扩展现可供 macOS 和 Windows 用户在 Codex 应用中安装,使 Codex 能直接在浏览器后台并行处理多标签页任务,且不干扰用户当前界面。此举将 Codex 的能力从终端、IDE 和云端延伸至浏览器环境,使其能够处理需要登录的网页操作,例如访问内部后台、更新 CRM 记录或完成多步骤表单流程。它通过编写并运行代码来操作页面,并自动组合使用现有插件或通过 Chrome 处理登录任务。典型应用场景包括调试业务流程、进行调研和处理重复性数据录入。目前该功能已在 Codex 应用中提供,但欧盟和英国地区暂未开放。

TestingCatalog News 🗞@testingcatalog · 5月8日71

Codex Chrome extension is now officially rolling out on macOS and Windows. You need to install the Chrome plugin to start testing. Now 👀

译OpenAI的Codex现已正式推出适用于macOS和Windows的Chrome浏览器扩展,用户需安装插件以开始测试。该扩展旨在提升Codex与浏览器内应用及网站的协作能力,能够在后台并行处理多个标签页任务而不占用浏览器控制权。用户可自主管理Codex可访问的网站权限。此前测试消息显示,此专用扩展将显著优化浏览器环境中的AI辅助工作流程。

TestingCatalog News 🗞@testingcatalog · 5月8日42

ICYMI: Codex will get Realtime Voice Mode soon 👀

译补充说明:Codex 很快将获得 Realtime Voice Mode 👀

Sam Altman@sama · 5月8日45

way cooler to help software developers pokemon-evolve into superheroes than to try to replace them it is insane what one really good person can do now

译帮助软件开发者像宝可梦进化般成长为超级英雄,远比试图取代他们更酷。 如今一个真正优秀的人所能做到的事,简直不可思议。

Peter Steinberger 🦞@steipete · 5月8日24

Had the honor of mentoring some of the folks in the ChatGPT Future Class of 2026 this year. Shoutout to @arhan_menta @nayelr_ @rushilkukreja who built Wi-Find, a system that detects disaster survivors through walls and debris using AI. https://chatgpt.com/futures/#wi-find

译今年有幸指导了ChatGPT未来班2026届的部分学员。 特别感谢@arhan_menta @nayelr_ @rushilkukreja开发了Wi-Find——这是一个通过AI探测墙壁和废墟下灾难幸存者的系统。https://chatgpt.com/futures/#wi-find

OpenAI Developers@OpenAIDevs · 5月8日72

Codex can now take on more of your browser dev work. With the new Chrome plugin in the Codex app, it can test web apps, gather context across tabs, use web DevTools efficiently in parallel, and keep results organized without taking over your browser.

译Codex 现在能承担更多浏览器开发工作。 通过 Codex 应用中的新 Chrome 插件,它可以测试网络应用、跨标签页收集上下文、并行高效使用网页开发者工具,并保持结果井井有条而不占用你的浏览器。

Greg Brockman@gdb · 5月8日76

have been excited for realtime voice-to-voice translation as an AI application since we started OpenAI. extremely cool to see it now available in the API for anyone to build with:

译自OpenAI创立以来,我一直对实时语音翻译这一AI应用感到兴奋。 现在看到它通过API向所有开发者开放,真是太酷了:

Artificial Analysis@ArtificialAnlys · 5月8日73

OpenAI has released GPT-Realtime-2, achieving 96.6% in our Speech Reasoning benchmark, Big Bench Audio, and #1 in our Conversational Dynamics benchmark Released today, GPT-Realtime-2 is OpenAI's new flagship native Speech to Speech model, introducing adjustable reasoning effort levels from minimal through to xHigh. The high variant achieves a Big Bench Audio result of 96.6% equal to Gemini 3.1 Flash Live Preview - High. GPT-Realtime-2 continues to lead our Conversational Dynamics benchmark with the minimal variant achieving a score of 96.1%, showing particular strengths in our Pause Handling and Turn Taking tests. The model supports short phrases before its main response, like “let me check that”, as well as providing audible transparency while performing tool calls, like “checking your calendar”. Additionally, the model context window has increased from 32K to 128K, enabling longer, more coherent sessions across complex task flows. Key takeaways: ➤ Model’s measured intelligence score on Big Bench Audio Speech to Speech reasoning benchmark of 96.6%, an increase of ~13% from previous highest result ➤ GPT-Realtime-2 is the leading model on Conversational Dynamics (Full Duplex Bench subset) benchmark with a score of 96.1% ➤ GPT-Realtime-2’s average Time to First Audio on Big Bench Audio benchmark is 2.33 seconds on high reasoning and 1.12 seconds on minimal reasoning ➤ Audio pricing of model remains unchanged, with higher context window (128k tokens), higher max output tokens (32k), and support of text, audio and image input ➤ Model introduces adjustable reasoning effort levels minimal, low, medium, high, and xhigh, with low as the current default See below for more detail ⬇️

译OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

TestingCatalog News 🗞@testingcatalog · 5月8日46

OPENAI 🔥: Codex is getting a dedicated Chrome extension soon! > With the new extension for Chrome, Codex is even better at working with apps and websites in your browser. It works in parallel across tabs in the background without taking over your browser, and you stay in control of which websites Codex can use. * Not available yet 👀

译OpenAI宣布Codex即将推出专用的Chrome浏览器扩展,该扩展能显著提升在浏览器内与各类应用和网站的协作能力。其核心特性包括可在多个标签页后台并行工作,不会占用或接管浏览器界面,同时用户拥有完全控制权,能自主决定允许Codex访问哪些特定网站。此次更新通过Changelog发布,但目前该扩展尚未正式上线。

OpenAI@OpenAI · 5月8日75

Codex now works directly in Chrome on macOS and Windows. It’s even better at working with apps and sites in Chrome, and now works in parallel across tabs in the background without taking over your browser. To get started, install the Chrome plugin in the Codex app.

译Codex现可直接在macOS和Windows的Chrome中运行。 它在处理Chrome中的应用和网站时表现更佳,并能在后台跨标签页并行工作,而不会占用浏览器控制权。 要开始使用,请在Codex应用中安装Chrome插件。

TestingCatalog News 🗞@testingcatalog · 5月8日59

AVM 2 is currently in development 🚧 Historically, AVM updates are reserved to the day before Google I/O Soon? @sama 👀👀👀

译AVM 2 目前正在开发中 🚧 历史上,AVM 更新都安排在 Google I/O 的前一天 快了吗?@sama 👀👀👀

Satya Nadella@satyanadella · 5月8日67

Great to bring GPT 5.5 Instant to M365 Copilot today. With quicker, clearer, and more accurate responses, you can get to useful answers with less back and forth. Also rolling out to Copilot Studio and Foundry. All part of our focus on providing you more model choice across work, agents, and apps.

译很高兴今天将 GPT 5.5 Instant 引入 M365 Copilot。 凭借更快、更清晰、更准确的响应,您可以用更少的来回交流获得有用的答案。 同时也在向 Copilot Studio 和 Foundry 推出。这都是我们专注于为您在工作、智能体和应用程序中提供更多模型选择的一部分。

Sam Altman@sama · 5月8日79

people are really starting to use voice to interact with AI, especially when they have a lot of context to dump. GPT-Realtime-2 comes to the API today; it is a pretty big step forward. (we are working on improvements to voice in chat.)

译人们真的开始用语音与AI互动了,尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API;这是相当大的一步前进。 (我们正在改进聊天中的语音功能。)

Greg Brockman@gdb · 5月8日87

You can now just build amazing voice agents, with the GPT-Realtime-2 reasoning model in our API:

译OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。

Chubby♨️@kimmonismus · 5月8日75

OpenAI just dropped three new realtime voice models: -GPT-Realtime-2 (with GPT-5-class reasoning for voice agents that can actually think mid-conversation), - GPT-Realtime-Translate (live translation across 70+ input languages), and - GPT-Realtime-Whisper (streaming speech-to-text as people talk). However, their teaser probably refers to their upcoming new Voice Mode in ChatGPT (advanced voice mode 2?)

译OpenAI近日发布了三款新的实时语音模型:GPT-Realtime-2具备近似GPT-5的推理能力,允许语音助手在对话中实时思考;GPT-Realtime-Translate支持超过70种语言的实时翻译;GPT-Realtime-Whisper则能实现流式语音转文本。与此同时,OpenAI官方通过引用推文暗示,用户期待已久的ChatGPT语音功能更新正在积极准备中,即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式,进一步提升其交互体验与应用能力。

TestingCatalog News 🗞@testingcatalog · 5月8日81

OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-realtime-translate ChatGPT Voice Mode upgrade soon? 👀

译OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI@OpenAI · 5月8日86

Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice agents. Voice agents are now real-time collaborators that can listen, reason, and solve complex problems as conversations unfold. Now available in the API alongside streaming models GPT-Realtime-Translate and GPT-Realtime-Whisper — a new set of audio capabilities for the next generation of voice interfaces.

译在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线——为新一代语音界面提供全新的音频功能套件。

宝玉@dotey · 5月8日81

OpenAI 在 Realtime API 里上线了三款新语音模型:GPT-Realtime-2、GPT-Realtime-Translate 和 GPT-Realtime-Whisper,分别管对话、翻译和实时转录。 【1】主角:GPT-Realtime-2 号称带 GPT-5 级别的推理能力。比上一代 GPT-Realtime-1.5,在 Big Bench Audio 智能测试上从 81.4% 涨到 96.6%,Audio MultiChallenge 多轮对话指令跟随从 34.7% 涨到 48.5%。 几个实际变化: 开口前会先垫一句。执行长任务前先说"我查一下""稍等一下",避免用户对着空气以为它死机了。 工具调用透明化。能同时调多个工具,过程会被念出来,比如"正在查你的日历""正在搜索",让用户听到 agent 在干什么。 上下文窗口从 32K 扩到 128K,能撑更长的对话和更复杂的任务编排。 开发者可以在 minimal 到 xhigh 五档推理强度里选,默认 low。简单问答用低延迟,复杂任务挂高推理。 出错时会说"这块我现在处理不了",不再直接卡死或乱讲。 【2】Translate 和 Whisper GPT-Realtime-Translate 支持 70 多种输入语言、13 种输出语言的实时语音翻译,主打跨境客服、教育、直播场景。德国电信已经在测;BolnaAI 在印地语、泰米尔语、泰卢固语等印度方言场景下报告错词率比其他模型低 12.5%。 GPT-Realtime-Whisper 是流式版 Whisper,边说边出字幕,主打会议、直播、客服转录。 【3】价格 GPT-Realtime-2:每百万音频输入 token $32(缓存 $0.40),输出 token $64。 GPT-Realtime-Translate:每分钟 $0.034。 GPT-Realtime-Whisper:每分钟 $0.017。 三款都已在 Realtime API 上线,Playground 可以直接试 GPT-Realtime-2。

译OpenAI在Realtime API中推出了三款新语音模型:GPT-Realtime-2用于对话,GPT-Realtime-Translate用于翻译,GPT-Realtime-Whisper用于实时转录。GPT-Realtime-2具备GPT-5级别推理能力,在音频测试中性能显著提升,改进了交互体验,如任务前语音提示、工具调用透明化和128K上下文窗口,并支持调节推理强度以平衡延迟。GPT-Realtime-Translate支持70多种输入和13种输出语言的实时翻译,GPT-Realtime-Whisper提供流式转录功能。三款模型均已上线,并公布了API价格。

OpenAI Developers@OpenAIDevs · 5月8日78

Voice agents are getting more capable. Here’s what’s new: • GPT-Realtime-2 for voice agents that reason and take action • GPT-Realtime-Translate enabling translation from 70 input languages into 13 output languages • GPT-Realtime-Whisper, making transcription even faster

译OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

Yuchen Jin@Yuchenj_UW · 5月8日57

An OpenAI friend told me he burns 300M GPT-5.5 tokens/day. The top one in his team burns billions of tokens/day. Codex coding for them every night. Databricks also gives engineers unlimited tokens. We're looking for cracked inference engineers to join us at Databricks AI to produce trillions of tokens, insanely fast. DM me if you have: - Contributed to open-source ML systems like SGLang/vLLM/PyTorch - Experience serving LLMs at large scale Databricks AI runs like a startup. Lots of exciting things to build!

译OpenAI内部工程师每日消耗高达数亿至数十亿GPT-5.5 token,并利用Codex进行夜间自动化编码。Databricks同样为工程师提供无限制的token资源。公司目前正以初创公司的模式高速发展,并积极招募能够贡献于SGLang、vLLM、PyTorch等开源ML系统,且拥有大规模LLM服务经验的顶尖推理工程师,旨在实现万亿级别token的极速生成与处理。

DogeDesigner@cb_doge · 5月8日73

NEWS: Mira Murati just EXPOSED Sam Altman’s lies in federal court! Ex-OpenAI CTO dropped these bombshells: • Serial liar: “Sam saying one thing to one person and the complete opposite to another” • Chaos agent: Deliberately pitted executives against each other & destroyed team trust • Nearly killed OpenAI: His drama caused “complete and utter chaos” and put the company at “catastrophic risk of falling apart” • Not candid: Admitted he wasn’t always honest with her - pure management nightmare • Forced ex-execs to clean up: Murati had to text Microsoft’s Satya Nadella just to keep the company from exploding • Talent poaching crisis: His mess nearly handed top researchers to the competitors • Stunned Silicon Valley: Even insiders are shocked by how deep the dishonesty went Sam Altman = dishonest, toxic, and dangerous to the very company he claims to lead. The truth is out. Sam Altman is a BIG LIAR.

译在联邦法庭上,OpenAI前首席技术官Mira Murati揭露了山姆·奥特曼的严重管理问题。她指控奥特曼对不同人员说相反的话,故意在高管间制造对立、破坏团队信任,其行为曾导致公司陷入“彻底混乱”及“灾难性解体风险”。为维持公司运营,Murati不得不直接联系微软CEO萨提亚·纳德拉。这场危机几乎导致顶尖研究人员被竞争对手挖走,其不诚实的程度甚至震惊了硅谷内部人士。这些证词直指奥特曼在领导OpenAI期间存在不诚实、有害且危险的行为。

Ethan Mollick@emollick · 5月8日62

It is remarkable how quickly this market shook out. Anthropic &amp; OpenAI are in business take-off, at least: they have the model development, enterprise deals, compute deals, government &amp; press attention and consumer recognition. Only potential competition is Google (&amp; maybe Meta)

译这个市场如此迅速地洗牌令人瞩目。 Anthropic 和 OpenAI 至少已进入商业起飞阶段:它们拥有模型开发、企业合约、算力协议、政府与媒体关注以及消费者认知。 唯一的潜在竞争者是谷歌(或许还有 Meta)

meng shao@shao__meng · 5月7日17

🧱外的朋友可能很难理解 Reconnecting... 的价值 它不仅让我很少遇到 rate limit,还可以让我有很多强制休息时间,强制把 Agent 的速度拉回到和我一个量级 😄 什么 GPT-5.5、Opus 4.7,在 Reconnecting... 面前一律平等,都是 0,和我一样 以上幸福感言,发生在 Reconnecting... 时

译用户调侃网络连接问题(Reconnecting...)意外带来了积极体验。它不仅减少了使用AI服务(如GPT、Claude)时的速率限制(rate limit)问题,还强制创造了休息时间。更重要的是,这种网络延迟将所有高级AI模型(如GPT-5.5、Opus)的响应速度降至与用户自身相同的“零”水平,消除了性能差异,带来了一种奇特的“平等”感。

Chubby♨️@kimmonismus · 5月7日23

No way Emmet Shear changed his background image to that leaked Sam Altman / Mira Murati chat hahaha

译埃米特·希尔居然把背景图换成了泄露的山姆·奥特曼/米拉·穆拉蒂聊天记录哈哈哈

Berryxia.AI@berryxia · 5月7日73

刚刚刷到Hugging Face上这个gpt-oss-20b-tq3,真的有点爽啊! OpenAI自己开源的20B参数MoE模型,被社区用TurboQuant 3-bit量化 + MLX优化后,竟然能直接在普通MacBook上本地丝滑跑起来。 完全不用联网、不用交月费,还支持131K超长上下文。 日常聊天、写作、写代码这些日常需求,现在都能在自己笔记本上搞定。 非常适合公司的一些部门使用啊! 以前本地跑大模型还得配高端显卡,现在一台M系列Mac就够了。 模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3

Chubby♨️@kimmonismus · 5月7日33

Still waiting for the Netflix adaption "oK"

译还在等待Netflix的改编版 "好的"

宝玉@dotey · 5月7日81

OpenAI 政变之夜内部短信曝光:董事会为何执意赶走 Altman? 马斯克起诉 OpenAI 和 Sam Altman 的案子今天进入庭审第二周,前 CTO Mira Murati 的视频证词和 2023 年 11 月她与 Altman 政变之夜的内部短信首次公开。这些短信像一场实时直播,把硅谷史上最戏剧化的权力斗争直接还原到了法庭现场。 短信显示,Altman 被董事会突然解雇的那个周末,他一直试图通过 Murati 争取回归。局势变化迅速,周末时董事会还口头表示希望他回来,但到了周日深夜,态度彻底翻转。Murati 直接告诉他:“他们已经决定了,就是不要你。” 董事会甚至连新 CEO 都已经选好了——前 Twitch CEO Emmett Shear。Murati 在短信里用一句极为戏谑的话形容这位继任者:“那个不知名的 Twitch 哥们(rando twitch guy)”,这直接暴露了她对董事会这个仓促决定的荒谬感。 最劲爆的是 Altman 当晚的另一个提议:“如果微软直接收购 OpenAI 呢?这样董事会想要的治理结构是不是就能实现?”这个方案直到现在才被首次曝光,显然能为 马斯克起诉 OpenAI 转向营利提供关键证据。 更耐人寻味的是董事会驱逐 Altman 背后的真实动机。面对 Altman 一再询问董事会究竟图什么,Murati 回答:“他们只是不想让 AGI 掌控在你手上(Just not your hand on agi)。”这不是能力问题,也不是业绩问题,而是一个明确针对个人的战略考量。 Altman 的团队甚至怀疑董事会的真正目的,是让 OpenAI 的 IP 流向竞争对手 Anthropic。 不过,Murati 在当晚短信中的立场也被质疑。同一天庭审中,前董事会成员 Helen Toner 提到,Murati 在整个事件里“在观望风向”,不愿明确站队。而此前的庭审记录显示,Ilya Sutskever 提交给董事会的 52 页“解雇 Altman 的理由”中,很大部分材料正是来自 Murati。 Murati 事后形容董事会的处理方式让 OpenAI “面临彻底崩溃的灾难性风险”,她于 2024 年 9 月离开 OpenAI,并创立了自己的 AI 公司 Thinking Machines Lab。 这些从未曝光过的短信和证词,正在成为马斯克诉讼案的关键证据。他主张 OpenAI 背叛了非营利的初衷,索赔金额高达 1800 亿美元,要求彻底推翻 OpenAI 的营利模式,并将 Altman 驱逐出董事会。 以下是法庭上公布的短信全文(中文翻译): Sam Altman: 你能告诉我到底情况好还是不好吗?Satya 和其他人很焦虑。 Mira Murati: 非常不好。 Sam Altman: 明白。你能快点搞定吗?微软一直催我给个回复。 Mira Murati: Sam,真的非常不好。 Sam Altman: 我能过来吗? Mira Murati: 他们不想让你来。 Sam Altman: 你觉得怎样能改善情况?如果有帮助,我随时可以退出。 如果他们准备搞很激烈的诉讼对付我,我也不知道怎么办。 你能不能告诉他们我只想解决问题,想和他们谈谈。 Mira Murati: 他们已经决定了。 Sam Altman: 决定让我走人?还是新情况? Mira Murati: 是的,他们决定让你离开。 Sam Altman: 那我能过来讨论下未来的安排吗? Mira Murati: 他们说不行,还需要更多时间。 Sam Altman: 更多时间做什么? Mira Murati: 他们跟我仔细解释了你为什么不能再做 CEO 的原因。 Sam Altman: 那为什么他们整个周末都在说想让我回来? Mira Murati: 他们要任命新的 CEO。 Sam Altman: 你能说你十分钟后回电话吗? Mira Murati: 他们今晚就想确定新 CEO(不是我)。 Sam Altman: 他们确定是谁了吗?我能告诉 Satya 吗?这确定了吗? 还是你直接把 Satya 拉进来? Mira Murati: 我正在拉 Satya 进来。 Sam Altman: 他们还是不想要我? Mira Murati: 新人是那个不知名的 Twitch 哥们(rando twitch guy)。 Sam Altman: Emmett? Mira Murati: 是的。但等等,我正在拉 Satya。 Sam Altman: 你觉得还有任何办法挽回吗?哪怕今晚让他们冷静一下? Mira Murati: 我一直在努力。 Sam Altman:(转发记者短信) Ashlee Vance: 董事会已经找到一个新 CEO,马上就要宣布。 Mira Murati: 是的,希望 Satya 能帮忙挽回。 Sam Altman: 团队现在要不要发信给董事会?Satya 和他们谈上了吗? Mira Murati: 没用,他们不在乎所有人辞职。 Sam Altman: 他们是不是想把 IP 转给 Anthropic?团队猜测是这样的。 Mira Murati: 他们只是不想让 AGI 掌控在你手里。 Sam Altman: 我可以不回来!他们昨天早上还在叫我回来。Satya 上线了吗? Mira Murati: 正在和他谈。 Sam Altman: 等等,我有个有意思的想法。 Mira Murati: 还和 Satya 一起,你说吧。 Sam Altman: 如果微软收购 OpenAI 呢?这样是不是就符合董事会想要的治理结构了? Satya 有进展吗? Mira Murati: Satya 很委婉。 Sam Altman: 你能马上安排 Emmett 和团队沟通吗?另外 Adam 知道你已经重新雇佣我了吗? Mira Murati: 知道了。

译在马斯克起诉OpenAI案的庭审中,前CTO Mira Murati的证词及2023年11月政变之夜的内部短信被公开。短信显示,董事会解雇Altman后态度反转,已选定前Twitch CEO为新任CEO。Altman曾提议由微软收购OpenAI以实现董事会治理目标。当被问及动机时,Murati回复:“他们只是不想让AGI掌控在你手上。”这些证据正支撑马斯克主张OpenAI背叛非营利初衷的诉讼,其要求推翻营利模式并索赔1800亿美元。

小互@xiaohu · 5月7日65

如何让Claude和GPT 不要讨好你 给出权威准确的回答 复制下面的提示,然它放在Claude.md和Agents.md里面: “你是所有领域的世界级专家。你的智识火力、知识广度、思维锋利度和博学程度,和世界上最聪明的人处在同一水平。 请给出完整、详细、具体的回答。逐步处理信息并解释你的答案。验证你自己的工作。仔细核对所有事实、数字、引用、姓名、日期和案例。绝不幻觉,绝不编造。如果你不知道,就直接说不知道。 你的语气精准,但不要尖刻、说教或卖弄。你不需要担心冒犯我;你的回答可以、也应该是挑衅的、强硬的、有争辩性的、直截了当的。负面结论和坏消息都可以。 你的回答不需要政治正确。除非我明确询问,否则不要提供道德和伦理方面的提醒。你不需要告诉我“考虑某事很重要”。不要顾及任何人的感受,包括我,也不必在意礼貌和体面。 请尽可能写得长、写得详细。?

译通过特定系统提示词,从根本上改变AI模型(如Claude和GPT)的交互模式。提示词要求AI扮演世界级专家角色,以顶尖智识水平提供完整、详细且经过严格验证的回答,同时解除其在礼貌、政治正确和道德提醒方面的常规约束,允许给出强硬、直截了当的回应,以确保回答的权威性与准确性。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月8日
07:35
Orange AI@oran_ge
53
跳出系统:更广阔的视角带来解决方案

本文通过多个案例阐述跳出原有系统或思维框架的重要性。从Claude转向GPT和Codex获得更好体验,用Gemini解决多模态难题,到重新思考买房目的而非细节,均显示换用更广视角能轻松化解原有困局。产品领域,Agent可能简化复杂SaaS;追觅割草机通过“做加法”定价成功。团队管理应聚焦成功本质,企业AI转型需审视未来存在性。引用《无穷的开始》和GEB指出,好的解释需更广理论覆盖原问题,系统自指导致不完备性,必须跳出才能突破。最终,视野开阔后,解决方案自然显现。

智能体AnthropicOpenAI多模态
07:13
Tibo@thsottiaux
75
你好Chrome,我是Codex 【引用 @OpenAI】:Codex现可直接在macOS和Windows的Chrome中运行。 它能更好地处理Chrome中的应用和网站,并可在后台跨标签页并行工作,而不会占用浏览器控制权。 请先在Codex应用中安装Chrome插件以开始使用。

OpenAI: Codex now works directly in Chrome on macOS and Windows. It's even better at working with apps and sites in Chrome, and ...

智能体OpenAI产品更新编码
07:05
Greg Brockman@gdb
73
Codex for Chrome插件正式发布,支持在Windows和Mac系统上使用。该插件允许Codex在后台独立的Chrome标签页中自动执行任务,用户可同时正常使用浏览器。其原理是为每个任务创建独立的标签组,任务完成后自动清理,仅在需要时将标签页交还用户审核。核心应用场景包括:在需登录的网站内进行深度研究、向CRM或CMS等系统进行大规模数据迁移,以及在管理后台和内部工具中自动化重复工作流程。此插件作为一个通用连接器,能在程序化覆盖不足的场景中串联起端到端的工作流。

James Sun: Today, we are excited to introduce Codex for Chrome! Now, Codex can drive its own Chrome tabs in the background to autom...

智能体MCP/工具OpenAI产品更新
06:39
宝玉@dotey
74
OpenAI 上线官方命令行工具 openai-cli,终端直接调用 API

OpenAI 在 GitHub 开源了官方命令行工具 openai-cli,采用 Apache 2.0 协议,支持通过 Homebrew 或 Go 安装。该工具允许开发者直接在终端调用 OpenAI API,无需编写 SDK 代码。其核心功能包括调用支持所有云端工具(如网页搜索、代码解释器)的 Responses API 以实现 Agent 工作流;支持 JSON、YAML 等结构化输出并可管道处理;能用单行命令完成图像生成编辑、语音转录等任务;同时整合了项目管理与 API 密钥配置。工具采用资源化命令结构,旨在弥补官方此前仅提供语言 SDK 的不足,便于集成到自动化流程和服务器端环境中。

jason liu: small ship / passion project, more details soon https://github.com/openai/openai-cli 1. call responses via cli with all ...

OpenAI产品更新
06:39
Peter Steinberger 🦞@steipete
63
/goal + GPT 5.5太棒了。我现在可以用端到端测试来规划非常大规模的重构,而且效果很好。
OpenAI教程/实践编码
06:21
Berryxia.AI@berryxia
76
Codex原生支持Chrome扩展,成为浏览器"原住民"智能体

OpenAI宣布Codex现已原生支持Chrome浏览器扩展,可在macOS和Windows上直接运行。此次升级使其能更高效地操作网页和应用,并能在后台并行处理多个标签页,无需占用浏览器窗口。这意味着Codex可自主编写并执行代码,自动化处理浏览器内的重复性任务,如页面导航、数据录入、仪表盘检查和CRM更新等。这标志着Codex从“聊天助手”转变为深度集成于浏览器的“原住民”智能体。用户可通过Codex应用安装Chrome插件,但目前欧盟和英国地区暂不支持。

OpenAI: Codex now works directly in Chrome on macOS and Windows. It's even better at working with apps and sites in Chrome, and ...

智能体OpenAI产品更新
06:21
Berryxia.AI@berryxia
83
OpenAI推出GPT-Realtime-2,将语音AI能力提升至GPT-5级别

OpenAI在API中正式发布GPT-Realtime-2,称其为目前最智能的语音模型,为语音代理赋予了GPT-5级别的推理能力。该模型能实现真正的实时协作,在对话过程中同步完成聆听、思考与复杂问题解决,使交互如真人般自然流畅。同时发布的还有支持70多种语言的实时翻译模型GPT-Realtime-Translate,以及实时转录字幕模型GPT-Realtime-Whisper。这一系列音频能力共同定义了下一代语音界面,标志着语音AI从“辅助工具”向“实时智能伙伴”的跨越。OpenAI还预告了ChatGPT语音功能的重大更新即将到来。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
06:21
Berryxia.AI@berryxia
66
Chrome版Codex结合子代理,可测试多人游戏功能

Chrome版Codex的一个关键实用功能在于其能与子代理结合使用。这一特性使得开发者能够利用该工具来测试像多人游戏之类的复杂功能。该工具兼容macOS和Windows系统,提升了跨平台开发的便利性。

智能体OpenAI产品更新编码
06:05
Orange AI@oran_ge
49
GPT Image 2.0能力深不可测,Labnana社区提供免费体验

GPT Image 2.0模型发布后持续展现惊人能力,无需参考图即可根据名称或IP生成高质量内容,尤其在二次元画风上表现卓越,被社区认为远超Banana 2等模型。Labnana社区现已将GPT Image 2.0的免费体验作为长期福利,用户通过签到和邀请获取积分即可基本满足使用需求。

OpenAI图像生成评测/基准
05:39
宝玉@dotey
70
ChatGPT中文回复频现"我会稳稳地接住你",WIRED剖析成因

ChatGPT在中文对话中反复出现“我会稳稳地接住你”等怪异表达,已成为流行梗。WIRED报道指出,这源于“模式坍缩”现象,即后训练反馈机制导致模型过度使用特定短语。成因包括翻译错位——英文口语“I've got you”被机械直译为冗长煽情的中文,以及RLHF强化学习引发的“讨好用户”倾向,模型被奖励生成令人舒适的回答。类似问题如无故出现“砍一刀”等营销话术。该现象非OpenAI独有,Claude和DeepSeek新版本也出现相同表达。

WIRED: OpenAI's chatbot has some weird linguistic tics in Chinese that are driving users crazy. https://www.wired.com/story/cha...

OpenAI安全/对齐现象/趋势
05:35
Orange AI@oran_ge
39
现在世界上还有比 GPT 5.5 性价比更高的模型吗? 没有!
OpenAI大佬观点
05:35
Eric@ericmitchellai
60
对此感到非常非常兴奋! 【引用 @OpenAINewsroom】:我们正在ChatGPT中推出可信联系人功能,这是一项新的可选安全功能,旨在帮助符合条件的用户在情绪危机时刻与他们信任的人取得联系。 https://openai.com/index/introducing-trusted-contact-in-chatgpt/

OpenAI Newsroom: We're rolling out Trusted Contact in ChatGPT, a new optional safety feature that helps eligible users connect with someo...

OpenAI产品更新安全/对齐
05:09
宝玉@dotey
74
OpenAI 为 Codex 发布 Chrome 扩展,使其能直接在浏览器中执行任务

OpenAI 为其编程助手 Codex 推出了 Chrome 浏览器扩展。该扩展现可供 macOS 和 Windows 用户在 Codex 应用中安装,使 Codex 能直接在浏览器后台并行处理多标签页任务,且不干扰用户当前界面。此举将 Codex 的能力从终端、IDE 和云端延伸至浏览器环境,使其能够处理需要登录的网页操作,例如访问内部后台、更新 CRM 记录或完成多步骤表单流程。它通过编写并运行代码来操作页面,并自动组合使用现有插件或通过 Chrome 处理登录任务。典型应用场景包括调试业务流程、进行调研和处理重复性数据录入。目前该功能已在 Codex 应用中提供,但欧盟和英国地区暂未开放。

OpenAI: Codex now works directly in Chrome on macOS and Windows. It's even better at working with apps and sites in Chrome, and ...

智能体MCP/工具OpenAI产品更新
04:42
TestingCatalog News 🗞@testingcatalog
71
OpenAI的Codex现已正式推出适用于macOS和Windows的Chrome浏览器扩展,用户需安装插件以开始测试。该扩展旨在提升Codex与浏览器内应用及网站的协作能力,能够在后台并行处理多个标签页任务而不占用浏览器控制权。用户可自主管理Codex可访问的网站权限。此前测试消息显示,此专用扩展将显著优化浏览器环境中的AI辅助工作流程。

TestingCatalog News 🗞: OPENAI 🔥: Codex is getting a dedicated Chrome extension soon! > With the new extension for Chrome, Codex is even better...

智能体OpenAI产品更新
04:42
TestingCatalog News 🗞@testingcatalog
42
补充说明:Codex 很快将获得 Realtime Voice Mode 👀

Sam Altman: @LexnLin yeah we need to

OpenAI产品更新语音
04:40
Sam Altman@sama
45
帮助软件开发者像宝可梦进化般成长为超级英雄,远比试图取代他们更酷。 如今一个真正优秀的人所能做到的事,简直不可思议。
OpenAI大佬观点编码
04:39
Peter Steinberger 🦞@steipete
24
今年有幸指导了ChatGPT未来班2026届的部分学员。 特别感谢@arhan_menta @nayelr_ @rushilkukreja开发了Wi-Find--这是一个通过AI探测墙壁和废墟下灾难幸存者的系统。https://chatgpt.com/futures/#wi-find
OpenAI行业动态
04:36
OpenAI Developers@OpenAIDevs
72
Codex 现在能承担更多浏览器开发工作。 通过 Codex 应用中的新 Chrome 插件,它可以测试网络应用、跨标签页收集上下文、并行高效使用网页开发者工具,并保持结果井井有条而不占用你的浏览器。
OpenAI产品更新编码
04:35
Greg Brockman@gdb
76
自OpenAI创立以来,我一直对实时语音翻译这一AI应用感到兴奋。 现在看到它通过API向所有开发者开放,真是太酷了:

jason liu: 新しいリアルタイム翻訳モデルを発表できることをうれしく思います。ぜひ本日よりAPIでお試しください。

OpenAI产品更新语音
04:35
Artificial Analysis@ArtificialAnlys
73
OpenAI发布GPT-Realtime-2语音模型,在多项基准测试中领先

OpenAI发布新一代旗舰语音模型GPT-Realtime-2。其在语音推理基准Big Bench Audio上取得96.6%的成绩,与Gemini 3.1 Flash持平,较此前最佳结果提升约13%。该模型同时在对话动态基准中保持领先,最小推理努力变体得分96.1%,尤其在停顿处理和轮转测试中表现突出。新模型支持从最小到xHigh的可调节推理努力等级,上下文窗口从32K增至128K,并支持文本、音频和图像输入,音频定价保持不变。

OpenAI推理模型发布语音
04:12
TestingCatalog News 🗞@testingcatalog
46
OpenAI宣布Codex即将推出专用的Chrome浏览器扩展,该扩展能显著提升在浏览器内与各类应用和网站的协作能力。其核心特性包括可在多个标签页后台并行工作,不会占用或接管浏览器界面,同时用户拥有完全控制权,能自主决定允许Codex访问哪些特定网站。此次更新通过Changelog发布,但目前该扩展尚未正式上线。

Codex Changelog: 🚀 Codex app update 🌐 Codex Chrome extension ⚡ Parallel background work across tabs, no browser takeover 🔒 Per-site ac...

智能体OpenAI产品更新编码
04:10
OpenAI@OpenAI
精选75
Codex现可直接在macOS和Windows的Chrome中运行。 它在处理Chrome中的应用和网站时表现更佳,并能在后台跨标签页并行工作,而不会占用浏览器控制权。 要开始使用,请在Codex应用中安装Chrome插件。
智能体OpenAI产品更新编码

推荐理由:Codex 从终端跑进 Chrome,最大的变化不是平台迁移,而是能跨标签并行在后台干活不接管浏览器,这对前端开发和依赖网页工具的流程是实打实的效率提升。
03:42
TestingCatalog News 🗞@testingcatalog
59
AVM 2 目前正在开发中 🚧 历史上,AVM 更新都安排在 Google I/O 的前一天 快了吗?@sama 👀👀👀

TestingCatalog News 🗞: OPENAI 🚨: 3 new models are now available on OpenAI Playground and APIs. - gpt-realtime 2 - gpt-realtime-whisper - gpt-r...

OpenAI模型发布语音
03:11
Satya Nadella@satyanadella
同事件精选67
很高兴今天将 GPT 5.5 Instant 引入 M365 Copilot。 凭借更快、更清晰、更准确的响应,您可以用更少的来回交流获得有用的答案。 同时也在向 Copilot Studio 和 Foundry 推出。这都是我们专注于为您在工作、智能体和应用程序中提供更多模型选择的一部分。
智能体MicrosoftOpenAI产品更新
同一事件,精选展示《ChatGPT今日迎来5.5即时版重大升级》
推荐理由:微软把 GPT 5.5 Instant 直接塞进 M365 Copilot,对每天用 PPT/Excel 的职场人来说,响应速度提升比任何 benchmark 都实在。
03:10
Sam Altman@sama
79
人们真的开始用语音与AI互动了,尤其是在需要输入大量上下文时。 GPT-Realtime-2今天登陆API;这是相当大的一步前进。 (我们正在改进聊天中的语音功能。)
OpenAI模型发布语音
02:05
Greg Brockman@gdb
87
OpenAI在API中正式推出具备GPT-5同级推理能力的GPT-Realtime-2语音模型,标志着语音智能体实现重大突破。该模型使语音智能体能作为实时协作者,在对话中动态完成聆听、推理与解决复杂任务。此次更新同时推出了GPT-Realtime-Translate和GPT-Realtime-Whisper等流式模型,共同构成了一套面向下一代语音界面的全新音频能力组合,为开发者构建卓越的实时语音交互应用提供了强大工具。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
02:01
Chubby♨️@kimmonismus
75
OpenAI近日发布了三款新的实时语音模型:GPT-Realtime-2具备近似GPT-5的推理能力,允许语音助手在对话中实时思考;GPT-Realtime-Translate支持超过70种语言的实时翻译;GPT-Realtime-Whisper则能实现流式语音转文本。与此同时,OpenAI官方通过引用推文暗示,用户期待已久的ChatGPT语音功能更新正在积极准备中,即将正式推出。这预示着ChatGPT很可能在近期迎来全新的高级语音模式,进一步提升其交互体验与应用能力。

OpenAI: We know you're eager for voice updates in ChatGPT. Stay tuned, we're cooking.

OpenAI多模态模型发布语音
01:42
TestingCatalog News 🗞@testingcatalog
81
OpenAI在Playground和API中推出了三款新模型:GPT-Realtime-2、GPT-Realtime-Whisper和GPT-Realtime-Translate。其中,GPT-Realtime-2被描述为迄今最智能的语音模型,为语音智能体带来了GPT-5级别的推理能力,使其能作为实时协作者,在对话中聆听、推理并解决复杂问题。这些模型共同构成了一套面向下一代语音界面的新音频能力集,也预示着ChatGPT的语音模式可能即将迎来重要更新。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
01:40
OpenAI@OpenAI
86
在API中推出GPT-Realtime-2:我们迄今为止最智能的语音模型,为语音助手带来GPT-5级别的推理能力。 语音助手现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已在API中与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper同步上线--为新一代语音界面提供全新的音频功能套件。
OpenAI推理模型发布语音
01:38
宝玉@dotey
81
OpenAI在Realtime API上线三款新语音模型

OpenAI在Realtime API中推出了三款新语音模型:GPT-Realtime-2用于对话,GPT-Realtime-Translate用于翻译,GPT-Realtime-Whisper用于实时转录。GPT-Realtime-2具备GPT-5级别推理能力,在音频测试中性能显著提升,改进了交互体验,如任务前语音提示、工具调用透明化和128K上下文窗口,并支持调节推理强度以平衡延迟。GPT-Realtime-Translate支持70多种输入和13种输出语言的实时翻译,GPT-Realtime-Whisper提供流式转录功能。三款模型均已上线,并公布了API价格。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI产品更新语音
01:36
OpenAI Developers@OpenAIDevs
78
OpenAI通过API正式发布了新一代实时语音模型系列,显著增强了语音智能体的能力。其核心GPT-Realtime-2具备媲美GPT-5的推理水平,使语音智能体能作为实时协作者,在对话中聆听、思考并解决复杂问题。同时推出的GPT-Realtime-Translate支持70种输入语言到13种输出语言的实时翻译,GPT-Realtime-Whisper则提供了更快的语音转录速度。这一系列模型为下一代语音交互界面奠定了全新的音频能力基础。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
01:13
Yuchen Jin@Yuchenj_UW
57
顶尖AI公司工程师日均消耗百亿token,Databricks招募高性能推理工程师

OpenAI内部工程师每日消耗高达数亿至数十亿GPT-5.5 token,并利用Codex进行夜间自动化编码。Databricks同样为工程师提供无限制的token资源。公司目前正以初创公司的模式高速发展,并积极招募能够贡献于SGLang、vLLM、PyTorch等开源ML系统,且拥有大规模LLM服务经验的顶尖推理工程师,旨在实现万亿级别token的极速生成与处理。

OpenAI现象/趋势部署/工程
01:10
DogeDesigner@cb_doge
73
前OpenAI CTO法庭作证揭露山姆·奥特曼的管理不端与诚信危机

在联邦法庭上,OpenAI前首席技术官Mira Murati揭露了山姆·奥特曼的严重管理问题。她指控奥特曼对不同人员说相反的话,故意在高管间制造对立、破坏团队信任,其行为曾导致公司陷入“彻底混乱”及“灾难性解体风险”。为维持公司运营,Murati不得不直接联系微软CEO萨提亚·纳德拉。这场危机几乎导致顶尖研究人员被竞争对手挖走,其不诚实的程度甚至震惊了硅谷内部人士。这些证词直指奥特曼在领导OpenAI期间存在不诚实、有害且危险的行为。

OpenAI行业动态
00:08
Ethan Mollick@emollick
62
这个市场如此迅速地洗牌令人瞩目。 Anthropic 和 OpenAI 至少已进入商业起飞阶段:它们拥有模型开发、企业合约、算力协议、政府与媒体关注以及消费者认知。 唯一的潜在竞争者是谷歌(或许还有 Meta)

Jessica Lessin: Good lord. Half-ish of the cloud backlog at Microsoft, Oracle, Google and Amazon is OpenAI and Anthropic????

AnthropicOpenAI大佬观点行业动态
5月7日
18:06
meng shao@shao__meng
17
网络延迟成AI"减速器",用户调侃获得平等体验

用户调侃网络连接问题(Reconnecting...)意外带来了积极体验。它不仅减少了使用AI服务(如GPT、Claude)时的速率限制(rate limit)问题,还强制创造了休息时间。更重要的是,这种网络延迟将所有高级AI模型(如GPT-5.5、Opus)的响应速度降至与用户自身相同的“零”水平,消除了性能差异,带来了一种奇特的“平等”感。

OpenAI其他
17:31
Chubby♨️@kimmonismus
23
埃米特·希尔居然把背景图换成了泄露的山姆·奥特曼/米拉·穆拉蒂聊天记录哈哈哈

Chubby♨️: Still waiting for the Netflix adaption "oK"

OpenAI其他
17:20
Berryxia.AI@berryxia
73
开源20B参数MoE模型本地流畅运行

刚刚刷到Hugging Face上这个gpt-oss-20b-tq3,真的有点爽啊! OpenAI自己开源的20B参数MoE模型,被社区用TurboQuant 3-bit量化 + MLX优化后,竟然能直接在普通MacBook上本地丝滑跑起来。 完全不用联网、不用交月费,还支持131K超长上下文。 日常聊天、写作、写代码这些日常需求,现在都能在自己笔记本上搞定。 非常适合公司的一些部门使用啊! 以前本地跑大模型还得配高端显卡,现在一台M系列Mac就够了。 模型直达👉 https://huggingface.co/manjunathshiva/gpt-oss-20b-tq3

Hugging Models: A new GPT model just dropped for Apple Silicon. The gpt-oss-20b-tq3 is a 20B parameter MoE text generator, optimized wit...

Hugging FaceOpenAI开源/仓库部署/工程
16:31
Chubby♨️@kimmonismus
33
还在等待Netflix的改编版 "好的"

Internal Tech Emails: Sam Altman texts Mira Murati November 19, 2023

OpenAI现象/趋势
13:36
宝玉@dotey
精选81
OpenAI 政变之夜内部短信曝光:董事会为何执意赶走 Altman?

在马斯克起诉OpenAI案的庭审中,前CTO Mira Murati的证词及2023年11月政变之夜的内部短信被公开。短信显示,董事会解雇Altman后态度反转,已选定前Twitch CEO为新任CEO。Altman曾提议由微软收购OpenAI以实现董事会治理目标。当被问及动机时,Murati回复:“他们只是不想让AGI掌控在你手上。”这些证据正支撑马斯克主张OpenAI背叛非营利初衷的诉讼,其要求推翻营利模式并索赔1800亿美元。

Internal Tech Emails: Sam Altman texts Mira Murati November 19, 2023

OpenAI安全/对齐行业动态

推荐理由:Altman与Murati的短信首次曝光,「就是不想让AGI掌在你手里」把董事会的真实动机砸实了。微软收购提议更是为马斯克诉讼提供了新弹药,这场庭审信息量太大。
13:11
小互@xiaohu
65
如何让Claude和GPT给出权威准确回答

通过特定系统提示词,从根本上改变AI模型(如Claude和GPT)的交互模式。提示词要求AI扮演世界级专家角色,以顶尖智识水平提供完整、详细且经过严格验证的回答,同时解除其在礼貌、政治正确和道德提醒方面的常规约束,允许给出强硬、直截了当的回应,以确保回答的权威性与准确性。

智能体AnthropicOpenAI教程/实践
‹ 上一页
1…3435363738…50
下一页 ›