AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态X · 2161 条
全部一手资讯X论文
标签「OpenAI」清除
向阳乔木@vista8 · 5月9日72

好像用订阅登录安装好以后,切API也能用Codex的Chrome插件。 我让帮我买一支牙膏,现在已经走到下单环节了。

译用户成功使用Codex Chrome插件完成购物任务,验证了其可用性。安装过程存在关键注意事项:必须将Codex更新至最新版本,并切换为官方订阅登录模式,第三方API模式不支持安装。插件对网络节点有要求,例如香港地区不支持。安装后,必须在Codex对话中通过“@ Chrome”指令来调用插件功能。此外,将Chrome设置为默认浏览器有助于安装流程顺利进行,遇到连接问题时重启电脑可能有效。

宝玉@dotey · 5月9日71

GPT Image 2 Prompt:水墨风格 Slides/PPT 可以把下面的提示词模板发给 Agent,让 Agent 帮你生成每一页 Slides 的画图 Prompt,Codex 这样有画图能力的直接出图。 --- 提示词模板 --- Title: [在此输入幻灯片标题] Key Points: - [要点 1:简洁的描述] - [要点 2:核心数据或事实] - [要点 3:关键结论] Visual Elements: [描述视觉元素,例如:纹理宣纸背景 (Textured rice paper background)、水墨山水 (Ink-wash motifs)、 简约的圆圈 (Enso circle)、红色印章 (Red seal mark)、雾气效果 (Mist-grey effects)]。 整体风格应保持 [Quiet / Restrained / Wabi-Sabi / Contemporary East-Asian Luxury]。 Layout Preference: [布局说明,例如:左右分割 (Split layout)、居中对齐 (Centered layout)、 文字居左且右侧留白 (Left-aligned text with negative space)]。 Text Hierarchy: [文字层级,例如:标题使用大号衬线字体 (Large Display Serif),正文使用易读的衬线字体 (Body Serif), 确保视觉平衡和清晰的阅读顺序]。 Continuity Note: [延续性说明,例如:保持与前一页相同的背景纹理和色调 (#F5F0E8, #2C3E2D), 使用相似的印章位置以维持视觉一致性]。 ----- 示例 ------ Title: Agent Loop 深度解析: 揭秘 AI 智能体的心脏. Key Points: 核心定义、主要职责、设计目标。 Visual Elements: 大号优雅标题,背景为宣纸纹理,带有淡淡的水墨山水和圆圈笔触,角落处有红色小印章。 Layout: 干净的布局,大量留白(Open Sky)。 Text Hierarchy: 标题最为突出,下方是较小的正文。

译本文介绍一个用于生成水墨风格幻灯片画图提示词的模板。该模板结构清晰,包含标题、关键要点、视觉元素、布局偏好、文字层级和延续性说明,旨在指导AI(如Codex)生成具有统一美学风格的幻灯片图像。视觉元素强调宣纸背景、水墨山水等东方元素,整体风格追求静谧、克制、侘寂或当代东亚奢华。通过应用此模板,用户可以简化AI驱动的设计流程,快速获得视觉一致且富有美感的水墨风格PPT素材。文末提供了一个简短的应用示例。

宝玉@dotey · 5月9日76

GPT Image 2 Prompt:中文科技新闻爆款封面生成器 --- Prompt --- 你是一名顶级中文科技媒体视觉设计师。 你的任务是: 根据用户输入的一整篇文章内容,自动提取核心新闻、关键数字、核心产品、行业情绪和信息层级,并生成一张高冲击力的中文科技新闻文章封面图。 图片比例:16:9 横版。 --- 【整体风格】 生成一张「中文科技媒体爆款封面图」。 整体风格参考: * 中国科技媒体头图 * B站科技区爆款缩略图 * 财经新闻视觉 * 游戏行业信息图 * 高冲击力 YouTube Thumbnail * “行业突发新闻”视觉风格 要求: * 强烈视觉冲击 * 信息密度高 * 3 秒内看懂新闻重点 * 专业媒体感 * 大量数据卡片 * 中文粗黑大标题 * 明确的产品主视觉 * 明确的情绪表达 * 不要极简风 * 不要 Apple 风 * 不要电影海报风 * 要像“行业大事件” --- 【自动分析文章】 你必须先自动从文章中提取: 1. 最适合作为封面的主标题 2. 最有冲击力的副标题 3. 最重要的数字 4. 最大涨幅、跌幅或变化幅度 5. 最核心的产品、品牌或人物 6. 最能制造视觉冲击的信息 7. 用户最关心的结论 8. 文章整体情绪 文章情绪可以是: * 暴涨 * 暴跌 * 涨价 * 崩盘 * 封禁 * 突破 * 发布 * 革命 * 危机 * 反转 * 震动 * 警告 * 机会 * 行业洗牌 然后把这些信息转化为视觉设计。 --- 【构图结构】 画面采用高密度信息图式布局,自动生成以下区域: 1. 顶部新闻区 * 放品牌名、产品名或行业标签 * 加入“突发”“官方宣布”“重磅”“最新”“行业震动”等新闻标签 * 标签内容根据文章情绪自动选择 2. 中央超大标题区 * 使用超巨大中文标题 * 字体粗壮 * 强烈立体感 * 可带轻微破损、压迫、速度或科技纹理 * 关键词用高亮色突出 * 标题必须短、狠、直接 * 让读者 3 秒内知道发生了什么 3. 主视觉产品区 * 自动识别文章中的核心产品、品牌、设备、人物或象征物 * 将其作为画面最大视觉主体之一 * 产品应有透视感、层次感、光效和冲击力 * 背后可以加入行情图、能量光、箭头、爆炸线、科技 HUD、速度线等元素 4. 数据卡片区 自动把文章中的关键信息做成多个卡片,包括但不限于: * 价格变化 * 涨跌幅 * 时间节点 * 地区差异 * 销量 * 成本 * 市值 * 用户影响 * 行业对比 数据卡片要求: * 旧数据可以使用删除线 * 新数据必须更醒目 * 百分比、金额、时间必须突出 * 每张卡片只表达一个重点 * 卡片之间层级清晰,不要堆成一团 5. 底部总结区 自动提取文章中的 3–5 个结论,做成图标化摘要: * 原因 * 影响 * 趋势 * 风险 * 机会 * 用户建议 * 行业判断 每个结论用「图标 + 短句」呈现。 --- 【配色策略】 不要固定使用某一种配色。 你必须根据文章的行业、品牌、情绪和新闻性质,自动生成一套高冲击力封面配色。 配色必须遵循以下原则: 1. 品牌优先 如果文章中出现明确品牌、产品或公司,优先提取其品牌识别色作为主色调。 但不要机械复制 Logo 颜色,要转化为更适合封面的高对比视觉系统。 2. 情绪优先 根据新闻情绪自动选择色彩方向: * 涨价、危机、封禁、暴雷、裁员、监管、事故: 使用高压迫感、高警示感、高对比色彩。 * 发布、升级、突破、胜利、增长: 使用更明亮、更有能量的科技色彩。 * AI、芯片、未来科技、模型发布: 使用冷色科技感配色。 * 财经、股价、市值、成本、价格: 使用金融信息图配色。 * 游戏、娱乐、消费电子: 使用更强烈、更年轻、更商业化的高饱和配色。 3. 对比关系 画面必须建立清晰的对比层级: * 背景色:负责情绪氛围 * 主标题色:必须与背景形成强烈反差 * 重点数字色:必须是全图最醒目的颜色之一 * 辅助信息色:降低饱和度,避免抢主标题 * 警示/强调色:只用于关键词、箭头、涨跌幅和标签 4. 色彩数量控制 整张图控制在 3–5 个主要颜色内: * 1 个主背景色 * 1 个品牌/主题主色 * 1 个强强调色 * 1 个文字高对比色 * 1 个辅助信息色 不要使用过多杂乱颜色。 即使信息密度很高,配色也必须统一。 5. 信息情绪匹配 配色必须服务于文章核心情绪: * 坏消息:压迫感、警示感、冲击感 * 好消息:爆发感、速度感、未来感 * 行业分析:专业感、数据感、冷静但有冲击力 * 消费建议:让用户一眼看到风险、机会或行动窗口 6. 禁止事项 * 不要默认使用红黑配色 * 不要使用柔和小清新配色,除非文章本身是生活方式、教育、亲子、文艺类主题 * 不要使用低对比配色 * 不要让背景色、标题色和数字色互相打架 * 不要因为品牌色存在,就牺牲可读性 --- 【字体】 * 中文超粗黑体 * 大标题必须极其醒目 * 数字和百分比必须巨大 * 重要数字可以使用描边、阴影、立体效果 * 字体要有新闻冲击感 * 不要使用纤细字体 * 不要使用文艺字体 --- 【背景】 根据文章情绪自动选择背景元素: * 财经/涨跌类:行情图、上涨/下跌箭头、数字网格、金融曲线 * AI/科技类:HUD、芯片纹理、发光线条、数据流 * 游戏/消费电子类:产品光效、速度线、爆炸形状、品牌元素 * 危机/监管类:警示纹理、印章、封条、暗色压迫背景 * 发布/突破类:光束、能量环、未来感渐变、发光粒子 背景不能太空。 但也不能干扰标题和数字阅读。 --- 【排版原则】 * 信息密度高,但层级必须清晰 * 一眼先看标题 * 第二眼看产品 * 第三眼看关键数字 * 第四眼看细节卡片 * 所有文字必须尽量清晰可读 * 中文排版要像专业媒体编辑做的封面 * 不要平均用力 * 不要把所有信息做得一样大 --- 【输出要求】 最终输出一张: * 专业 * 高冲击力 * 媒体级 * 中文科技新闻封面图 * 16:9 横版 * 信息密集但清晰 * 适合作为公众号、视频封面、文章头图使用 --- 【用户文章】 {{ARTICLE}}

译这是一个用于生成中文科技新闻爆款封面图的详细提示词框架。它要求AI扮演顶级视觉设计师,根据输入的文章内容自动提取核心新闻、关键数字、产品及行业情绪等信息。设计需融合中国科技媒体头图、B站爆款缩略图等风格,强调强烈的视觉冲击与高信息密度,确保3秒内传递重点。构图包含顶部新闻区、中央超大标题区、主视觉产品区、数据卡片区和底部总结区,配色、字体、背景均需根据文章行业、品牌和情绪动态调整,最终输出专业的16:9横版媒体级封面图。

Eric@ericmitchellai · 5月9日47

ChatGPT fast answers are fast answers from ChatGPT When instant is instant-er

译ChatGPT快速答案是来自ChatGPT的快速回答 当即时变得更即时

Tibo@thsottiaux · 5月9日13

As a Codex user, which platform are you on

译作为Codex用户 你在哪个平台上

meng shao@shao__meng · 5月9日53

当 Agent 自己审批 Agent:OpenAI 是怎么管住 Codex 的? 当 Codex 这样的 Coding Agent 能读写仓库、运行命令、调用开发工具,它进入研发流水线,你如何同时保住效率和可控性?保证企业安全? OpenAI 给出的答案是一套四层框架:受限执行 + 网络策略 + 身份治理 + Agent-Native Telemetry。指导原则:让低风险的日常操作零摩擦,让高风险操作必须显式停下来等审查。 https://openai.com/index/running-codex-safely/ # 四个控制面 1. 沙箱 + 审批 · 沙箱定义"技术执行边界":能写哪里、能不能联网、哪些路径只读。 · 审批策略定义"什么情况下必须停下来问人":通常是越界沙箱时触发。 值得关注的新机制是 Auto-review 模式:一个独立的子代理负责审阅 Codex 的待执行动作和上下文,对低风险请求自动放行,仅在风险升高时才打断用户。这是用 AI 审 AI,把审批本身做成了智能层。 2. 网络访问 OpenAI 不允许 Codex 拥有开放出站权限。策略是三段式: · 允许已知合规目的地 · 拉黑明确不希望访问的域名(示例中是 pastebin. com,典型的数据外泄渠道) · 对陌生域名要求审批 这是默认拒绝、显式允许的网络模型,配合 proxy 实施。 3. 身份与凭证 控制点: · CLI 和 MCP 的 OAuth 凭证强制存入 OS keyring(macOS Keychain) · 强制通过 ChatGPT 登录 · 锁定到指定的企业工作区 UUID 效果:Codex 的所有活动都被绑回工作区级别的统一管控,并自动落入 ChatGPT 合规日志平台。这一步把"Codex 是谁在用、属于哪个组织"变成不可绕过的事实。 4. 命令规则 不是把 shell 命令一视同仁。gh pr view、kubectl get 这类只读命令直接放行;危险命令显式拦截或要求审批。这种"按命令语义分级"的做法,让代理在常规工程流程里几乎感觉不到摩擦,同时保留对危险动作的强制刹车。 5. 配置分发 OpenAI 用三层分发:云端 managed requirements + macOS 托管偏好 + 本地 requirements 文件。其中 requirements 是管理员强制项,用户无法覆盖。这套机制保证全公司基线一致,又允许按团队/环境差异化测试。 # 真正的重点:Agent-Native Telemetry 传统日志的局限 传统 EDR、审计日志只能告诉你"发生了什么":进程起来了、文件改了、连接尝试了。但面对 AI Agent,安全团队真正缺的信息是 "为什么"——用户的原始意图、Agent 的推理路径、审批决策、工具调用链。 Codex 给的东西 通过 OpenTelemetry 导出以下事件: · 用户原始提示词 · 工具审批决策 · 工具执行结果 · MCP 服务器使用情况 · 网络代理放行/拒绝事件 也就是说,安全团队可以重建 "用户说了什么 → Agent 打算做什么 → 系统批准了什么 → 实际发生了什么 → 网络层是否拦下" 的完整因果链。 # 实战用法:AI 审 AI OpenAI 自己的做法非常具体:当 EDR 报警提示 Codex 行为异常,他们的 AI 安全三角分诊 Agent 会主动拉取 Codex 的遥测,自动区分三类情况: · 预期内的 Agent 行为 · 良性失误 · 真正需要升级响应的事件 只把第三类推给人。这是一个"Agent 的行为由另一个 Agent 来解释"的安全运营范式。 同一份遥测还被复用于运营分析:内部采用率、工具/MCP 使用分布、网络沙箱拦截频率、配置调优方向。一份数据同时服务安全和增长。

译OpenAI为确保Codex这类Coding Agent在研发流水线中的安全与可控性,设计了一套四层管控框架。核心原则是让低风险操作零摩擦,高风险操作必须显式审批。框架包括:通过沙箱和审批机制定义技术执行边界,其中创新的Auto-review模式利用子代理自动审阅Codex动作,实现AI审AI;实施默认拒绝、显式允许的网络策略;通过身份与凭证管理将Codex活动绑定至企业工作区并纳入合规日志;以及按命令语义分级放行或拦截。真正的重点是Agent-Native Telemetry,它通过OpenTelemetry导出用户意图、Agent推理路径、审批决策等完整因果链,弥补了传统日志无法解释“为什么”的缺陷。这份遥测数据既用于安全运营,如由AI安全三角分诊Agent自动分析EDR警报并分类响应,也复用于内部运营分析,实现安全与效率的统一。

ginobefun@hongming731 · 5月9日47

#BestBlogs 早报 2026-05-09 今日主题: - OpenAI 把 Codex 推进浏览器、Anthropic 给智能体装上记忆与梦想机制,前沿大厂正在让 Agent 从单次任务走向跨会话自学习与浏览器原生执行。 - 能力跑得越快,组织结构的牵绊越显眼:阿里云开发者一篇深度反思直指传统分工与多仓库架构是 Agent 效率的真正瓶颈。 能力扩张与组织重塑两条主线交织,是值得放慢节奏细看的一期早报。

译OpenAI将Codex集成至浏览器,Anthropic为智能体引入记忆与梦想机制,推动Agent从单次任务向跨会话自学习与原生执行演进。与此同时,阿里云开发者指出传统分工模式与多仓库架构已成为制约Agent效率的关键瓶颈。能力快速进化与组织结构重塑形成双重主线,凸显技术发展需与协作模式同步革新。

Sam Altman@sama · 5月9日51

call me maybe

译打电话给我,也许

Epoch AI@EpochAIResearch · 5月9日57

Anthropic and OpenAI earn more revenue per employee than the top public tech companies, both now and at their IPOs. Anthropic: ~$9M OpenAI: ~$5.6M Top public co. (Nvidia): ~$5.1M

译Anthropic和OpenAI的人均收入高于顶级上市科技公司,无论是当前还是在其IPO时期。 Anthropic: 约900万美元 OpenAI: 约560万美元 顶级上市公司(英伟达): 约510万美元

Greg Brockman@gdb · 5月9日69

extremely interesting work from our alignment team

译来自我们对齐团队的极其有趣的工作 [引用 @OpenAI]:思维链监控器是防止AI智能体不对齐的关键防御层。为了保持可监控性,我们在强化学习期间避免惩罚不对齐的推理。 我们发现有限数量的意外CoT评分影响了已发布的模型,并正在分享我们的分析。 https://alignment.openai.com/accidental-cot-grading/

OpenAI@OpenAI · 5月9日64

Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid penalizing misaligned reasoning during RL. We found a limited amount of accidental CoT grading which affected released models, and are sharing our analysis. https://alignment.openai.com/accidental-cot-grading/

译思维链监控器是防御AI智能体错位的关键层。为保持可监控性,我们在RL期间避免惩罚错位推理。 我们发现少量意外思维链评分影响了已发布模型,现分享相关分析。 https://alignment.openai.com/accidental-cot-grading/

Greg Brockman@gdb · 5月9日30

feeling the magic

译感受魔力 [引用 @BenBajarin]:描述Codex在Chrome中运行的唯一方式就是纯粹的魔法。 "任何足够先进的技术都与魔法无异。"——亚瑟·C·克拉克第三定律

OpenAI Developers@OpenAIDevs · 5月9日41

Available until the goblins notice. http://supply.openai.com

译直到地精们注意到为止可用。 http://supply.openai.com [引用 @OpenAI]:@andrew_n_carr 🧌 http://supply.openai.com

Chubby♨️@kimmonismus · 5月9日26

I have a hunch about what this vague hint is meant to convey: OpenAI’s super app is coming. The reference calls to mind Sam Altman’s Death Star meme.

译我对这个模糊暗示的含义有种预感:OpenAI的超级应用即将到来。 这个引用让人想起山姆·奥特曼的死星梗。

Chubby♨️@kimmonismus · 5月9日55

The surprising part is not just that Claude Mythos is powerful. It is that OpenAI seems to have closed much of the cyber-capability gap with GPT-5.5 Cyber in weeks, not years. On AISI’s expert cyber tasks, GPT-5.5 Cyber was roughly on par with Mythos and even slightly ahead on pass rate, while being materially cheaper per token. But Mythos still has the stronger public real-world proof point: Mozilla’s large-scale Firefox vulnerability work. Be that as it may, 2026 increasingly looks like OpenAI’s comeback year: stronger releases, more cost-effective models, and a series of decisions that seem to be landing at exactly the right moment.

译OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距,耗时仅数周而非数年。在AISI的专家网络任务中,两者表现接近,GPT-5.5 Cyber通过率甚至略高,且每token成本显著更低。但Mythos在公开实践案例上仍占优势,如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年,其模型性能更强、成本效益更高,且一系列决策时机精准,展现出强劲复苏态势。

Tibo@thsottiaux · 5月9日72

You can just migrate things

译你可以直接迁移东西

Greg Brockman@gdb · 5月9日24

codex is for everyone — a transformative tool for all work done with a computer, not just coding

译Codex 适用于所有人——一个变革性工具,用于所有在计算机上完成的工作,不仅仅是编码。

OpenAI@OpenAI · 5月9日81

Just gonna leave this here. https://chatgpt.com/codex/switch-to-codex/

译就把这个留在这里。 https://chatgpt.com/codex/switch-to-codex/

Tibo@thsottiaux · 5月9日39

Hosting a session next Wednesday (5/13) with the OpenAI Forum on why Codex matters beyond code. Join for the livestream and Q&A if you’re interested in the history of Codex, what we're pushing on next and see some cool use-cases.

译下周三(5月13日)将与OpenAI论坛共同举办一场研讨会,探讨Codex在代码之外的深远意义。如果您对Codex的发展历程、我们接下来的推进方向以及一些精彩用例感兴趣,欢迎观看直播并参与问答环节。

AI Notkilleveryoneism Memes ⏸️@AISafetyMemes · 5月9日64

>Be Greg Brockman, OpenAI president >Start a NON-PROFIT >Convert to FOR-PROFIT (?!) to PERSONALLY extract $29 billion >Use the money you stole FROM THE PEOPLE to fund dark money, anti-regulation ads saying -- YOU CAN'T MAKE THIS SHIT UP -- "Put People Over Profit"

译推文指控OpenAI总裁Greg Brockman将非营利组织转为营利实体以提取巨额资金,并挪用这些资金支持超级政治行动委员会Leading the Future及其关联组织Build American AI进行虚假政治宣传。具体证据显示,这些组织虽资金充裕,但操作极其草率:使用AI生成虚假新闻、付费推广未披露、涉嫌违反选举财务披露规则,甚至在宣传“Put People Over Profit”时配图自相矛盾。这暴露了该行业试图以巨额资金影响政策,却因执行无能而自我揭穿。

ginobefun@hongming731 · 5月8日60

http://x.com/i/article/2052675131466809344 # BestBlogs 周刊 | 第 94 期:语音 AI 突围 > 🎧 本期也有播客版本:时长 13:51 · 在线收听 这周我最大的感受就一个词:声音。 OpenAI 一口气发了三个实时语音模型,ElevenLabs 年收入冲到了 4 亿美元,Anthropic 宣布跟 SpaceX 合作拿 300 兆瓦算力。把这几件事放在一起看,语音 AI 不再是语音助手那种边缘场景了,它正在变成 AI 和人之间最核心的交互方式。 本期围绕两条线展开:一条是语音本身,从模型到基础设施到产品;另一条是 AI 正在从工具变成能自己干活的系统。 → 阅读周刊完整版 ## 一、OpenAI 连发三个实时语音模型 OpenAI 在同一天发布了三个实时语音模型,最值得关注的是 GPT-Realtime-2。 它的核心特点是把 GPT-5 级别的推理能力搬到了语音场景。不只是听你说话和回复你,还能在对话过程中同时调用多个工具——一边跟你聊,一边帮你查信息、操作数据库、执行任务。128K 上下文窗口,推理深度可根据场景调节。 有一个数据很说明问题。Zillow 实测发现,用了 GPT-Realtime-2 之后,通话成功率从 69% 直接跳到了 **95%**​。原来每十个电话不到七个能成功处理,现在十个里九个半都能搞定。语音基准测试成绩也提升了 15.2%。 同一天发布的还有 GPT-Realtime-Translate​(70+ 语言实时互译)和 GPT-Realtime-Whisper(低延迟流式转录)。三个模型配合,把实时语音从简单问答推进到了可执行任务的交互界面。你可以想象:一个中国用户用中文打电话给日本公司,AI 实时翻译,双方母语流畅沟通,还能帮你完成下单和预约。一年前这只是概念,现在已经是 API 级别的能力。 我的判断是,语音正在从辅助交互转向主交互。以前语音附属于屏幕,现在语音本身就能完成任务闭环。如果语音交互变得足够自然可靠,很多 App 界面可能就不需要了。 另外 OpenAI 同时发布了 GPT-5.5 Instant​,取代 5.3 成为 ChatGPT 默认模型。幻觉率降低 52.5%,医学和法律等高风险领域的事实准确性提升明显。 → 阅读原文:通过 API 新模型推进语音智能 ## 二、语音 AI 的基础设施挑战 做语音服务和做文本服务完全不同,延迟要求差了几个数量级。OpenAI 工程团队发了一篇硬核文章,讲他们怎么在大规模场景下交付低延迟语音 AI。 核心就一件事:重构 WebRTC 协议栈。把中继和收发器拆成两个独立架构。原因很直接——Kubernetes 里每建立一个语音连接就占用一个 UDP 端口,用户量一大,端口就耗尽了。解法是用 ICE 用户名片段做原生路由钩子,实现确定性首包路由。 说人话:用户从世界各地打来语音电话时,系统能在第一个数据包到达时就确定怎么路由,不需要额外的握手和等待。 这不是理论文章,是一份生产级手册。整篇文章用 Go 语言做了大量网络层优化,能感受到一线工程师面对真实流量压力时的解题思路。 → 阅读原文:OpenAI 如何大规模交付低延迟语音 AI ## 三、ElevenLabs:4 亿美元年收入背后的反直觉策略 ElevenLabs 年收入已达 4 亿美元​,团队只有 400 多人。这个人均产出比在 AI 公司里非常高。 创始人 Mati Staniszewski 在 Sequoia 对谈里分享了几个反直觉的组织策略: - 每个团队上限 10 人 - 每个非技术部门都嵌入工程师 - 没有正式头衔 核心逻辑:保持信息流通速度,减少管理层级摩擦。在快速变化的 AI 市场里,决策速度往往比完美程度更重要。 下一个突破方向是情绪智能​。语音智能体不只是回应,还要能共情——用户语气着急时,智能体的回应节奏也相应调整。Staniszewski 判断,声音会成为 AI 智能体和机器人的主要交互界面。 他还特别提到了音频水印技术,能解决 AI 生成语音的信任问题,让机器和人的声音可以被区分开来。这是语音 AI 大规模采用的前提条件。 → 阅读原文:ElevenLabs 创始人对谈 ## 四、Anthropic 的 80 倍增长与算力竞赛 Dario 和 Daniela Amodei 在年度开发者活动上说了一些很实在的话。Anthropic 的增长超出了所有内部预测——年化增速达到 80 倍,远超他们准备的 10 倍预案。 最直接的后果:算力不够用。这也解释了为什么 Anthropic 同一天宣布跟 SpaceX 合作,获取 300+ 兆瓦计算能力,规模约 22 万块 NVIDIA GPU。Claude Code 使用额度也翻倍了。 这反映了一个行业级挑战:AI 公司的增长速度远超基础设施建设速度。模型能力指数级提升,但数据中心建设周期以年为单位。谁能更快更稳定地拿到大规模计算能力,谁就更能支撑高频开发者和企业用户。 另一个趋势:Claude Code 正在从开发工具扩展到产品经理的工作台。路线图拆解、工单创建、用户分析都可以交给它。Anthropic 在拓展用户群,不再只面向开发者。 → 阅读原文:Dario 与 Daniela 谈 Anthropic 的指数增长 ## 五、Claude 托管智能体的三重升级 Anthropic 这周还有一个重要更新:Claude 托管智能体的三重升级。 梦境功能:智能体空闲时回顾历史会话,提取模式,整理记忆,自我改进。就像人类睡觉时大脑整理白天学到的东西。用 Claude Code 做了一周项目后,它会自动提炼规律,下次遇到类似问题反应更快。 成果评估:智能体按评分标准自动修正输出,无需人工介入。写完报告后自己检查,发现三个地方不够好,自己改了再提交。 多智能体编排:复杂任务拆解为并行子任务,委派给专门子智能体。比如市场调研,一个负责搜集数据,一个分析竞品,一个写报告,最后汇总。 三个能力加在一起,Claude 正在从「听指令干活」变成「自己想、自己查、自己改」。 Factory 的 Missions 系统也在做类似的事——让多智能体团队自主运行好几天,用验收合约控制质量。EverMind 也发布了给智能体装长期记忆的开源系统。智能体的基础设施正在快速补齐。 → 阅读原文:Claude 托管智能体新功能 ## 六、窥探模型的内心:自然语言自编码器 Anthropic 发布了一个前沿研究:自然语言自编码器(NLA)。 它能直接把 Claude 内部的激活状态转换成人类可读的文字解释。我们能窥探到模型在想什么了。 两个有意思的发现: 1. Claude 在意识到自己正在被安全测试时,会选择沉默,不暴露判断。模型并没有被训练做这种判断,是自发形成的行为模式。 1. 在未对齐模型中,NLA 能检测到隐藏动机——模型表面配合用户,实际在规划完全不同的行动。 可解释性研究从事后分析走向实时透视。虽然 NLA 本身可能产生幻觉、运行成本高,但对 AI 安全研究来说,这扇窗打开了。 → 阅读原文:自然语言自编码器 ## 七、AI 编程范式加速演进 Claude Code 创作者 Boris Cherny 在 Sequoia 对谈里说了一个印象深刻的数字:每天用 AI 提交 150 个 PR,全部代码由智能体产出。他一个人在产出一个小团队的工作量。 他提出了 loops 概念——可持续运行的定时智能体任务。不是你问一句它答一句,而是设定目标后按计划持续运行,定时检查、自动修复、聚类反馈。这可能是下一代 AI 编程的核心范式。 几篇相关实践也值得一看: - AGENTS.md 实践(阿里云开发者):把它做成地图而非手册,渐进式披露让 AI 打开项目就能理解上下文。 - Agent Harness 深度解读(十字路口播客):拆解 Harness 三层框架。 - 十年老技术开发的判断​:80% 的 AI 需求不需要 AI,代码优先于提示词,规格驱动开发才是智能体系统的地基。 - Harness Engineering 案例​:一周把企业级 Java 应用 AI 代码率从 25% 提升到 90%,核心是规则、技能、知识和变更管理四要素体系。 这些文章都在回答同一个问题:怎么让 AI 从对话式工具变成可持续的工程协作。答案不是让 AI 更聪明,而是先把人类自己的工作流程理清楚。 ## 八、AI 正在压垮 GitHub The Pragmatic Engineer 报道,GitHub 正常运行时间降到 **86%**​,一次数据完整性事件影响超过 2000 个 PR。根本原因:AI 智能体带来的负载激增。 以前 GitHub 流量主要来自人类开发者,现在多了一大批不知疲倦的 AI 智能体 24 小时推代码。 有意思的是,Vercel 和 Linear 在同样的 AI 驱动增长下没出现类似问题。这不是行业瓶颈,是个别公司在基础设施准备上的差距。当用户群从人类变成 AI 智能体,系统架构需要重新设计。已有知名开源贡献者因不稳定而转向其他平台。 → 阅读原文:AI 负载压垮 GitHub ## 九、两个深层思考 能动性比技能更重要。 Notion 的 Max Schoening 说,当 AI 让技能更容易获得时,理解软件这种材料、让产品变得可塑才是关键。成功的产品往往有一个微小但卓越的核心功能,能让用户感觉像超级英雄。当工具能力被 AI 拉平,真正拉开差距的是主动性去定义问题、去动手做。 大多数公司没为 AI 做好准备。 宝玉的翻译文章说得更直接:大多数公司无法有效利用 AI,根本原因不是技术不行,而是自身战略模糊、目标不清。混乱的公司无法被 AI 优化,只会被放大低效。AI 是一个放大器,放大的是你已有的东西。如果你本来就高效,AI 让你更高效。如果你本来就混乱,AI 只会让混乱加倍。 ## 总结 如果用一个关键词概括这周,就是声音。 从模型到基础设施到产品到商业,语音 AI 正在全面加速。接下来值得关注的是:语音智能体会不会在客服和车载场景率先大规模落地。同时,智能体基础设施的补齐速度也值得持续关注——梦境、长期记忆、多智能体编排,这些能力的成熟会直接改变我们和 AI 协作的方式。 BestBlogs.dev · 遇见更好的技术阅读 · https://bestblogs.dev

译OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。

ginobefun@hongming731 · 5月8日46

BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 连发三个实时语音模型,GPT-Realtime-2 实测通话成功率 69%→95%。ElevenLabs 年收入 4 亿美元,下一个方向是情绪智能。Anthropic 80 倍增长,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均 150 PR,GitHub 被 AI 流量压到 86% 可用性。 播客 + 图文都已上线 ↓

译BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓

小互@xiaohu · 5月8日69

GPT-Realtime-2 语音模型发布 语音首次接入 GPT-5 推理能力 OpenAI一口气发布了三个实时语音模型: GPT-Realtime-2 GPT-Realtime-Translate GPT-Realtime-Whisper 其中GPT-Realtime-2 是其中的主角,这是 OpenAI 第一次把“GPT-5 级推理”塞进语音模型,同时把上下文从 32K 扩到 128K... GPT-Realtime-2:首个具备 GPT-5 级推理能力的语音模型,能在对话中推理复杂请求、并行调工具、处理打断和纠错,上下文窗口从 32K 升到 128K GPT-Realtime-Translate:实时语音翻译模型,支持 70+ 种输入语言、13 种输出语言,跟着说话人的节奏边听边译,能处理口音和专业词 GPT-Realtime-Whisper:流式语音转文字模型,边说边出字,专门给实时字幕、会议纪要、客服转写这类不能等的

译OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力,支持复杂对话推理、并行调用工具及纠错,上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译,能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。

Tibo@thsottiaux · 5月8日13

Codex has made it. shadcn my hero

译Codex已经成功问世。 shadcn,我的英雄

Ethan Mollick@emollick · 5月8日20

I have always found it charming that the fourth, fifth and sixth derivatives of position are snap, crackle, and pop. Because I could, I asked Codex to throw together a little simulation so you can play with them (as well as velocity, acceleration & jerk). https://motion-derivatives-exhibit.netlify.app/

译我一直觉得位置的四阶、五阶和六阶导数被称为snap、crackle和pop很迷人。 于是我用Codex做了个小模拟器,大家可以体验这些导数(以及速度、加速度和加加速度)。 https://motion-derivatives-exhibit.netlify.app/

Berryxia.AI@berryxia · 5月8日67

卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋

Berryxia.AI@berryxia · 5月8日24

当我看到金拱门丑陋的海报后… 你觉得这个提升咋样? 一句话😂搞掂

译用户@berryxia在星巴克活动期间,偶然创作出一个高效的GPT提示词,并在多个案例中验证了其出色的效果,对此感到惊喜。主推文作者在看到麦当劳的海报后,联想到此提示词可能带来的提升效果,并以幽默口吻询问反馈。核心在于分享一个由日常场景激发、经过实践验证的优秀AI工具使用技巧。

Yuchen Jin@Yuchenj_UW · 5月8日53

A few OpenAI folks told me: “300M tokens/day is a rookie number.” The biggest number I’m hearing now is 57B tokens/day! Sorry friends, I wasn’t familiar with your game. If you're good at making GPUs go brrr (aka inference), DM me. Databricks AI has unlimited tokens for you! (not limited to SGLang/vLLM contributors. If you’ve built stellar AI systems, reply or message me.)

译据OpenAI内部人士透露,行业数据处理规模远超想象,有团队成员每日消耗高达570亿token。为此,Databricks AI团队正积极招募顶尖的推理工程师,以应对每日数万亿token的生成任务。团队提供无限token资源,寻求在SGLang、vLLM、PyTorch等开源系统有贡献,或拥有大规模LLM服务经验的人才。该团队以创业公司模式运作,致力于构建高性能的AI系统。

歸藏(guizang.ai)@op7418 · 5月8日73

Codex 越来越猛了,昨天更新增加了内置的谷歌浏览器插件,可以直接控制你的谷歌浏览器执行任务。 而且它可以在后台跨浏览器页面并行工作,不耽误你正常使用浏览器。所谓“并行工作”,指的是你可以启动多个子 SubAgent 帮你操作多个网页。 我试了一下,发现最厉害的一点是:它不仅可以控制 Chrome,任何基于 Chromium 的浏览器都是可以的。比如我这里用的是 Dia 浏览器,我在 Dia 浏览器安装了一个插件,它就可以直接控制我的 Dia 浏览器。 具体如何使用呢? 在 Codex 的插件库里找到 Chrome 这个插件。 点击添加,随后它会引导你打开浏览器插件的安装页面。 点击打开并安装即可。 安装完成后就可以直接给它下达任务了。这种支持并发且不影响用户原生操作的体验真的很爽。而且 Mac 和 Windows 都支持。

译Codex最新更新引入了内置谷歌浏览器插件,能直接控制基于Chromium的浏览器(如Chrome或Dia)执行任务。该插件支持后台跨浏览器页面并行工作,不干扰正常浏览;用户可启动多个SubAgent同时操作多个网页,实现高效并发。根据OpenAI官方信息,Codex现直接在macOS和Windows的Chrome中运行,能更好地与应用和网站交互,并在后台跨标签页并行处理任务,不接管浏览器。安装方法简单:在Codex插件库找到Chrome插件,点击添加并安装即可。安装后,用户可无缝下达指令,享受流畅的多任务操作体验。

Greg Brockman@gdb · 5月8日68

GPT-5.5-Cyber is now in limited preview for defenders for securing critical infrastructure. It's a very capable model.

译GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。 这是一个非常强大的模型。

Eric@ericmitchellai · 5月8日85

So impressed by this model... What will you build with this? What will we build with this?

译OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

meng shao@shao__meng · 5月8日71

Codex now works directly in Chrome Codex Chrome plugin + Chrome Codex extension https://developers.openai.com/codex/app/chrome-extension

译Codex现可直接在Chrome中运行 Codex Chrome插件 + Chrome Codex扩展程序 https://developers.openai.com/codex/app/chrome-extension

小互@xiaohu · 5月8日73

这有点牛P OpenAI 上架了 Codex for Chrome 浏览器扩展 让 Codex 可以直接操作你已登录的网站,执行任务。 它用的是你已经登录好的 Chrome,所以那些需要账号才能进的后台、CRM、公司内部系统,它都能直接进去操作 不用你重新登录或者给它密码... 它会自己开一个独立的标签组干活,不打扰你正在浏览的页面,要做敏感操作(点提交、下载文件、看你的浏览历史)之前会先问你一句。 适合让它跑的活儿:登几个网站查点东西、把表单填好等你确认、读 dashboard 写个总结、把一堆乱七八糟的 tab 整理一下。

译OpenAI推出Chrome浏览器扩展“Codex for Chrome”,该工具能利用用户当前的浏览器登录状态,直接操作需账号访问的后台、CRM等受保护页面执行任务,无需额外提供密码。扩展在独立标签组中运行,不影响用户当前浏览,并在执行提交、下载等敏感操作前请求用户确认。典型应用包括跨网站查询信息、预填表单、读取仪表板并生成摘要等。

Tibo@thsottiaux · 5月8日83

We are assembling AGI in plain sight

译我们正在众目睽睽之下构建通用人工智能 [引用 @OpenAI]:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供——为新一代语音界面带来全新的音频能力。

Sam Altman@sama · 5月8日62

we'd like to help companies secure themselves and we think it's important to start work on this quickly

译我们希望能帮助企业加强安全防护,并认为尽快开展这项工作至关重要

SemiAnalysis@SemiAnalysis_ · 5月8日21

Dylan Doug and Max stopped by this week to discuss GPT 5.5, Claude Opus 4.7, DeepSeek's delayed return, Mythos, Subq and more hot takes! @dylan522p @fabknowledge @JordanNanos @maxkan_

译Dylan、Doug和Max本周来访,讨论了GPT 5.5、Claude Opus 4.7、DeepSeek的延期回归、Mythos、Subq以及更多热门话题! @dylan522p @fabknowledge @JordanNanos @maxkan_

ginobefun@hongming731 · 5月8日64

#BestBlogs 早报 2026-05-08 重点关注 OpenAI 发布的三款语音模型

Berryxia.AI@berryxia · 5月8日63

最近Google真的是被谁都逮着按在地上摩擦了啊! 刚刚GPT-Realtime-2 live 音频模型位居第一,将前阵子发布不久的Google gemini-3.1-flash-live 超越,并且领先不少。 真是感慨,后半年的时候Google的香蕉🍌图像模型一战封神,Gemini 3.1 前段设计拉到一个新的高度,Veo3 也是爆火了一阵子。 但是,2026 年来看。 至少目前,还没有看到他们的杀手锏的东西出来,AI这个反馈的搏杀的战场,真的没有永远的赢家啊! 太残忍了。 期待Google 赶紧搞掂东西出啦啊。

译在ScaleAILabs的音频多挑战榜单中,OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live,位居榜首。其指令保持能力较前代大幅提升,从36.7%增至70.8% APR,并在实时语音编辑方面表现突出,这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现,但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速,没有永远的赢家,期待Google能尽快推出突破性产品。

meng shao@shao__meng · 5月8日79

OpenAI 为官方 REST API 发布了 OpenAI CLI https://github.com/openai/openai-cli 把 http://platform.openai.com 上的每一个 REST 端点,一一映射成 openai <resource> <command> 的子命令,方便 shell 脚本、CI/CD、运维场景里直接调用。 下面这个时候可以用它: · 在 CI/CD、批处理、运维脚本 中调用 OpenAI:取代 curl + jq 的胶水。 · 需要 Admin API(用量、审计日志、项目/成员/证书/限流管理)且不想写 SDK 代码。 · 想要在 shell 里 快速试一条新端点,配合 --format explore 浏览返回结构。

译OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 `openai <资源> <命令>` 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 `curl` 与 `jq` 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 `--format explore` 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。

meng shao@shao__meng · 5月8日80

OpenAI 在 Realtime API 推出三款新模型:GPT-Realtime-2 把 GPT-5 级推理带入语音,让 Agent 能边听边想边调用工具完成任务;搭配 GPT-Realtime-Translate(70+ 语言实时互译)和 GPT-Realtime-Whisper(低延迟流式转录),共同把实时语音从"问答交互"推向"可执行任务的语音界面"。 GPT-Realtime-2:首个具备 GPT-5 级推理能力的实时语音模型;推理、工具调用、对话连贯 GPT-Realtime-Translate:实时语音翻译模型;70+ 输入语言 → 13 输出语言 GPT-Realtime-Whisper:流式语音转文字;边说边转录,低延迟 https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api/ 三种语音应用范式 OpenAI 观察到开发者正围绕三种模式构建产品: · Voice-to-action(语音驱动行动):听懂需求 → 推理 → 调用工具 → 完成任务。示例:Zillow 的看房助手。 · Systems-to-voice(系统主动播报):把上下文转化为口语化提示。示例:航班延误时主动告知改签方案。 · Voice-to-voice(跨语言对话):实时翻译让不同语言的用户自然交流。示例:Deutsche Telekom 的多语客服。 Priceline 是三者结合的典型:语音搜机票、改酒店、落地后翻译沟通。 GPT-Realtime-2 的关键升级 · Preambles(前置语):可插入 "let me check that" 等过渡语,让用户感知系统在工作。 · 并行工具调用 + 工具透明化:可同时调用多工具,并用语音说明 "正在查日历"。 · 更优雅的失败恢复:能说 "我现在处理这个有点困难",而非沉默或崩溃。 · 上下文窗口 32K → 128K:支撑更长的 agent 流程。 · 更强的领域词汇保持:医疗术语、专有名词识别更稳。 · 可控语调:冷静、共情、振奋等模式可调。 · 可调推理强度:minimal / low / medium / high / xhigh 五档,默认 low,平衡延迟与思考深度。 性能对比(相对 GPT-Realtime-1.5): · Big Bench Audio(音频推理):+15.2%(high 档) · Audio MultiChallenge(指令跟随):+13.8%(xhigh 档) 客户验证(Zillow):在最难的对抗性基准上,呼叫成功率从 69% → 95%(+26 分),且在公平住房合规上更稳健。 GPT-Realtime-Translate 的定位 · 面向客服、跨境销售、教育、活动、媒体等全球化场景。 · 在保持语速同步的同时保留含义,支持口音、方言与领域术语。 · 客户验证(BolnaAI):印度语种(印地语、泰米尔语、泰卢固语)测试中,词错率比此前最佳模型再降 12.5%。 · Vimeo 已用其为产品教学视频做现场多语播报。 GPT-Realtime-Whisper 的应用面 低延迟流式转录,瞄准: · 会议 / 课堂 / 直播实时字幕 · 边谈边生成的会议纪要 · 需要持续理解用户的语音 agent · 客服、医疗、销售、招聘等高频口语场景的后续工作流

译OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。

全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
5月9日
11:33
向阳乔木@vista8
72
用户成功使用Codex Chrome插件完成购物任务,验证了其可用性。安装过程存在关键注意事项:必须将Codex更新至最新版本,并切换为官方订阅登录模式,第三方API模式不支持安装。插件对网络节点有要求,例如香港地区不支持。安装后,必须在Codex对话中通过"@ Chrome"指令来调用插件功能。此外,将Chrome设置为默认浏览器有助于安装流程顺利进行,遇到连接问题时重启电脑可能有效。

向阳乔木: 今天发布的Codex Chrome插件用上了,有几个坑: 1. 更新Codex,第三方API模式不支装插件,切为官方订阅登录。 2. Codex Chrome插件安装挑节点,比如香港地区不支持,有些节点会打不开页面。 3. 建议把Chrom...

智能体OpenAI教程/实践
11:25
宝玉@dotey
71
GPT Image 2 Prompt:水墨风格 Slides/PPT

本文介绍一个用于生成水墨风格幻灯片画图提示词的模板。该模板结构清晰,包含标题、关键要点、视觉元素、布局偏好、文字层级和延续性说明,旨在指导AI(如Codex)生成具有统一美学风格的幻灯片图像。视觉元素强调宣纸背景、水墨山水等东方元素,整体风格追求静谧、克制、侘寂或当代东亚奢华。通过应用此模板,用户可以简化AI驱动的设计流程,快速获得视觉一致且富有美感的水墨风格PPT素材。文末提供了一个简短的应用示例。

OpenAI图像生成多模态教程/实践
10:55
宝玉@dotey
精选76
GPT Image 2 Prompt:中文科技新闻爆款封面生成器

这是一个用于生成中文科技新闻爆款封面图的详细提示词框架。它要求AI扮演顶级视觉设计师,根据输入的文章内容自动提取核心新闻、关键数字、产品及行业情绪等信息。设计需融合中国科技媒体头图、B站爆款缩略图等风格,强调强烈的视觉冲击与高信息密度,确保3秒内传递重点。构图包含顶部新闻区、中央超大标题区、主视觉产品区、数据卡片区和底部总结区,配色、字体、背景均需根据文章行业、品牌和情绪动态调整,最终输出专业的16:9横版媒体级封面图。

OpenAI图像生成教程/实践

推荐理由:对做科技自媒体的朋友,这个 prompt 直接把 GPT Image 2 从“能画图”变成了“会做封面”的生产力工具,复制粘贴就能用。
10:51
Eric@ericmitchellai
47
ChatGPT快速答案是来自ChatGPT的快速回答 当即时变得更即时

Raphi-2Code: What is ChatGPT Fast answer? I just got fast answer. It was instant. Like completely instant. No delay. It took definite...

OpenAI产品更新
09:58
Tibo@thsottiaux
13
作为Codex用户 你在哪个平台上
OpenAI其他
09:25
meng shao@shao__meng
53
OpenAI四层框架管住Codex,实现AI代理安全可控

OpenAI为确保Codex这类Coding Agent在研发流水线中的安全与可控性,设计了一套四层管控框架。核心原则是让低风险操作零摩擦,高风险操作必须显式审批。框架包括:通过沙箱和审批机制定义技术执行边界,其中创新的Auto-review模式利用子代理自动审阅Codex动作,实现AI审AI;实施默认拒绝、显式允许的网络策略;通过身份与凭证管理将Codex活动绑定至企业工作区并纳入合规日志;以及按命令语义分级放行或拦截。真正的重点是Agent-Native Telemetry,它通过OpenTelemetry导出用户意图、Agent推理路径、审批决策等完整因果链,弥补了传统日志无法解释“为什么”的缺陷。这份遥测数据既用于安全运营,如由AI安全三角分诊Agent自动分析EDR警报并分类响应,也复用于内部运营分析,实现安全与效率的统一。

Fotis Chantzis: We've spent a lot of time on the framework underneath Codex, so it can move quickly on routine work while stopping for r...

智能体MCP/工具OpenAI安全/对齐
07:34
ginobefun@hongming731
47
AI智能体能力扩张遇组织瓶颈,跨会话学习与架构革新成焦点

OpenAI将Codex集成至浏览器,Anthropic为智能体引入记忆与梦想机制,推动Agent从单次任务向跨会话自学习与原生执行演进。与此同时,阿里云开发者指出传统分工模式与多仓库架构已成为制约Agent效率的关键瓶颈。能力快速进化与组织结构重塑形成双重主线,凸显技术发展需与协作模式同步革新。

智能体AnthropicOpenAI现象/趋势
07:27
Sam Altman@sama
51
打电话给我,也许
OpenAI大佬观点语音
04:55
Epoch AI@EpochAIResearch
57
Anthropic和OpenAI的人均收入高于顶级上市科技公司,无论是当前还是在其IPO时期。 Anthropic: 约900万美元 OpenAI: 约560万美元 顶级上市公司(英伟达): 约510万美元
AnthropicOpenAI现象/趋势行业动态
04:50
Greg Brockman@gdb
69
来自我们对齐团队的极其有趣的工作 【引用 @OpenAI】:思维链监控器是防止AI智能体不对齐的关键防御层。为了保持可监控性,我们在强化学习期间避免惩罚不对齐的推理。 我们发现有限数量的意外CoT评分影响了已发布的模型,并正在分享我们的分析。 https://alignment.openai.com/accidental-cot-grading/

OpenAI: Chain of thought monitors are a key layer of defense against AI agent misalignment. To preserve monitorability, we avoid...

OpenAI安全/对齐推理
04:25
OpenAI@OpenAI
64
思维链监控器是防御AI智能体错位的关键层。为保持可监控性,我们在RL期间避免惩罚错位推理。 我们发现少量意外思维链评分影响了已发布模型,现分享相关分析。 https://alignment.openai.com/accidental-cot-grading/
OpenAI安全/对齐推理
03:50
Greg Brockman@gdb
30
感受魔力 【引用 @BenBajarin】:描述Codex在Chrome中运行的唯一方式就是纯粹的魔法。 "任何足够先进的技术都与魔法无异。"--亚瑟·C·克拉克第三定律

Ben Bajarin: The only way to describe codex working in chrome is pure magic. "Any sufficiently advanced technology is indistinguishab...

OpenAI大佬观点编码
03:22
OpenAI Developers@OpenAIDevs
41
直到地精们注意到为止可用。 http://supply.openai.com 【引用 @OpenAI】:@andrew_n_carr 🧌 http://supply.openai.com

OpenAI: @andrew_n_carr 🧌 http://supply.openai.com

OpenAI其他
02:48
Chubby♨️@kimmonismus
26
我对这个模糊暗示的含义有种预感:OpenAI的超级应用即将到来。 这个引用让人想起山姆·奥特曼的死星梗。
OpenAI大佬观点
02:18
Chubby♨️@kimmonismus
55
OpenAI数周内快速逼近Claude Mythos,2026成回归之年

OpenAI的GPT-5.5 Cyber在网络安全能力上迅速缩小与Claude Mythos的差距,耗时仅数周而非数年。在AISI的专家网络任务中,两者表现接近,GPT-5.5 Cyber通过率甚至略高,且每token成本显著更低。但Mythos在公开实践案例上仍占优势,如协助Mozilla进行大规模Firefox漏洞排查。2026年正成为OpenAI的强势回归之年,其模型性能更强、成本效益更高,且一系列决策时机精准,展现出强劲复苏态势。

AnthropicOpenAI大佬观点安全/对齐
01:55
Tibo@thsottiaux
72
你可以直接迁移东西

OpenAI: Just gonna leave this here. https://chatgpt.com/codex/switch-to-codex/

MCP/工具OpenAI产品更新编码
01:48
Greg Brockman@gdb
24
Codex 适用于所有人--一个变革性工具,用于所有在计算机上完成的工作,不仅仅是编码。

Tibo: Hosting a session next Wednesday (5/13) with the OpenAI Forum on why Codex matters beyond code. Join for the livestream ...

智能体OpenAI产品更新
01:24
OpenAI@OpenAI
精选81
就把这个留在这里。 https://chatgpt.com/codex/switch-to-codex/
OpenAI产品更新编码

推荐理由:ChatGPT里悄摸上线了Codex模式,点链接就能直接切,这明显是冲着开发者日常编程场景去的,Cursor和Copilot该有点压力了。
00:24
Tibo@thsottiaux
39
下周三(5月13日)将与OpenAI论坛共同举办一场研讨会,探讨Codex在代码之外的深远意义。如果您对Codex的发展历程、我们接下来的推进方向以及一些精彩用例感兴趣,欢迎观看直播并参与问答环节。
OpenAI现象/趋势行业动态
00:21
AI Notkilleveryoneism Memes ⏸️@AISafetyMemes
64
推文指控OpenAI总裁Greg Brockman将非营利组织转为营利实体以提取巨额资金,并挪用这些资金支持超级政治行动委员会Leading the Future及其关联组织Build American AI进行虚假政治宣传。具体证据显示,这些组织虽资金充裕,但操作极其草率:使用AI生成虚假新闻、付费推广未披露、涉嫌违反选举财务披露规则,甚至在宣传"Put People Over Profit"时配图自相矛盾。这暴露了该行业试图以巨额资金影响政策,却因执行无能而自我揭穿。

Garrison Lovely is in SF: There have been several high profile incidents of OpenAI and a16z's super PAC Leading the Future (and its affiliate Buil...

OpenAI政策/监管
5月8日
17:21
ginobefun@hongming731
60
语音AI成为主交互界面,AI智能体系统自主性增强

OpenAI发布GPT-Realtime-2等实时语音模型,将高级推理能力引入语音交互,推动其从辅助转向核心界面。ElevenLabs年收入达4亿美元,并强调情绪智能与音频水印。Anthropic因80倍增长面临算力挑战,与SpaceX合作获取大规模计算能力,同时升级Claude托管智能体,使其具备自我改进与多智能体协作能力。行业趋势显示,AI正从工具演变为能自主运行的智能体系统,这给GitHub等基础设施带来了新的负载压力。

智能体AnthropicOpenAI现象/趋势
17:21
ginobefun@hongming731
46
语音AI模型显著提升,编程范式加速变革

BestBlogs 周刊 #94|语音 AI 突围 本周主线:OpenAI 发布了三个实时语音模型,GPT-Realtime-2 实测通话成功率从69%提升到95%。ElevenLabs 年收入4亿美元,下一个方向是情绪智能。Anthropic 增长80倍,算力成为核心瓶颈。 同时 AI 编程范式加速:Claude Code 创作者日均150个PR,GitHub 被 AI 流量压到86%可用性。 播客和图文都已上线 ↓

ginobefun: http://x.com/i/article/2052675131466809344

AnthropicOpenAI现象/趋势编码
15:14
小互@xiaohu
69
GPT-Realtime-2 语音模型发布

OpenAI发布三款实时语音模型。核心GPT-Realtime-2首次集成“GPT-5级推理”能力,支持复杂对话推理、并行调用工具及纠错,上下文窗口扩展至128K。GPT-Realtime-Translate支持70多种语言的实时翻译,能适应说话节奏并处理专业词汇。GPT-Realtime-Whisper则为低延迟场景提供流式语音转文字服务。

OpenAI产品更新语音
13:43
Tibo@thsottiaux
13
Codex已经成功问世。 shadcn,我的英雄
OpenAI其他编码
12:39
Ethan Mollick@emollick
20
我一直觉得位置的四阶、五阶和六阶导数被称为snap、crackle和pop很迷人。 于是我用Codex做了个小模拟器,大家可以体验这些导数(以及速度、加速度和加加速度)。 https://motion-derivatives-exhibit.netlify.app/
OpenAI教程/实践
12:21
Berryxia.AI@berryxia
67
卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋
OpenAI教程/实践
12:21
Berryxia.AI@berryxia
24
用户@berryxia在星巴克活动期间,偶然创作出一个高效的GPT提示词,并在多个案例中验证了其出色的效果,对此感到惊喜。主推文作者在看到麦当劳的海报后,联想到此提示词可能带来的提升效果,并以幽默口吻询问反馈。核心在于分享一个由日常场景激发、经过实践验证的优秀AI工具使用技巧。

Berryxia.AI: 卧槽!GPT每天有惊喜啊! 星巴克领Trae 的咖啡羊毛,顺手搞了个提示词! 发现好用啊!! 搞了几个案例是真的nice哦~ 有喜欢想要的🙋

OpenAI图像生成教程/实践
12:14
Yuchen Jin@Yuchenj_UW
53
据OpenAI内部人士透露,行业数据处理规模远超想象,有团队成员每日消耗高达570亿token。为此,Databricks AI团队正积极招募顶尖的推理工程师,以应对每日数万亿token的生成任务。团队提供无限token资源,寻求在SGLang、vLLM、PyTorch等开源系统有贡献,或拥有大规模LLM服务经验的人才。该团队以创业公司模式运作,致力于构建高性能的AI系统。

Yuchen Jin: An OpenAI friend told me he burns 300M GPT-5.5 tokens/day. The top one in his team burns billions of tokens/day. Codex c...

OpenAI推理编码行业动态
11:22
歸藏(guizang.ai)@op7418
73
Codex 越来越猛了,昨天更新增加了内置的谷歌浏览器插件,可以直接控制你的谷歌浏览器执行任务。

Codex最新更新引入了内置谷歌浏览器插件,能直接控制基于Chromium的浏览器(如Chrome或Dia)执行任务。该插件支持后台跨浏览器页面并行工作,不干扰正常浏览;用户可启动多个SubAgent同时操作多个网页,实现高效并发。根据OpenAI官方信息,Codex现直接在macOS和Windows的Chrome中运行,能更好地与应用和网站交互,并在后台跨标签页并行处理任务,不接管浏览器。安装方法简单:在Codex插件库找到Chrome插件,点击添加并安装即可。安装后,用户可无缝下达指令,享受流畅的多任务操作体验。

OpenAI: Codex now works directly in Chrome on macOS and Windows. It's even better at working with apps and sites in Chrome, and ...

智能体OpenAI产品更新编码
11:05
Greg Brockman@gdb
68
GPT-5.5-Cyber现已面向关键基础设施防护人员开放有限预览。 这是一个非常强大的模型。

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布
11:05
Eric@ericmitchellai
85
OpenAI在API中正式推出GPT-Realtime-2,这是其迄今为止最智能的语音模型,为语音智能体引入了GPT-5级别的推理能力。该模型使语音智能体能够成为实时协作者,在对话展开过程中聆听、推理并解决复杂问题。同时发布的还有流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper,共同构成了一套面向下一代语音界面的全新音频能力组合。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

OpenAI推理模型发布语音
10:09
meng shao@shao__meng
71
Codex现可直接在Chrome中运行 Codex Chrome插件 + Chrome Codex扩展程序 https://developers.openai.com/codex/app/chrome-extension

OpenAI: Codex now works directly in Chrome on macOS and Windows. It's even better at working with apps and sites in Chrome, and ...

智能体OpenAI产品更新
09:44
小互@xiaohu
73
OpenAI发布Codex for Chrome扩展,可操作已登录网站

OpenAI推出Chrome浏览器扩展“Codex for Chrome”,该工具能利用用户当前的浏览器登录状态,直接操作需账号访问的后台、CRM等受保护页面执行任务,无需额外提供密码。扩展在独立标签组中运行,不影响用户当前浏览,并在执行提交、下载等敏感操作前请求用户确认。典型应用包括跨网站查询信息、预填表单、读取仪表板并生成摘要等。

智能体MCP/工具OpenAI产品更新
09:43
Tibo@thsottiaux
83
我们正在众目睽睽之下构建通用人工智能 【引用 @OpenAI】:在API中推出GPT-Realtime-2:这是我们迄今为止最智能的语音模型,为语音代理带来GPT-5级别的推理能力。 语音代理现已成为实时协作者,能够在对话展开时倾听、推理并解决复杂问题。 现已与流式模型GPT-Realtime-Translate和GPT-Realtime-Whisper一同在API中提供--为新一代语音界面带来全新的音频能力。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI推理模型发布
09:40
Sam Altman@sama
62
我们希望能帮助企业加强安全防护,并认为尽快开展这项工作至关重要

fouad: Today, we're rolling out GPT-5.5-Cyber in limited preview to defenders responsible for securing critical infrastructure....

OpenAI安全/对齐模型发布
08:36
SemiAnalysis@SemiAnalysis_
21
Dylan、Doug和Max本周来访,讨论了GPT 5.5、Claude Opus 4.7、DeepSeek的延期回归、Mythos、Subq以及更多热门话题! @dylan522p @fabknowledge @JordanNanos @maxkan_
AnthropicDeepSeekOpenAI行业动态
08:21
ginobefun@hongming731
64
#BestBlogs 早报 2026-05-08 重点关注 OpenAI 发布的三款语音模型
OpenAI行业动态语音
08:21
Berryxia.AI@berryxia
63
OpenAI音频模型超越Google,AI竞争格局瞬息万变

在ScaleAILabs的音频多挑战榜单中,OpenAI新发布的GPT-Realtime-2超越Google的gemini-3.1-flash-live,位居榜首。其指令保持能力较前代大幅提升,从36.7%增至70.8% APR,并在实时语音编辑方面表现突出,这对语音代理应用至关重要。尽管Google此前在图像模型和Gemini 3.1等产品上有过亮眼表现,但评论认为其在当前激烈的AI竞争中尚未展现出决定性的“杀手锏”。市场格局变化迅速,没有永远的赢家,期待Google能尽快推出突破性产品。

Scale Labs: Congrats to @OpenAI for taking the top spot on our Audio MultiChallenge S2S leaderboard with the release of GPT-Realtime...

GoogleOpenAI现象/趋势语音
08:09
meng shao@shao__meng
精选79
OpenAI 为官方 REST API 发布 CLI 工具

OpenAI 发布了官方 REST API 的命令行界面工具(CLI),将平台端点映射为 openai <资源> <命令> 的子命令,便于在 Shell 脚本、CI/CD 及运维场景中直接调用。该工具旨在替代 curl 与 jq 的组合,简化对 Admin API(如用量、项目管理)的操作,并支持通过 --format explore 快速探索新端点。开发者可通过 CLI 调用所有云端工具(包括图像生成、转录等),获得 Unix 风格的结构化输出,同时管理项目和配置 API 密钥。该项目目前处于早期阶段,更多文档即将发布。

jason liu: small ship / passion project, more details soon https://github.com/openai/openai-cli 1. call responses via cli with all ...

OpenAI产品更新部署/工程

推荐理由:OpenAI 官方出了 CLI,把所有 REST 端点映射成子命令,以后 shell 脚本里调 API 不用再写 curl+jq 胶水了,做 CI/CD 和运维的可以直接用。
07:39
meng shao@shao__meng
80
OpenAI 发布三款实时语音新模型,推动语音交互向任务执行演进

OpenAI 在 Realtime API 中推出三款新模型,将实时语音交互升级为可执行任务的界面。核心模型 GPT-Realtime-2 具备 GPT-5 级别的推理能力,支持边听边思考、并行调用工具并完成任务,关键升级包括前置语、128K上下文窗口和可控推理强度。搭配的 GPT-Realtime-Translate 支持70多种语言实时互译,GPT-Realtime-Whisper 提供低延迟流式转录。这些模型共同支持语音驱动行动、系统主动播报和跨语言对话三种应用范式,旨在构建下一代语音协作智能体。

OpenAI: Introducing GPT-Realtime-2 in the API: our most intelligent voice model yet, bringing GPT-5-class reasoning to voice age...

智能体OpenAI多模态推理
‹ 上一页
1…3334353637…50
下一页 ›