亚马逊已开始在ChatGPT投放广告,成为入驻OpenAI广告业务最知名的零售企业之一。电商分析师卡济乌凯纳斯指出,此举具“象征意义”,因亚马逊此前不愿参与AI购物合作。亚马逊将ChatGPT当作引流渠道,引导用户跳转至自家店铺,同时持续限制OpenAI、Perplexity等AI爬虫抓取数据,包括去年停止向谷歌购物提供数据、更新代码封禁爬虫,今年通过法院禁令阻断Perplexity智能体。对OpenAI而言,这一合作意味着其广告业务有望高速增长。
亚马逊已开始在ChatGPT投放广告,成为入驻OpenAI广告业务最知名的零售企业之一。电商分析师卡济乌凯纳斯指出,此举具“象征意义”,因亚马逊此前不愿参与AI购物合作。亚马逊将ChatGPT当作引流渠道,引导用户跳转至自家店铺,同时持续限制OpenAI、Perplexity等AI爬虫抓取数据,包括去年停止向谷歌购物提供数据、更新代码封禁爬虫,今年通过法院禁令阻断Perplexity智能体。对OpenAI而言,这一合作意味着其广告业务有望高速增长。
OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。
Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。
OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划,利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究,经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞,合并数十个补丁,并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如,通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室,而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。
同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》Getty Images与OpenAI签署多年授权协议,授权图片将出现在ChatGPT搜索和发现功能中。双方未披露财务条款,也未说明OpenAI是否会使用Getty内容训练未来模型。消息公布后,Getty股价盘前涨约200%,此前年内跌约55%。CEO Craig Peters称授权内容使AI驱动搜索更实用可信。Getty此前曾抵制AI图像生成,后自建生成器并起诉Stability AI,目前仍在等待以37亿美元收购Shutterstock的审批。
Codex 持续向本地 SQLite 反馈日志数据库写入大量数据,连续运行约 21 天后 SSD 写入约 37 TB,推算年写入约 640 TB。1 TB 的 SSD(约 600 TBW 额定寿命)可能不足一年耗尽保修写入寿命。日志中 TRACE 级别占保留字节的 70.7%,codex_otel.log_only 和 codex_otel.trace_safe 两类镜像遥测日志合计占 25.3%,过滤这些类别可移除约 96% 的日志内容。
欧莱雅在VivaTech 2026宣布与OpenAI合作,将美宝莲虚拟试妆(基于ModiFace AR技术)直接集成到ChatGPT。合作覆盖消费者购物工具、产品发现、广告试点及内部AI应用。欧莱雅还将使用OpenAI的生命科学推理模型GPT-Rosalind,从理肤泉品牌开始研究皮肤微生物组,以开发新护肤品。OpenAI模型将用于欧莱雅内部生成式AI内容平台CreAItech,支持图像和视频生成。欧莱雅称2025年电商销售占比超30%,已有7.3万名员工接受生成式AI培训。
三星电子向韩国全体员工及全球DX(设备体验)分部部署ChatGPT Enterprise与Codex。OpenAI称这是其史上最大企业交易之一。三星计划在研究、制造、营销、行政环节使用这些工具。Codex原为开发者编写和审查代码的工具,现非开发者也在用其构建内部工具和自动化工作流,并新增"录制-回放"功能。全球Codex周活用户超500万,韩国自2月以来活跃用户增长约800%。三星已向OpenAI供应AI基础设施用内存芯片,其他韩国客户包括LG电子、Krafton、Toss及首尔大学。
OpenAI 于 6 月 21 日宣布,三星电子向全球员工部署 ChatGPT Enterprise 和 Codex,覆盖韩国全体员工及全球设备体验(DX)部门,为 OpenAI 迄今最大规模企业部署之一。ChatGPT Enterprise 提供数据保护等企业级功能;Codex 可编写、审核、调试代码,帮助非技术团队将想法转化为软件和自动化工作流。自 2026 年 2 月以来,韩国 Codex 周活跃用户增长近 800%。此外,首尔国立大学为 4.7 万名成员免费提供 ChatGPT Edu,OpenAI 与 Kakao 合作将 ChatGPT 引入 KakaoTalk 群聊。LG 电子、三星 SDS 等多家韩国企业也在使用上述产品。
第四届中国国际供应链促进博览会(链博会)6月22日在北京开幕,英伟达CEO黄仁勋视频致辞。他称赞中国工程师和AI研究人员世界顶尖,中国拥有全球最多的计算机科学家之一。本届链博会设六大链条,共676家中外企业参展,世界500强及行业龙头企业占比超65%,实际参展商有望超1200家。数智科技链首次设立人工智能专区。
作者用Claude Opus 4.8重构AIHOT聚簇算法,消耗约2000万token,但Opus 4.8在只有模糊目标时漏洞百出,需不断审查修补。对比曾被下架的Claude Fable 5,后者能直接理解模糊目标并优雅完成方案。作者将AI管理类比员工管理:不同能力层级需不同管理颗粒度——Prompt Engineering对应执行层指令,Harness Engineering对应策略层目标加约束,Fable 5已能承接愿景层目标。引用任正非“让听得见炮声的人做决策”,并指出未来模型(GPT-5.6、Fable 6等)将迫使管理者聚焦“思考应该思考什么”。
6月22日,Getty Images宣布与OpenAI达成展示合作协议,授权图库内容将在ChatGPT的搜索与发现体验中呈现。此前,Getty Images曾与英伟达合作推出“Generative AI by Getty Images”工具,允许用户利用其授权图片库训练并承诺法律保护。OpenAI此前已与图片平台Shutterstock延续六年合作,并于2024年与英国《金融时报》签署协议,利用其资料库训练模型并提供新闻摘要链接。
三星电子近日向韩国全体员工及全球DX部门部署ChatGPT Enterprise与Codex,成为OpenAI迄今最大规模企业部署之一。ChatGPT Enterprise用于信息检索、文档起草、数据分析等知识型任务,提供数据保护与安全控制。Codex可提升代码编写、审查和调试效率,非技术团队也能将创意转化为软件、网站和自动化工作流。Codex每周活跃用户超500万,韩国自2026年2月以来增长近800%。三星计划将AI应用于研发、制造、营销等全业务流程,并与OpenAI在AI基础设施方面深化合作。
UC Berkeley分析美国一所大型公立研究型大学超50万份成绩发现,自ChatGPT推出以来,写作和编程任务多的课程A等级比例跃升13个百分点,平均GPA上升0.12分。成绩涨幅主要来自家庭作业而非考试,口头展示类作业成绩未受影响,表明AI替代学生完成作业而非改善学习。研究建议重新设计作业格式。OpenAI CEO Sam Altman警告若不调整教育体系,批判性思维可能萎缩。挪威已在小学全面禁用AI。
OpenAI CEO Sam Altman 继续押注大语言模型的规模扩展,批评一代研究者过于自信地认为 scaling 行不通。在斯坦福回应 Yann LeCun 等批评者时,Altman 表示有些人将身份与立场绑定,即便数据证明他们错了也不愿放手。他指出 LLMs 已在某些领域超越人类智能,如 OpenAI 模型推翻了一个长期困扰数学家的猜想。但对于需要高判断力的长期复杂任务,LLMs 仍远不如人类。Anthropic CEO Dario Amodei 近期也表达了类似看法。
OpenAI 预计下周推出 GPT-5.6 系列模型,涵盖 mini、标准版和 Pro 版三个版本。该系列在生成 Windows 11 SVG 测试中表现优于 Claude Mythos。
旧金山营销公司 Qontour(原 Prompt Digital)盗用了 John Koenig 的畅销书《The Dictionary of Obscure Sorrows》全部文本,将其发布在新域名网站上,但把书中原本由 Koenig 等人创作的拼贴插图替换为 DALL‑E 2 生成的 AI 图像,并添加了“Submit A Sorrow”功能——用户描述感受后,OpenAI 的 GPT‑4 会自动生成新词、词源和定义。Koenig 本人否认参与,称对此毫不知情。Qontour 在页尾标注自己是“粉丝”,并声明不拥有网站素材的任何权利。
OpenAI 为 macOS 版 Codex 新增 Record & Replay 功能。用户可先演示一次操作(如上传 YouTube 视频并添加元数据、缩略图和字幕),Codex 将其录制成可复用的“skill”,随后自主重复执行。该功能需开启 Computer Use,在欧盟、英国和瑞士不可用;Computer Use 自 6 月 16 日起已在欧盟上线。版本 26.616 还新增了 Automations 历史批量操作及本地与远程主机间线程交接能力。Codex 是 OpenAI 面向编程和白领工作自动化的 AI 智能体,应用免费下载,但需付费 ChatGPT 账号才能实际使用。
当地时间18日,谷歌前工程副总裁、Gemini技术联席负责人诺姆·沙泽尔宣布离职加入OpenAI。他是Transformer架构论文《Attention Is All You Need》共同作者,曾参与LaMDA等AI项目,并撰写了2016年论文《Sparsely-gated Mixture of Experts》。他于2021年离开谷歌创办Character.AI,2024年通过交易回归谷歌DeepMind。OpenAI CEO奥尔特曼发文欢迎,称其是从创立之初最希望合作的人之一。
同一事件,精选展示《Noam Shazeer 离开 Google 加入 OpenAI》OpenAI 为 ChatGPT 新增「Scheduled」侧边栏页面,集中管理所有定时任务。用户可查看、暂停、编辑或删除任务。研究任务可搜索网页和已连接应用,仅在内容变化时发送提醒。所有任务速度更快、可靠性更高,用户可按具体时间或早晨、下午、晚间时段触发。该功能面向 Plus、Pro、Business、Enterprise 用户,活跃任务数量因套餐而异,最多每小时执行一次,用户不活跃时自动暂停。原有「Pulse」功能已整合进定时任务中。
OpenAI 2026年第一季度营收57亿美元,烧掉约37亿美元,两项均同比翻三倍。股票薪酬超23亿美元,同比翻倍。毛利率从33%升至39%。运营亏损93亿美元,净亏损超213亿美元,其中124亿美元来自投资者权益重估的账面损失。公司持有超730亿美元现金及证券,短期内无需融资。OpenAI已提交IPO文件但未定日期,CEO称有理由保持私有,另一原因是Anthropic即将IPO。
GLM-5.2(MIT开源,753B参数,约40B活跃)在AA Intelligence Index上仅比GPT-5.5低4分、比Claude Fable 5低9分,但其幻觉率仅28%,远低于GPT-5.5的86%和DeepSeek V4 Pro(1.6T参数,49B活跃)的94%。后者在AA-Omniscience基准上仅6%的问题会承认不知道。实际代码测试中,GLM-5.2用12秒和800个推理token识别出技术悖论,而DeepSeek V4 Pro耗费3分26秒和近10倍推理token后仍给出错误答案。模型规模增长正导致幻觉率飙升而非智力提升。
同一事件,精选展示《GLM-5.2 上线并开源:专注 Coding 与长程任务》科技媒体 testingcatalog 报道,OpenAI 有望下周推出 GPT-5.6 系列,涵盖 mini、标准版和 Pro 版。部分 Pro 订阅用户已可访问 GPT-5.6 Pro,理解力增强,前端/Web 开发认知有进步。性能方面,上下文窗口从 100 万 tokens 扩展至 150 万 tokens,优化了长周期编码能力和 Codex 响应速度。消息称在智能体编码中,GPT-5.6 已优于 Anthropic 的 Mythos 系列。定价上,OpenAI 当前 token 价格仅为 Anthropic 一半左右,计划进一步降价。
一位前OpenAI机器人研究员用不到€5,000搭建了一套桌面机器人操控实验平台,包括UFACTORY xArm Lite 6工业级机械臂、Intel RealSense D405腕部摄像头、Logitech C920桌面摄像头和3Dconnexion SpaceMouse无线遥操作设备。整套系统置于办公桌旁,通过自研Python软件栈控制。作者计划在未来数月开展独立研究,并以公开研究日志形式记录实验过程、失败与经验,不预设产出论文或开源代码。
麻省理工学院一项为期4周、67人参与的研究发现,过度依赖AI助手可能削弱批判性思维。实验使用基于GPT-4o并接入谷歌搜索的聊天机器人,参与者借助AI判断新闻标题和图片真伪时,正确概率提高21%,但在无AI帮助时独自识别错误信息的表现下降15.3%。研究指出,AI直接给出答案而非引导思考,短期内提升准确率,长期却削弱独立判断力,约四分之一参与者误以为能力提升,实际表现已变差。
OpenAI用强化学习在真实对话中训练模型具备诚实、认知谦逊、可纠正性等特质。仅将少量该数据混入常规强化学习后训练流程,模型便在53个独立基准(衡量欺骗、谄媚、奖励黑客等)中的44个上获得改进。健康数据训练也提升非健康评估,反之亦然。模型对有害提示和有害微调更具抵抗力,同时保持有用可操控性,研究者称之为“选择性持久性”。该方法与Anthropic基于“Claude宪法”的宪制式对齐路径不同。
网站 In the Weights 通过查询多个大语言模型,判断特定人物是否出现在模型的权重中——即模型训练时认为该人物足够重要而记住。网站聚合结果并给出强度评分,最高分996对应莫扎特、莎士比亚、泰勒·斯威夫特等名流。由两位前OpenAI员工Joey Flynn和Thomas Dimson创建。较小模型更难出现,因此能在Meta的10亿参数模型Llama中出现的人被视为高度相关。网站也指出了LLM的明显局限:模型可能幻觉传记细节、拼写错误会降低分数、常见姓名结果通常较差。
OpenAI 企业 AI 销售主管 Barret Zoph 在重返公司仅五个月后再次离职。他于今年 1 月中旬回归,此前是 Mira Murati 创办的 Thinking Machines Lab 联合创始人兼 CTO。Zoph 最初于 2024 年秋离开 OpenAI 加入该实验室,但在 2026 年 1 月因涉及与同事未公开关系的不当行为指控而突然离职。OpenAI 确认了 Zoph 的离职,他已在公司 Slack 中发布告别消息。
OpenAI 通过强化学习在真实对话场景中训练模型,使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测(包括奖励黑客、欺骗、有害建议、规范遵从等)上均表现提升,且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下,模型仍难以被导向有害行为,表明有益特质强化学习可产生广泛且持久的对齐泛化。
前Google研究员、Transformer架构共同作者诺姆·沙齐尔在X上宣布,他将加入OpenAI,并期待与那里的卓越团队合作。沙齐尔表示这是一个艰难的决定,同时对Google团队及其共同取得的成果感到无比自豪。
关联讨论 7 条IT之家(RSS)X:Kim (@kimmonismus)The Decoder:AI News(RSS)X:Jason Liu (@jxnlco)X:Yuchen Jin (@Yuchenj_UW)X:歸藏 (@op7418)X:Sam Altman (@sama)OpenAI在IPO前夕连招两位重量级人物:Google DeepMind AI先驱、Transformer架构共同作者Noam Shazeer,以及前特朗普白宫AI政策官员Dean Ball。Shazeer此前通过27亿美元收购协议重返Google,此次离职加盟OpenAI。Ball将于7月6日加入,领导新组建的Strategic Futures团队,向首席战略官Jason Kwon汇报,团队将负责前沿AI政策与内部治理,聚焦灾难性风险、递归自我改进、劳动力市场影响及前沿实验室与政府关系等议题。此举正值Anthropic因美国政府出口管制禁令被迫下架Fable 5和Mythos 5模型。
同一事件,精选展示《Noam Shazeer 离开 Google 加入 OpenAI》OpenAI 升级 ChatGPT 医疗能力,新模型 GPT-5.5 Instant 在 HealthBench 及 HealthBench Professional 测试中达到最贵 Thinking 模型水平,成本大幅降低。该模型对所有免费用户开放(有使用限制),其回答在准确性、清晰度和完整性上优于医生书写的回答,过去两个月错误健康陈述减少 71%。超 260 名来自 60 个国家的医生审查了 70 多万条模型响应。每周有超 2.3 亿人通过 ChatGPT 咨询健康问题。OpenAI 还提供 ChatGPT for Clinicians 和 OpenAI for Healthcare 等专业工具。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Greg Brockman (@gdb)OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台(Global Admin Console)统一展示 ChatGPT 和 Codex 的信用消耗,支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额,按群组配置额度,并为个人设置叠加限制。员工可查看个人用量并申请增加额度(附工作上下文)。这些功能即日起可用。
每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升,最具挑战性评测上达到前沿Thinking模型水平,已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估,其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型,故障模式发生率更低。近两个月生产流量显示,健康类回复事实性问题率下降71%。
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Greg Brockman (@gdb)从游戏剪辑平台Medal剥离的AI初创公司General Intuition正洽谈约3亿美元融资,估值超20亿美元。本轮距其1.34亿美元种子轮仅8个月,投资方包括Jeff Bezos、Eric Schmidt及现有投资者Khosla Ventures、General Catalyst。公司利用Medal每年20亿条视频(来自1000万月活用户)训练具身AI与世界模型,通过第一人称交互数据实现空间-时间推理。OpenAI曾试图收购Medal。资金将用于扩大算力,计划夏末或初秋发布新产品。
开发者使用Claude Code控制并调试MAME的Power Macintosh仿真。Claude通过生成Lua脚本和修改日志,发现了6522 VIA仿真故障、PowerPC DRC缓存值未覆盖实际状态的反模式、PowerPC 601的两处Bug,以及原子加载/存储指令模拟错误。修复后,Pippin播放启动音并显示Logo、鼠标可移动;PowerMac 7200显示启动磁盘搜索画面;PowerMac 6100成功启动System 7.5.3和7.5.5。此外,GPT 5.5 Pro(经Codex)在固件逆向中能快速给出内存映射和子程序猜测。
杨立昆接受 CNBC 采访时指出,当前 AI 模型和服务价格持续上涨,运营公司仍在亏损,低价依赖投资人补贴,尚未建立可持续商业模式。他称 OpenAI 和 Anthropic 要么提高价格要么降低运营成本,否则巨大泡沫可能破裂。他还评价马斯克的 xAI 是“某种意义的失败案例”,创始团队多人出走,难以吸引新鲜血液,无法与 OpenAI、Anthropic 正面竞争。杨立昆主张发展世界模型概念,而非依赖海量语料库的大语言模型(LLM)路线。
波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。
德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项,500余例急诊诊断准确率88.9%,对比测试(311例)得分87.8%,高于资深专科医生(78.1%)和混合团队(71.1%)。MIRA在阑尾炎(98.6%)和胰腺炎(92.3%)最佳,未发现危险药物交互或剂量错误,性能不受语言影响,代码已公开。谷歌AMIE采用双智能体架构,在100个多访视病例中治疗计划适切率95%(初级保健医生72%),并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距,实际性能可能更低。