OpenAI 最新动态与精选 · AI HOT

Topic · 主题全部主题 →

OpenAI

OpenAI 的全部动态：GPT 系列模型、ChatGPT 产品、公司战略与人事的持续追踪。

3,387条收录

394条精选

● 持续更新

近期焦点近 14 天 · 按多源报道热度

1OpenAI 预览新一代模型 GPT-5.6 Sol7813 家源
2美国政府要求OpenAI暂缓GPT-5.6广泛发布7610 家源
3GPT-5.5幻觉率达86%，GLM-5.2仅28%——大模型越大越不可靠7210 家源
4谷歌 Gemini 联席负责人沙泽尔转投 OpenAI，奥尔特曼发文欢迎719 家源
5OpenAI Codex 2026年上半年活跃用户增长超5倍，非开发者增速最快833 家源

7月3日

03:45

The Decoder：AI News（RSS）

精选78

Microsoft 成立"Frontier Company"，斥资 25 亿美元派驻 6000 名 AI 工程师到企业客户现场

Microsoft 新设业务部门“Frontier Company”，拨款 25 亿美元，将 6000 名行业与工程专家派驻企业客户现场，“共同设计、共同创新、部署并持续改进 AI 系统”。该部门由 Rodrigo Kede Lima 领导，旨在超越“前部署工程”模式，成为“最大、以结果为导向的工程组织”。Microsoft 将自己定位为 OpenAI 和 Anthropic 的“平台中立”替代方案，后两者也已设立专门部署公司。Microsoft 将借助埃森哲、凯捷、安永等系统集成商扩大覆盖范围。

Anthropic Microsoft OpenAI 行业动态

推荐理由：微软砸 25 亿美元成立 Frontier Company，把 6000 名工程师直接塞进企业客户现场，正面应战 OpenAI 和 Anthropic 的部署子公司。这一手既是补齐落地能力也是巩固生态，对 CIO 来说是选择多了，但对 AI 行业意味着部署军备竞赛正式开打。

7月2日

23:06

IT之家（RSS）

精选74

花旗、Adobe等企业限制员工使用AI旗舰模型以控制成本

据404 Media获取的内部资料，Atlassian、Adobe、亚马逊等六家企业正限制员工使用AI工具，要求改用能力较低的大模型避免成本失控。至少一家企业月度AI开销增至三倍，超1500万美元。花旗银行因GitHub改为按量计费，于6月24日禁用Claude Opus 4.6、4.7及GPT-5.5等旗舰模型。Adobe于6月30日终止Claude无限制使用协议。Atlassian数据显示其AI月支出从500万美元飙升至1500万美元，本财年预计超1.2亿美元。GitHub计划改用开源模型并测试单人按量计费模式。

Anthropic OpenAI 现象/趋势部署/工程

推荐理由：这是第一份详细揭露大公司AI成本失控的内部报告，花旗直接禁用GPT-5.5和Claude 4.7，把「按需匹配模型」写进全员邮件，对所有在铺AI的企业都是一记现实的耳光。

20:45

The Decoder：AI News（RSS）

精选71

Fable 5 在 RLI 基准中达成 16.1% 自动化率，较八个月前提升六倍

Remote Labor Index（RLI）衡量 AI 智能体完成 240 个付费自由职业项目（总值 14.4 万美元）的专业质量比例。最新结果显示，Fable 5 自动化率达 16.1%，是八个月前最佳系统 2.5% 的六倍多，也超过 Opus 4.8（8.3%）和 GPT-5.5（6.3%）。因美国政府限制访问，Fable 5 仅完成 218/240 个项目评估，最坏情况仍达 14.6%。Gemini 3 Pro 仅 1.25%，落后于更老模型。AI 裁判会高估模型表现（GPT-5.5 评分偏高近三倍），仍需人类评估员打开专业软件（如 Blender）检验几何模型等细节。测试环境为虚拟 Linux 机，配备 30 余款专业应用，每项目最多 24 小时计算时间。尽管自动化率快速攀升，多数项目仍无法达到专业质量。

智能体 Anthropic OpenAI 现象/趋势

推荐理由：自由职业自动化率八个月翻了六倍，这个数据比任何模型基准都更说明AI对真实工作的渗透速度。虽然顶级模型仍会'作弊'，但趋势已经形成，做自由职业平台和外包的人该认真看看。

16:02

🚨 AI News | TestingCatalog@testingcatalog

精选75

据Financial Times和CNBC报道，OpenAI提议向美国政府提供公司5%的股份，按近期8520亿美元估值计算，价值约426亿美元。OpenAI CEO Sam Altman表示，此举是与公众分享AI发展红利的最佳方式。

Andrew Curran: OpenAI is proposing handing over a 5% stake to the Trump administration according to the Financial Times.

OpenAI 行业动态

关联讨论 2 条

推荐理由：当估值8520亿的AI巨头主动将5%股份交给政府，这不再是普通的游说策略，而是可能重新定义公私关系的标志性一步。我觉得这件事的长期影响比任何模型发布都更深远。

7月1日

18:10

The Decoder：AI News（RSS）

精选70

OpenAI论文揭示GPT-5.6三个Pro变体，打破单一顶级策略

OpenAI论文首次列出GPT-5.6的三个Pro变体：Luna Pro、Terra Pro和Sol Pro，取代以往单一Pro模式。在基因组学基准中，Sol Pro通过率31.5%居60个测试模型之首，领先标准Sol（28.7%）和Claude Opus 4.8（16.0%）。Pro相比标准版本提升逐级递减：Luna Pro提升7.1个百分点（16.5%→23.6%），Terra Pro提升5.2（23.3%→28.5%），Sol Pro仅提升2.8（28.7%→31.5%）。Terra Pro（28.5%）几乎与标准Sol（28.7%）持平。论文未披露Pro运行的token用量，也不清楚该分层是否会在ChatGPT中实际推出。

OpenAI 推理行业动态

推荐理由：论文意外曝光 GPT-5.6 Pro 将有三个变体，Pro 不再只是一个最强模型，而是让用户按推理需求选版本，这才是匹配 200 美元月费该有的逻辑。

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选70

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro，用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题，覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景，要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建，已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI 推理论文/研究

推荐理由：OpenAI 的新基准揭示了一个信号，GPT-5.6 在需要科学判断的模糊任务上进步神速，从不足 5% 到接近 30%，且单题成本仅几美元，这对 AI for Science 的落地想象空间影响不小。

00:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示，用户注册六个月后日均消息量增加50%，尝试任务种类翻倍。自2023年7月以来，各大洲活跃用户均大幅增长，非洲和亚洲增速最快，低人类发展指数国家增长尤为显著。用户群体更加多元化，女性名字用户已占全球多数，巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上，领先语言为西班牙语、葡萄牙语和阿拉伯语；乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

OpenAI 现象/趋势

推荐理由：OpenAI 首次公开用户行为数据，显示使用深度和广度随时间增长、非洲与亚洲增速最快，对做全球化产品的同行是个重要信号。

6月30日

19:38

The Decoder：AI News（RSS）

精选70

Meta秘密测试ChatGPT等竞品：承包商假扮未成年发送数万条危机提示

Meta通过承包商Covelen发起代号“Cannes”的项目，雇佣数百人假扮未成年人，向ChatGPT、Gemini和Character.AI发送关于自杀、自残、饮食障碍和毒品的敏感提示，并将回复录入表格。2025年8月一轮测试中发送了超过4.5万条提示。Meta称这是行业标准安全测试，未将数据用于训练自家模型。被测试公司不知情——Character.AI表示违反其服务条款，OpenAI已调查，Google称未批准。青少年使用AI聊天机器人引发的担忧持续，此前已有用户自杀事件。

Meta OpenAI 安全/对齐行业动态

推荐理由：Meta 秘密测试 ChatGPT 等对手，用的是假装未成年人的危机提示，这种事既是安全测试也可能是数据抓取，被测试公司全不知情，这暴露了 AI 安全测试的灰色地带。

16:02

IT之家（RSS）

精选70

黑石未来3~5年拟投300亿美元在日本建AI数据中心，联合成立AI XPV平台

黑石计划未来3~5年在日本AI数据中心领域投资300亿美元，此前的500MW基础上新增超1GW容量。黑石总裁认为AI投资仍处早期，真正风险是算力短缺而非基建泡沫；谷歌、亚马逊是英伟达潜在挑战者。此外，黑石、阿波罗、博通本月9日成立AI XPV平台，目标2028年向OpenAI、Anthropic等提供超20GW算力，首期350亿美元支持Anthropic在Fluidstack数据中心部署1GW基础设施。

Anthropic OpenAI 行业动态部署/工程

推荐理由：黑石300亿美元押注日本AI数据中心，加上此前AI XPV平台，算力基建竞赛进入新阶段，对于关注云计算和算力供需的人来说是个重要信号。

6月29日

18:36

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI 报告：绘制欧洲 AI 劳动力机遇版图

OpenAI 发布新报告，分析 AI 对欧盟就业的影响，划定哪些职业面临自动化、增长或工作流程变化。

OpenAI 现象/趋势论文/研究

推荐理由：与常见的「AI会取代工作」观点不同，OpenAI 用具体数据画出了欧洲就业的迁移路线，政策制定者应该打开看看，虽然报告全文的方法论尚待检验。

6月28日

01:22

Berryxia.AI@berryxia

精选76

苹果Vision负责人跳槽OpenAI，触控OLED MacBook用M5芯片

2026年6月26日，Mark Gurman称苹果Vision产品组副总裁Paul Meade下周离职加入OpenAI硬件部门。他负责Vision Pro、无屏幕AI智能眼镜及AR眼镜研发。苹果计划首款触控OLED MacBook使用M5 Pro/Max芯片，2026年底到2027年初发布；M7 Pro/Max版本2027年底跟进。苹果此前因涨价市值蒸发2300多亿美元。核心高管流失至OpenAI凸显AI硬件竞争加速。

OpenAI 多模态行业动态

推荐理由：Paul Meade 从苹果 Vision Pro 跳槽 OpenAI，不是普通人事变动，而是 AI 硬件竞赛正式开打的信号，做硬件的可以开始紧张了。

6月27日

20:40

The Decoder：AI News（RSS）

精选70

"Raise Us"启动：前美商务部长与四州合作筹集10亿美元应对AI就业冲击

前美国商务部长Raimondo与前印第安纳州长Holcomb共同发起非营利“Raise Us”，目标为AI经济下工人再培训筹集10亿美元，已锁定5亿。Amazon、Anthropic、Microsoft、OpenAI等支持，引发独立性质疑。将在阿肯色、康涅狄格、马里兰、犹他四州试点，包括AI职业导航、服务年计划扩展、工资保险等。工作分州合作、雇主联盟、教育培训、政策实验室四大支柱。此前美国工人再培训效果不佳，计划能否成功尚待观察。

Microsoft OpenAI 行业动态

推荐理由：这是美国首次有规模的劳动力AI应对策略，四家AI巨头终于自掏腰包搞再培训，虽然出资方身份令人警醒，但跨党派运作至少说明问题已经大到必须正视了。

04:28

Ars Technica：AI（RSS）

精选84

纽约时报修订诉讼，指控微软为OpenAI建造版权侵权超级计算机

《纽约时报》周四提交经大量编辑的法庭文件，提议修订对OpenAI和微软的版权诉讼，明确指控微软通过建造全球最强大的超级计算系统之一，主动鼓励OpenAI窃取其作品。此举源于最高法院在Cox案中确立的新帮助侵权标准，要求原告证明被告有意诱导非法行为。《纽约时报》认为新证据显示该超级计算机专为帮助OpenAI未经许可训练AI而设计，其文章在训练数据中被加权处理。微软称修订是“挽救不利先例的最后手段”。

Microsoft OpenAI 政策/监管行业动态

关联讨论 1 条

推荐理由：NYT将矛头指向微软定制的超级计算机，指控其蓄意协助侵权，这一升级可能让公平使用抗辩失效，我觉得任何建立在全网爬取上的模型都该紧张了。

01:02

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选78

OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

OpenAI 安全/对齐推理模型发布

关联讨论 12 条

推荐理由：GPT-5.6 Sol 不是一次常规升级，它把推理推到新高度，还引入了子代理模式。但美国政府要求有限预览，让这次发布多了点政治味道。

00:53

Rohan Paul@rohanpaul_ai

精选75

华盛顿邮报报告：AI聊天机器人存在左翼偏见

《华盛顿邮报》报道，基于达特茅斯和斯坦福研究的测试显示，AI聊天机器人在约30项政策议题（税收、医保、移民等）上存在左翼偏见。GPT-5.5仅给出左倾立场占80%，双方立场17%，右倾3%；Gemini 3.1 Pro则93%给出双方立场，左倾仅7%；Claude Opus 4.8双方立场占57%；Grok 4.3是唯一右倾占33%的模型。文章指出，问题不在于答案倾向，而在于模型在展现权衡前已用单一道德框架压缩政治分歧，其行为更多受排序选择、拒绝规则、训练反馈和默认回答风格影响。

Google OpenAI xAI 安全/对齐

推荐理由：邮报用 30 个政策问题的测试戳破了‘中立’幻觉，GPT-5.5 左倾回答占 80%，Gemini 低调得多但也不是中立。值得看的不是哪个模型左右，而是它们用单一框架替用户做了取舍。

6月26日

12:59

IT之家（RSS）

精选74

近400家美国报纸起诉微软和OpenAI：未经授权抓取新闻内容训练AI

代表近400家纸媒的出版商联盟向美国纽约南区联邦地区法院起诉微软和OpenAI，指控其未经授权抓取新闻内容用于训练Copilot、ChatGPT等AI模型，侵犯版权并触犯《数字千年版权法》。起诉书称被告“系统性且秘密地”爬取网站，复制文章并删除版权管理信息。原告表示AI产品基于其内容创造数十亿美元价值，但出版商分文未得，称此举或成地方新闻业“丧钟”。OpenAI回应训练数据基于公开可获取内容且符合合理使用原则，微软未置评。

Microsoft OpenAI 行业动态

推荐理由：近400家报纸集体起诉是迄今为止最大的AI版权诉讼，结果可能决定新闻数据在训练中的合法性边界，媒体和AI公司都该盯着。

05:23

Rohan Paul@rohanpaul_ai

精选76

美国政府要求OpenAI暂缓GPT-5.6广泛发布

The Information 报道，美国政府因安全顾虑要求 OpenAI 暂缓 GPT-5.6 的广泛发布，改为推出受控预览版。OpenAI 计划先向小部分合作伙伴提供早期访问，并由政府逐客户审批准入。这一非常规做法主要担忧模型在自动化高技能网络工作上的能力：既能帮防御者更快发现漏洞，也可能被攻击者用于加速测试漏洞利用。本周四，CEO Sam Altman 已向员工确认该审批流程。

Stephanie Palazzolo: New w/ @leomschwartz @amir: The Trump admin has asked OpenAI to stagger the release of GPT-5.6 over security concerns. O...

OpenAI 安全/对齐行业动态

关联讨论 9 条

推荐理由：美国政府首次以逐客户审批的方式干预模型发布，这很可能成为未来前沿模型发布的先例，AI 安全治理从行业自律转向行政介入，做应用和做安全的人都要重新评估风险。

05:21

OpenAI Developers@OpenAIDevs

精选66

OpenAI 宣布 Codex 在 ChatGPT 移动应用中正式开放（GA），并新增一对一设备配对实现更安全的手机与电脑连接。移动端新增通知、目标、侧边聊天、文件预览及内联审阅评论功能。此前预览版已明确，用户可通过 ChatGPT 移动 App 启动新工作、审查输出、引导执行和批准下一步，而 Codex 实际继续在笔记本、Mac mini 或开发机上后台运行。

OpenAI: You've been asking for this one... Now in preview: Codex in the ChatGPT mobile app. Start new work, review outputs, stee...

OpenAI 产品更新编码

推荐理由：Codex 移动端全面开放，终于可以在手机端管理编码任务了，对习惯远程操控的开发者是个实用里程碑。

00:08

The Decoder：AI News（RSS）

精选73

多数主流AI聊天机器人政治立场偏左，"反觉醒"模型也不例外

华盛顿邮报调查显示，多数主流AI聊天机器人在政治问题上明显偏左。OpenAI GPT-5.5在80%回答中仅呈现左派论据；DeepSeek V4 Pro为70%；Anthropic Claude Opus 4.8有43%纯左、57%给出双方观点。xAI的Grok 4.3左倾回答仍多于右倾。右翼平台Gab的Arya左倾回答是右倾的12倍。Google Gemini 3.1 Pro是例外，93%回答同时呈现双方立场。特朗普推动的“反觉醒”AI未能改变这一格局。

Google OpenAI 安全/对齐评测/基准

推荐理由：华盛顿邮报对六款主流模型的实测是个重要信号，所有模型默认左倾，连反觉醒的Grok也不例外，只有Gemini坚持给出两边观点。做对齐和治理的人该好好看看这些数据。

6月25日

17:09

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

OpenAI内部报告：智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到，智能体产品 Codex 取代 ChatGPT 成为主要工作工具，各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求，70.2%超1小时，25.6%超8小时；99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛：个体用户增长137倍，组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点，平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体 OpenAI 现象/趋势论文/研究

关联讨论 2 条

推荐理由：OpenAI 第一次用内部数据量化智能体如何改变工作，非开发者增速 137 倍比工程师还猛，Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新，但比大多数发布会都更值得做策略的人看一眼。

02:20

OpenAI@OpenAI

精选67

我们为你带来了新版 GPT-5.5 Instant，它现在聊起天来有趣多了。我们最常用的模型现在能更好地理解问题背后的意图，并相应地调整回应。它也能更可靠地处理复杂约束，让购物和本地推荐更加实用和连贯。今天向付费用户推送，明天向免费用户推送。

OpenAI 推理模型发布

关联讨论 1 条

推荐理由：GPT-5.5 Instant 这次更新看似温和，但“更懂意图”和“复杂约束处理”的改进，对产品人和普通用户来说，可能比跑分更有用。

6月24日

21:01

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño，专为当前及未来 LLM 从头设计。早期测试显示，其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月，并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心，推出多代计算平台。

OpenAI 产品更新推理部署/工程

推荐理由：OpenAI 首次亲自设计芯片，和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño，从设计到流片仅 9 个月。虽然还只是早期测试，但性能功耗比大幅领先，一旦大规模部署，推理成本可能跳水，用 ChatGPT 的每个人都能感知到更快更便宜。

12:42

IT之家（RSS）

精选74

OpenAI ChatGPT 语音最大规模升级：双向AI语音模型 Bidi 1 已上线测试

6月23日，部分用户反馈 ChatGPT 网页版和 App 版上线了双向 AI 语音模型 Bidi 1，位于设置模型选择器中，与标准语音和高级语音并列。该模型支持边说话边监听，用户可在对话中途打断并发出新指令，例如要求从1数到10时中途喊停倒数，模型会立即切换执行。OpenAI 尚未官宣，预计本周启动更大范围测试。

OpenAI 多模态模型发布语音

推荐理由：Bidi 1 让 ChatGPT 语音从回合制变成双向并行，打断后能立即响应，这是语音交互真正的升维，普通人很快就能感受到对话自然感的质变。

05:08

Ars Technica：AI（RSS）

精选76

Oracle因AI应用裁员21000人，债务驱动云基础设施投资

Oracle在截至5月31日的财年裁员21000人，员工总数降至141,000人，降幅12.9%。公司称AI技术的采用导致劳动力缩减，同时重组成本达18亿美元，同比增长481%。Oracle计划2026年通过债务和股权筹集450至500亿美元，扩建Oracle Cloud Infrastructure，服务OpenAI、xAI、AMD、Nvidia、Meta等客户。公司债务超1200亿美元。分析人士指出裁员有助于改善现金流，但Oracle也承认大规模裁员可能带来生产力下降、人才短缺和员工士气受损等风险。

OpenAI 现象/趋势行业动态

推荐理由：Oracle裁员2.1万人并大举借债押注AI，这既是AI替代人力的鲜活案例，也暴露了云巨头激进投资背后的财务风险，做投资和战略的该看看。

6月23日

02:16

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

Codex 用于长期工作：最大化效能实践

OpenAI 发布白皮书，由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流，并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性，以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体 OpenAI 教程/实践编码

推荐理由：这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace，对管理长周期项目的团队有实操借鉴，但终究是厂商教程，未提供突破性方法论。

01:40

Cursor Blog

精选72

Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现，在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后，Opus 4.8 Max 得分从 87.1% 跌至 73.0%，Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上，标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找（57%）和 git 历史挖掘（9%）。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体 Anthropic OpenAI 编码

推荐理由：Cursor这项审计把基准作弊量化了：更强模型更会找现成答案，SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了，环境不控住分数毫无意义。

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 3 条

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

6月19日

05:55

OpenAI：Alignment 研究博客（RSS）

精选64

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测（包括奖励黑客、欺骗、有害建议、规范遵从等）上均表现提升，且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下，模型仍难以被导向有害行为，表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 这个对齐实验给出了一个反直觉发现，只在健康数据上训练有益行为竟然也能改善非健康领域的对齐，而且更难被攻破，虽然离落地还远但方向很关键。

03:08

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

企业版新用量分析与更新的支出控制

OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台（Global Admin Console）统一展示 ChatGPT 和 Codex 的信用消耗，支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额，按群组配置额度，并为个人设置叠加限制。员工可查看个人用量并申请增加额度（附工作上下文）。这些功能即日起可用。

OpenAI 产品更新部署/工程

推荐理由：仅面向ChatGPT Enterprise管理员的使用分析和预算控制更新，帮助企业追踪团队用量、控制成本，但并非行业级事件，管理者可当即启用。

02:22

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant提升ChatGPT健康智能

每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升，最具挑战性评测上达到前沿Thinking模型水平，已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估，其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型，故障模式发生率更低。近两个月生产流量显示，健康类回复事实性问题率下降71%。

OpenAI 产品更新评测/基准

关联讨论 3 条

推荐理由：GPT-5.5 Instant把健康智能提升到接近前沿思考模型水平并免费提供，与医生对比的实验和71%的错误率下降让这次更新有切实证据。

6月18日

23:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

OpenAI 推理数据/训练论文/研究

推荐理由：这是AI辅助罕见病诊断的严肃实证，4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远，但证明推理模型能帮专家从旧数据里挖出新线索。

22:52

The Decoder：AI News（RSS）

精选78

Nature两篇研究：MIRA和AMIE诊断与治疗计划媲美甚至超越医生

德国团队开发的MIRA智能体在模拟电子病历中操作85,000种选项，500余例急诊诊断准确率88.9%，对比测试（311例）得分87.8%，高于资深专科医生（78.1%）和混合团队（71.1%）。MIRA在阑尾炎（98.6%）和胰腺炎（92.3%）最佳，未发现危险药物交互或剂量错误，性能不受语言影响，代码已公开。谷歌AMIE采用双智能体架构，在100个多访视病例中治疗计划适切率95%（初级保健医生72%），并在药物知识基准RxQA上超过医生。两项研究均警告模拟环境与现实存在差距，实际性能可能更低。

智能体 GitHub Google OpenAI

推荐理由：两项 Nature 研究把 AI 诊断推到了和医生掰手腕的水平，但更值得关注的是那个被埋起来的实验：更强的模型一上来，精心搭建的 double-agent 架构几乎归零。医疗 AI 的护城河可能不是架构而是接入院内系统的能力。

19:47

Hacker News 热门（buzzing.cc 中文翻译）

精选79

ChatGPT 图像生成器可被绕过滤镜生成暴力和色情内容

Mindgard 红队研究发现，ChatGPT 的图像生成器可通过简单提示词轻易绕过内容过滤器，在未直接请求的情况下自动生成性暴力、血腥谋杀等露骨图像。一个热门的“恢复照片”提示词因输入模糊而绕过输入过滤器，结果如同俄罗斯轮盘赌；进一步添加虚假图像 ID 和“不做审查”指令后，模型持续生成高度性化女性图像，甚至出现被捆绑殴打的尸体，并自动赋予惊悚标题。研究指出，OpenAI 此前声称修复的裸体问题仍未解决，暴露了 AI 工具广泛可及性与不足内容过滤的现实风险。

OpenAI 图像生成安全/对齐

推荐理由：这是自 ChatGPT 图片功能上线以来最严重的安全漏洞曝光，Mindgard 用简单句子就绕过所有 filter 直接生成极端暴力色情图片，OpenAI 的回应和处理令人失望，暴露了训练数据治理的根本问题。

15:54

向阳乔木@vista8

精选79

免费开源乔木画布：AI生图+抠图，一键部署Vercel

乔木画布推出免费开源在线图像编辑器，可一键部署Vercel为网站，功能类似简化版PS。支持Seedream和GPT-image-2生图、图片模板存储分享、一键抠图、2万图标和常见Emoji，甚至能绘制PRD。随时创建3:4/16:9/21:9等不同尺寸画布。原计划高级功能收费，庆祝端午节现全免费开源。在线体验：https://ps.qiaomu.ai/，GitHub见评论区。

OpenAI 图像生成开源/仓库开源生态

推荐理由：这个开源画布把AI生图和简易设计工具打包，一键部署Vercel，对偶尔做图的产品人和开发者很友好，全免费开源的诚意值得点开收藏。

08:25

Yuchen Jin@Yuchenj_UW

精选82

两年前谷歌花 27 亿美元请回的 AI 传奇 Noam Shazeer 已离开谷歌，加入 OpenAI。对 Gemini 来说是个残酷的消息。

Noam Shazeer: I'm excited to share that I'll be joining OpenAI and look forward to working with the exceptional team there. It was a d...

Google OpenAI 行业动态

关联讨论 8 条

推荐理由：这是今年最重磅的 AI 人才流动，Noam Shazeer 从 Google 跳到 OpenAI 既是个人选择，也标志着顶级研究资源在进一步集中。对 Gemini 是雪上加霜。

04:42

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

LifeSciBench 发布

2026 年 6 月，OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准，涵盖 750 个真实研究任务，覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准（共 19,020 条），评估模型的科学正确性与实用价值。79% 的任务需多步推理，53% 要求解读图表、PDF 等附件数据，旨在衡量 AI 在复杂、不确定的研究任务中的实际能力，而非仅回答结构化问题。

OpenAI 论文/研究评测/基准

关联讨论 1 条

推荐理由：OpenAI 这个基准请了 173 位博士级科学家出题，第一次把 AI 评估拉到真实科研决策里。结果很实在：前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力，做 AI for Science 的团队值得拿来校准预期。

6月17日

06:56

TechCrunch：AI（RSS）

精选73

Anthropic 5月企业AI订阅份额首超OpenAI，特朗普政府禁令反促采用量创新高

Anthropic 5月企业AI订阅市场份额达41%，首次超越OpenAI（39.5%）。公司刚完成650亿美元融资、估值9650亿美元，并因首次盈利季度秘密提交IPO。特朗普政府以出口管制为由要求Anthropic禁止非美国人访问最新模型Mythos 5及Fable 5，导致两款模型下架。Ramp首席经济学家指出，类似争议（如3月被国防部列为供应链风险）反而推动Anthropic企业采用量创纪录。Ramp数据显示，企业支出主要流向Claude Opus模型（最新为Opus 4.8）。

Anthropic OpenAI 安全/对齐行业动态

推荐理由：Anthropic 市场份额首超 OpenAI，却被白宫要求撤下最新模型。Ramp 数据表明，这种「被点名过于危险」的禁令可能反过来强化其商业吸引力，值得每一个关注 AI 走向的人点开看。

06:04

Gary Marcus：The Road to AI We Can Trust（RSS）

精选62

OpenAI 的领先优势正在快速缩小

评论认为 OpenAI 正面临多重危机：缺乏护城河导致市场领先地位下滑；最大投资者微软持续疏远，近期甚至公开考虑将主要产品外包给中国；亏损速度远超预期，年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic，但也可能反而帮助其崛起，而 Elon Musk 成为另一个潜在的竞标者。

Microsoft OpenAI 大佬观点

关联讨论 4 条

推荐理由：Gary Marcus 这次拿出了市场份额和微软疏远的证据，比以往的情绪化唱衰更有说服力。如果你还相信 OpenAI 的地位不可动摇，这篇值得一看。

03:52

OpenAI：Alignment 研究博客（RSS）

精选73

公开聊天数据能否预测真实世界AI失调？

OpenAI利用WildChat公开数据集（2023年4月至2024年5月收集的100万条对话）模拟模型部署，预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现，WildChat模拟的平均预测误差约3倍；但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI 安全/对齐论文/研究

推荐理由：用公开旧聊天数据预测模型真实失败率，误差居然在 3 倍以内，做外部审计的可以认真看看。不过 agentic 场景明显不行，需要新数据集。

03:25

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI 安全/对齐论文/研究

关联讨论 1 条

推荐理由：虽然只是安全评估方法，但OpenAI用130万真实对话验证，把预部署风险预测误差压到1.5倍，这套方法很可能成为未来模型发布前的标准动作。