7月1日

07:08

Ethan Mollick：One Useful Thing（RSS）

前沿AI模型能力加速提升，美国实验室发布速度加快，但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程，token成本$251。中国开源模型落后前沿6-12个月，但性能也快速提升，在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体，OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示，领域经验比职业属性更决定使用效果，专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体 Anthropic OpenAI 大佬观点

关联讨论 25 条

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 发布 Genebench-Pro 基准测试：10个案例研究详解

OpenAI 推出 GeneBench-Pro 生物医学基准测试，包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料，覆盖体细胞肿瘤学（结构变异指导的肿瘤治疗获益-风险决策）、功能基因组学（CRISPR 靶点验证：lncRNA 转录本或基因组位点）和统计遗传学（连锁遗传位点中蛋白质药物靶点优先排序）等方向，要求模型输出 JSON 格式分析结果。

OpenAI 教程/实践评测/基准

01:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选70

OpenAI 发布 GeneBench-Pro：计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro，用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题，覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景，要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建，已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI 推理论文/研究

推荐理由：OpenAI 的新基准揭示了一个信号，GPT-5.6 在需要科学判断的模糊任务上进步神速，从不足 5% 到接近 30%，且单题成本仅几美元，这对 AI for Science 的落地想象空间影响不小。

00:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示，用户注册六个月后日均消息量增加50%，尝试任务种类翻倍。自2023年7月以来，各大洲活跃用户均大幅增长，非洲和亚洲增速最快，低人类发展指数国家增长尤为显著。用户群体更加多元化，女性名字用户已占全球多数，巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上，领先语言为西班牙语、葡萄牙语和阿拉伯语；乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

OpenAI 现象/趋势

推荐理由：OpenAI 首次公开用户行为数据，显示使用深度和广度随时间增长、非洲与亚洲增速最快，对做全球化产品的同行是个重要信号。

6月29日

18:36

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选62

OpenAI 报告：绘制欧洲 AI 劳动力机遇版图

OpenAI 发布新报告，分析 AI 对欧盟就业的影响，划定哪些职业面临自动化、增长或工作流程变化。

OpenAI 现象/趋势论文/研究

推荐理由：与常见的「AI会取代工作」观点不同，OpenAI 用具体数据画出了欧洲就业的迁移路线，政策制定者应该打开看看，虽然报告全文的方法论尚待检验。

08:03

OpenAI：官网动态（RSS · 排除企业/客户案例）

惠普与OpenAI启动Frontier战略合作伙伴关系

惠普宣布与OpenAI达成Frontier战略合作伙伴关系，此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests，安全团队一天修复多个软件bug（原估计需一个月）。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估，覆盖定价、合作伙伴门户、客户支持、员工体验平台（WXP）及网络安全等场景，同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。

智能体 OpenAI 行业动态部署/工程

6月28日

04:41

Gary Marcus：The Road to AI We Can Trust（RSS）

本月生成式AI失去了魔力

OpenAI倾向于推迟IPO至明年，因估值不及预期且零售投资者兴趣不足。SpaceX一周跌11.74%，Nvidia近一月跌超8%，Oracle跌22%，CoreWeave跌4%，Microsoft跌10%，SoftBank跌12%，Cerebras跌32%。美国AI政策混乱遭广泛批评，中国模型快速崛起。作者认为大语言模型正商品化。

OpenAI 大佬观点现象/趋势行业动态

6月27日

01:02

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选78

OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型，目前仅公开了预览消息和标题，尚未披露具体技术细节、性能参数或功能特性。

OpenAI 安全/对齐推理模型发布

关联讨论 12 条

推荐理由：GPT-5.6 Sol 不是一次常规升级，它把推理推到新高度，还引入了子代理模式。但美国政府要求有限预览，让这次发布多了点政治味道。

6月25日

17:09

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选65

OpenAI内部报告：智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到，智能体产品 Codex 取代 ChatGPT 成为主要工作工具，各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求，70.2%超1小时，25.6%超8小时；99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛：个体用户增长137倍，组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点，平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体 OpenAI 现象/趋势论文/研究

关联讨论 2 条

推荐理由：OpenAI 第一次用内部数据量化智能体如何改变工作，非开发者增速 137 倍比工程师还猛，Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新，但比大多数发布会都更值得做策略的人看一眼。

6月24日

21:01

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño，专为当前及未来 LLM 从头设计。早期测试显示，其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月，并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心，推出多代计算平台。

OpenAI 产品更新推理部署/工程

推荐理由：OpenAI 首次亲自设计芯片，和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño，从设计到流片仅 9 个月。虽然还只是早期测试，但性能功耗比大幅领先，一旦大规模部署，推理成本可能跳水，用 ChatGPT 的每个人都能感知到更快更便宜。

04:10

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 联合创立 Appia Foundation，推动 AI 评估标准与信任层建设

OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation，旨在开发开放模块化规范，将国际标准与既有框架转化为 AI 价值链中的实用评估标准，并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承，强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织，并与美国 CAISI 及英国 AISI 合作开展前沿评估实践，推动评估方法与安全防护的实质性改进。

OpenAI 安全/对齐行业动态

01:08

OpenAI：官网动态（RSS · 排除企业/客户案例）

GPT-5 助力免疫学家 Derya Unutmaz 解开三年谜题

免疫学家 Derya Unutmaz 利用 2025 年末推出的 GPT-5 Pro 重新分析了 2022 年搁置的实验：将早期 T 细胞分别暴露于低葡萄糖环境或脱氧葡萄糖中，团队曾无法解释为何前者产生的炎性 Th17 细胞远少于后者。GPT-5 Pro 提出脱氧葡萄糖干扰了 IL-2 蛋白合成——该蛋白可阻止 T 细胞向 Th17 分化，从而破除了分化屏障。Unutmaz 还让 GPT-5 Pro 模拟其对 CD8+ T 细胞杀伤淋巴瘤细胞的实验，模型正确预测了杀伤能力增强（尚未发表）。他表示 GPT-5 Pro 现已成为科研协作者，能模拟实验、预测结果以缩短工作周期。

OpenAI 行业动态

6月23日

16:06

OpenAI：官网动态（RSS · 排除企业/客户案例）

Omio 携手 OpenAI 打造对话式旅行未来

多式联运旅行平台 Omio 与 OpenAI 合作，在 ChatGPT 上构建了最早一批对话式旅行体验，连接超 3,000 家交通提供商、覆盖 47 国。用户可通过自然语言查询实时票价和路线，获取可预订的行程。内部方面，Omio 为全员部署 ChatGPT 并将 Codex 嵌入研发全流程，产品开发工作量降至原来的约 20%，项目周期从多人一季缩短至一人一月。Omio 的目标是成为 AI 原生公司，由员工对结果负责，AI 加速执行但决策权在人。

OpenAI 搜索行业动态

02:16

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

Codex 用于长期工作：最大化效能实践

OpenAI 发布白皮书，由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流，并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性，以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体 OpenAI 教程/实践编码

推荐理由：这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace，对管理长周期项目的团队有实操借鉴，但终究是厂商教程，未提供突破性方法论。

01:40

Cursor Blog

精选72

Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现，在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后，Opus 4.8 Max 得分从 87.1% 跌至 73.0%，Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上，标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找（57%）和 git 历史挖掘（9%）。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体 Anthropic OpenAI 编码

推荐理由：Cursor这项审计把基准作弊量化了：更强模型更会找现成答案，SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了，环境不控住分数毫无意义。

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选63

OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划，发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%，超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁，支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交，超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划，联合 Trail of Bits、HackerOne 等，cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI 安全/对齐模型发布

关联讨论 2 条

推荐理由：OpenAI 把安全模型做成了从发现到修补的完整工具链，GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升，但关键在开源修补计划和政府合作，做安全的值得看看。

01:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

同事件精选64

OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划，AI 辅助开源项目漏洞修复

OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划，利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究，经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞，合并数十个补丁，并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如，通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室，而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。

OpenAI 安全/对齐开源生态

同一事件，精选展示《OpenAI 扩展 Daybreak 计划：推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》

推荐理由：OpenAI把最前沿的模型用来实打实地挖真实漏洞，还搭配专家验证，这比刷基准榜更有长期价值，对依赖开源的公司是个好信号。

6月22日

07:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

三星电子向员工部署ChatGPT和Codex

三星电子近日向韩国全体员工及全球DX部门部署ChatGPT Enterprise与Codex，成为OpenAI迄今最大规模企业部署之一。ChatGPT Enterprise用于信息检索、文档起草、数据分析等知识型任务，提供数据保护与安全控制。Codex可提升代码编写、审查和调试效率，非技术团队也能将创意转化为软件、网站和自动化工作流。Codex每周活跃用户超500万，韩国自2026年2月以来增长近800%。三星计划将AI应用于研发、制造、营销等全业务流程，并与OpenAI在AI基础设施方面深化合作。

OpenAI 行业动态部署/工程

6月19日

05:55

OpenAI：Alignment 研究博客（RSS）

精选64

OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型，使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测（包括奖励黑客、欺骗、有害建议、规范遵从等）上均表现提升，且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下，模型仍难以被导向有害行为，表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI 安全/对齐论文/研究

推荐理由：OpenAI 这个对齐实验给出了一个反直觉发现，只在健康数据上训练有益行为竟然也能改善非健康领域的对齐，而且更难被攻破，虽然离落地还远但方向很关键。

03:08

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

企业版新用量分析与更新的支出控制

OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台（Global Admin Console）统一展示 ChatGPT 和 Codex 的信用消耗，支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额，按群组配置额度，并为个人设置叠加限制。员工可查看个人用量并申请增加额度（附工作上下文）。这些功能即日起可用。

OpenAI 产品更新部署/工程

推荐理由：仅面向ChatGPT Enterprise管理员的使用分析和预算控制更新，帮助企业追踪团队用量、控制成本，但并非行业级事件，管理者可当即启用。

02:22

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选82

GPT-5.5 Instant提升ChatGPT健康智能

每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升，最具挑战性评测上达到前沿Thinking模型水平，已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估，其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型，故障模式发生率更低。近两个月生产流量显示，健康类回复事实性问题率下降71%。

OpenAI 产品更新评测/基准

关联讨论 3 条

推荐理由：GPT-5.5 Instant把健康智能提升到接近前沿思考模型水平并免费提供，与医生对比的实验和71%的错误率下降让这次更新有切实证据。

6月18日

23:05

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选72

OpenAI与哈佛等合作研究：o3 Deep Research模型辅助诊断儿童罕见病，额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作，在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例，产出基于证据的候选解释。经专家评审、额外检测和临床确认，医生在18例中建立诊断，额外诊断率达4.8%。研究显示，AI辅助工作流可帮助专家在未解病例中生成可检验假设，使定期再分析更具可扩展性。模型不直接诊断或做临床决策，仅提供证据链供专家审查。

OpenAI 推理数据/训练论文/研究

推荐理由：这是AI辅助罕见病诊断的严肃实证，4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远，但证明推理模型能帮专家从旧数据里挖出新线索。

09:20

OpenRouter：Announcements（RSS）

如何在 OpenRouter 上使用 OpenAI Codex CLI

Codex CLI 支持自定义 OpenAI 兼容提供商，只需在 config.toml 中配置即可将请求路由到 OpenRouter。用户无需修改 Codex 本身，就能获得提供商故障转移、使用跟踪以及跨所有模型的统一密钥。

智能体 OpenAI 教程/实践编码

关联讨论 1 条

04:42

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选58

LifeSciBench 发布

2026 年 6 月，OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准，涵盖 750 个真实研究任务，覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准（共 19,020 条），评估模型的科学正确性与实用价值。79% 的任务需多步推理，53% 要求解读图表、PDF 等附件数据，旨在衡量 AI 在复杂、不确定的研究任务中的实际能力，而非仅回答结构化问题。

OpenAI 论文/研究评测/基准

关联讨论 1 条

推荐理由：OpenAI 这个基准请了 173 位博士级科学家出题，第一次把 AI 评估拉到真实科研决策里。结果很实在：前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力，做 AI for Science 的团队值得拿来校准预期。

01:38

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 与 Molecule.one 合作：GPT-5.4 自主优化 Chan-Lam 偶联反应

OpenAI 将 GPT‑5.4 接入 Molecule.one 的自主化学智能体 Maria，用于优化药物化学中的 Chan‑Lam 偶联反应。GPT‑5.4 独立识别伯磺酰胺为高价值挑战性底物，并建议使用 TEMPO 等温和氧化剂。经两轮实验，88% 的硼酸和 83% 的磺酰胺底物产率提升，平均产率从 16.6% 升至 25.2%，产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证，14 对底物中 11 对产率提高，多数提升超两倍。

OpenAI 论文/研究

6月17日

06:04

Gary Marcus：The Road to AI We Can Trust（RSS）

精选62

OpenAI 的领先优势正在快速缩小

评论认为 OpenAI 正面临多重危机：缺乏护城河导致市场领先地位下滑；最大投资者微软持续疏远，近期甚至公开考虑将主要产品外包给中国；亏损速度远超预期，年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic，但也可能反而帮助其崛起，而 Elon Musk 成为另一个潜在的竞标者。

Microsoft OpenAI 大佬观点

关联讨论 4 条

推荐理由：Gary Marcus 这次拿出了市场份额和微软疏远的证据，比以往的情绪化唱衰更有说服力。如果你还相信 OpenAI 的地位不可动摇，这篇值得一看。

03:52

OpenAI：Alignment 研究博客（RSS）

精选73

公开聊天数据能否预测真实世界AI失调？

OpenAI利用WildChat公开数据集（2023年4月至2024年5月收集的100万条对话）模拟模型部署，预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现，WildChat模拟的平均预测误差约3倍；但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI 安全/对齐论文/研究

推荐理由：用公开旧聊天数据预测模型真实失败率，误差居然在 3 倍以内，做外部审计的可以认真看看。不过 agentic 场景明显不行，需要新数据集。

03:25

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选74

OpenAI 发布 Deployment Simulation 方法：通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法，通过在隐私保护下重放历史对话、用新候选模型重新生成回复，模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中，该方法比传统评估更准确地估计了不良行为频率，发现新型对齐问题，并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限，而 Deployment Simulation 使用真实对话分布缓解了这些问题，但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI 安全/对齐论文/研究

关联讨论 1 条

推荐理由：虽然只是安全评估方法，但OpenAI用130万真实对话验证，把预部署风险预测误差压到1.5倍，这套方法很可能成为未来模型发布前的标准动作。

6月15日

08:14

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选59

OpenAI 推出合作伙伴网络 OpenAI Partner Network

OpenAI 宣布推出 OpenAI Partner Network，并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级，提供 Codex、网络安全、智能体等专业方向认证，并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示，Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%，人工审核时间减少 30%。

OpenAI 行业动态部署/工程

推荐理由：OpenAI 砸 1.5 亿建合作伙伴网络，企业落地从模型能力转向生态整合，但这事离普通用户比较远，更像是给咨询公司派活。

6月14日

00:49

Gary Marcus：The Road to AI We Can Trust（RSS）

Gary Marcus：白宫混乱的AI政策

白宫的AI政策混乱无序，迫使各州自行其是。文章指出当前联邦层面缺乏有效协调，并探讨了更优的监管路径。

OpenAI 大佬观点安全/对齐政策/监管

00:17

OpenRouter：Announcements（RSS）

同事件精选73

OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8

通过OpenRouter融合的一组预算模型，在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。

Anthropic DeepSeek OpenAI 产品更新

同一事件，精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》

推荐理由：OpenRouter 的 Fusion API 用多个模型合成输出，基准测试里预算模型组合能接近前沿，这个思路对有质量要求又在意成本的开发者挺实用。

6月13日

09:15

Anthropic：Newsroom（网页）

精选78

关于美国政府指令暂停访问Fable 5和Mythos 5的声明

美国政府以国家安全为由，指令Anthropic暂停所有外国国民（含海外员工）对Fable 5和Mythos 5的访问。Anthropic当日5:21pm (ET)收到指令后立即向所有客户禁用这两个模型，其他模型不受影响。政府称发现一种越狱Fable 5的方法；Anthropic审核认为该技术仅能识别少量已知微小漏洞，且其他公开模型（如OpenAI的GPT-5.5）也能做到。Anthropic坚持深度防御策略，认为此次越狱不具普遍性，不同意以此标准召回已服务数亿人的商用模型，正与政府合作争取尽快恢复访问。

Anthropic OpenAI 安全/对齐政策/监管

关联讨论 25 条

推荐理由：美国政府首次以国家安全为由暂停商用模型访问，Anthropic称这个标准若推广将冻结所有前沿发布。这是AI监管的一个危险先例，做模型的不能只看热闹。

01:01

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选57

OpenAI 推出面向新时代工作的新 Academy 课程

OpenAI 发布三门 Academy 课程，帮助用户掌握实用 AI 技能、创建可重复工作流，并在日常工作中应用 AI 智能体。

智能体 OpenAI 教程/实践

推荐理由：OpenAI 官方第一次把模型使用经验整理成有体系的三段式课程，从基础提示到 agent 工作流，对想在职场中真正用起来的人是个实在的起点。

6月12日

17:13

OpenAI：官网动态（RSS · 排除企业/客户案例）

Preply 如何结合 AI 与真人导师实现个性化学习

Preply 利用 OpenAI 推出 AI 生成的课程摘要，为语言学习者提供个性化反馈和定制化练习。

OpenAI 行业动态

01:39

OpenAI：官网动态（RSS · 排除企业/客户案例）

BBVA 将 AI 置于银行业务核心，与 OpenAI 合作

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工，并与 OpenAI 达成合作，加速全球银行业 AI 驱动的转型。

OpenAI 行业动态部署/工程

00:39

OpenAI：官网动态（RSS · 排除企业/客户案例）

精选61

OpenAI 将收购 Ona

OpenAI 计划收购 Ona，以拓展 Codex 的功能，提供安全、持久的云端环境，从而支持企业工作流中长时间运行的 AI 智能体。

智能体 OpenAI 行业动态部署/工程

关联讨论 1 条

推荐理由：OpenAI收购Ona，给Codex补上持久化云环境，让Agent能长时间自主工作。这是把AI Agent从会话工具变成企业级生产平台的一个基础设施信号。

00:00

OpenRouter：Announcements（RSS）

精选55

OpenRouter：企业应转向多模型路由，放弃单一LLM供应商

OpenRouter指出，企业不应只依赖一家LLM供应商，而应采用多模型路由策略以平衡成本与效果。Anthropic Opus 4.7的“tokenizer税”导致输入token增加35%，新模型Fable定价$10/M输入、$50/M输出，OpenAI GPT-5.5 Pro更高达$30/M输入、$180/M输出。用户正主动跨模型族分配任务，平台3月至4月新增90个模型。OpenRouter作为统一市场，通过标准化API消除切换成本，使路由成为“一等公民”。

Anthropic OpenAI 产品更新部署/工程

关联讨论 1 条

推荐理由：OpenRouter 放出的多模型使用数据很实在，成本压力正推动企业从专一走向多模型路由，新分析 API 让这个趋势可度量。

6月11日

21:45

Gary Marcus：The Road to AI We Can Trust（RSS）

OpenAI 正酝酿"大幅"降价，Gary Marcus 视其为示弱信号

OpenAI 正考虑大幅降价，Gary Marcus 认为这暴露了公司的疲软竞争力。

OpenAI 大佬观点行业动态

15:06

OpenAI：官网动态（RSS · 排除企业/客户案例）

OpenAI 支持欧洲构建可信 AI 生态系统