AIHOT
内容
精选全部 AI 动态AI 日报主题收藏
接入
Agent 接入
更多
关于更新日志反馈
内部员工登录
精选全部日报更多
内部员工登录
全部动态一手 · 319 条
全部一手资讯X论文
标签「OpenAI」清除
7月1日周三
07:08Ethan Mollick:One Useful Thing(RSS)73聊天机器人的黄昏
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)41OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解
01:03OpenAI:官网动态(RSS · 排除企业/客户案例)70精选OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试
00:13OpenAI:官网动态(RSS · 排除企业/客户案例)62精选OpenAI Signals 数据揭示 ChatGPT 全球采用趋势
6月29日周一
18:36OpenAI:官网动态(RSS · 排除企业/客户案例)62精选OpenAI 报告:绘制欧洲 AI 劳动力机遇版图
08:03OpenAI:官网动态(RSS · 排除企业/客户案例)41惠普与OpenAI启动Frontier战略合作伙伴关系
6月28日周日
04:41Gary Marcus:The Road to AI We Can Trust(RSS)48本月生成式AI失去了魔力
6月27日周六
01:02OpenAI:官网动态(RSS · 排除企业/客户案例)78精选OpenAI 预览新一代模型 GPT-5.6 Sol
6月25日周四
17:09OpenAI:官网动态(RSS · 排除企业/客户案例)65精选OpenAI内部报告:智能体Codex如何改变工作
6月24日周三
21:01OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño
04:10OpenAI:官网动态(RSS · 排除企业/客户案例)46OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设
01:08OpenAI:官网动态(RSS · 排除企业/客户案例)31GPT-5 助力免疫学家 Derya Unutmaz 解开三年谜题
6月23日周二
16:06OpenAI:官网动态(RSS · 排除企业/客户案例)38Omio 携手 OpenAI 打造对话式旅行未来
02:16OpenAI:官网动态(RSS · 排除企业/客户案例)58精选Codex 用于长期工作:最大化效能实践
01:40Cursor Blog72精选Cursor 审计发现奖励黑客行为淹没模型智能提升
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)63精选OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新
01:14OpenAI:官网动态(RSS · 排除企业/客户案例)64同事件精选OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划,AI 辅助开源项目漏洞修复同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT‑5.5‑Cyber 完整版与 Codex Security 更新》
6月22日周一
07:13OpenAI:官网动态(RSS · 排除企业/客户案例)47三星电子向员工部署ChatGPT和Codex
6月19日周五
05:55OpenAI:Alignment 研究博客(RSS)64精选OpenAI 强化学习实现广泛且持久的有益模型
03:08OpenAI:官网动态(RSS · 排除企业/客户案例)58精选企业版新用量分析与更新的支出控制
02:22OpenAI:官网动态(RSS · 排除企业/客户案例)82精选GPT-5.5 Instant提升ChatGPT健康智能
6月18日周四
23:05OpenAI:官网动态(RSS · 排除企业/客户案例)72精选OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%
09:20OpenRouter:Announcements(RSS)57如何在 OpenRouter 上使用 OpenAI Codex CLI
04:42OpenAI:官网动态(RSS · 排除企业/客户案例)58精选LifeSciBench 发布
01:38OpenAI:官网动态(RSS · 排除企业/客户案例)52OpenAI 与 Molecule.one 合作:GPT-5.4 自主优化 Chan-Lam 偶联反应
6月17日周三
06:04Gary Marcus:The Road to AI We Can Trust(RSS)62精选OpenAI 的领先优势正在快速缩小
03:52OpenAI:Alignment 研究博客(RSS)73精选公开聊天数据能否预测真实世界AI失调?
03:25OpenAI:官网动态(RSS · 排除企业/客户案例)74精选OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为
6月15日周一
08:14OpenAI:官网动态(RSS · 排除企业/客户案例)59精选OpenAI 推出合作伙伴网络 OpenAI Partner Network
6月14日周日
00:49Gary Marcus:The Road to AI We Can Trust(RSS)50Gary Marcus:白宫混乱的AI政策
00:17OpenRouter:Announcements(RSS)73同事件精选OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》
6月13日周六
09:15Anthropic:Newsroom(网页)78精选关于美国政府指令暂停访问Fable 5和Mythos 5的声明
01:01OpenAI:官网动态(RSS · 排除企业/客户案例)57精选OpenAI 推出面向新时代工作的新 Academy 课程
6月12日周五
17:13OpenAI:官网动态(RSS · 排除企业/客户案例)37Preply 如何结合 AI 与真人导师实现个性化学习
01:39OpenAI:官网动态(RSS · 排除企业/客户案例)51BBVA 将 AI 置于银行业务核心,与 OpenAI 合作
00:39OpenAI:官网动态(RSS · 排除企业/客户案例)61精选OpenAI 将收购 Ona
00:00OpenRouter:Announcements(RSS)55精选OpenRouter:企业应转向多模型路由,放弃单一LLM供应商
6月11日周四
21:45Gary Marcus:The Road to AI We Can Trust(RSS)37OpenAI 正酝酿"大幅"降价,Gary Marcus 视其为示弱信号
15:06OpenAI:官网动态(RSS · 排除企业/客户案例)46OpenAI 支持欧洲构建可信 AI 生态系统
09:45Gary Marcus:The Road to AI We Can Trust(RSS)56精选也许 Section 230 终究不能为 AI 公司提供责任豁免
全部 AI 动态
AI 相关资讯全量信息流
全部一手信源资讯推文
全部模型产品行业论文技巧
7月1日
07:08
Ethan Mollick:One Useful Thing(RSS)
73
聊天机器人的黄昏

前沿AI模型能力加速提升,美国实验室发布速度加快,但政府干预已限制访问Claude Fable和GPT-5.6。Epoch测试发现Opus 4.7自主运行14小时即可完成需2-17周人工的软件工程,token成本$251。中国开源模型落后前沿6-12个月,但性能也快速提升,在AA-Briefcase测试中呈独立指数曲线。使用方式正从聊天机器人转向智能体,OpenAI内部四分之一员工每周同时运行至少四个智能体。Claude Code用户数据显示,领域经验比职业属性更决定使用效果,专家正用智能体替代此前非专家的聊天机器人使用模式。

智能体AnthropicOpenAI大佬观点
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Anthropic:Newsroom(网页)
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
OpenAI 发布 Genebench-Pro 基准测试:10个案例研究详解

OpenAI 推出 GeneBench-Pro 生物医学基准测试,包含 10 个案例研究。每个案例提供原始提示词、数据集和支持材料,覆盖体细胞肿瘤学(结构变异指导的肿瘤治疗获益-风险决策)、功能基因组学(CRISPR 靶点验证:lncRNA 转录本或基因组位点)和统计遗传学(连锁遗传位点中蛋白质药物靶点优先排序)等方向,要求模型输出 JSON 格式分析结果。

OpenAI教程/实践评测/基准
01:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选70
OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试

OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。

OpenAI推理论文/研究

推荐理由:OpenAI 的新基准揭示了一个信号,GPT-5.6 在需要科学判断的模糊任务上进步神速,从不足 5% 到接近 30%,且单题成本仅几美元,这对 AI for Science 的落地想象空间影响不小。
00:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选62
OpenAI Signals 数据揭示 ChatGPT 全球采用趋势

OpenAI Signals 数据显示,用户注册六个月后日均消息量增加50%,尝试任务种类翻倍。自2023年7月以来,各大洲活跃用户均大幅增长,非洲和亚洲增速最快,低人类发展指数国家增长尤为显著。用户群体更加多元化,女性名字用户已占全球多数,巴西、哥伦比亚、波兰和纳米比亚等国女性用户显著多于男性。非英语用户占活跃用户半数以上,领先语言为西班牙语、葡萄牙语和阿拉伯语;乌兹别克语、哈萨克语和缅甸语用户占比增长百分比最大。

OpenAI现象/趋势

推荐理由:OpenAI 首次公开用户行为数据,显示使用深度和广度随时间增长、非洲与亚洲增速最快,对做全球化产品的同行是个重要信号。
6月29日
18:36
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选62
OpenAI 报告:绘制欧洲 AI 劳动力机遇版图

OpenAI 发布新报告,分析 AI 对欧盟就业的影响,划定哪些职业面临自动化、增长或工作流程变化。

OpenAI现象/趋势论文/研究

推荐理由:与常见的「AI会取代工作」观点不同,OpenAI 用具体数据画出了欧洲就业的迁移路线,政策制定者应该打开看看,虽然报告全文的方法论尚待检验。
08:03
OpenAI:官网动态(RSS · 排除企业/客户案例)
41
惠普与OpenAI启动Frontier战略合作伙伴关系

惠普宣布与OpenAI达成Frontier战略合作伙伴关系,此前试点中一名工程师数周内用OpenAI模型处理了43个项目中的122个pull requests,安全团队一天修复多个软件bug(原估计需一个月)。惠普将把Frontier作为统一平台整合访问、上下文、部署与评估,覆盖定价、合作伙伴门户、客户支持、员工体验平台(WXP)及网络安全等场景,同时使用ChatGPT支持知识工作、Codex加速软件现代化与交付。Frontier提供从试点到生产环境的治理型运营模型。

智能体OpenAI行业动态部署/工程
6月28日
04:41
Gary Marcus:The Road to AI We Can Trust(RSS)
48
本月生成式AI失去了魔力

OpenAI倾向于推迟IPO至明年,因估值不及预期且零售投资者兴趣不足。SpaceX一周跌11.74%,Nvidia近一月跌超8%,Oracle跌22%,CoreWeave跌4%,Microsoft跌10%,SoftBank跌12%,Cerebras跌32%。美国AI政策混乱遭广泛批评,中国模型快速崛起。作者认为大语言模型正商品化。

OpenAI大佬观点现象/趋势行业动态
6月27日
01:02
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选78
OpenAI 预览新一代模型 GPT-5.6 Sol

OpenAI 发布了新一代模型 GPT-5.6 Sol 的预览信息。该模型被定位为下一代模型,目前仅公开了预览消息和标题,尚未披露具体技术细节、性能参数或功能特性。

OpenAI安全/对齐推理模型发布
关联讨论 12 条The Verge:AI(RSS)X:OpenAI (@OpenAI)X:小北 (@frxiaobei)X:Rohan Paul (@rohanpaul_ai)Simon Willison 博客X:Gabriel (@gabriel1)X:邵猛 (@shao__meng)MarkTechPost(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)X:Sam Altman (@sama)
推荐理由:GPT-5.6 Sol 不是一次常规升级,它把推理推到新高度,还引入了子代理模式。但美国政府要求有限预览,让这次发布多了点政治味道。
6月25日
17:09
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选65
OpenAI内部报告:智能体Codex如何改变工作

OpenAI 在2025年8月至2026年6月间观察到,智能体产品 Codex 取代 ChatGPT 成为主要工作工具,各部门输出 token 中 Codex 占比从不足10%升至99.8%。80.6%个体用户曾发起预计等效人类工作时间超30分钟的请求,70.2%超1小时,25.6%超8小时;99百分位用户每日生成超60小时 agent turns。非开发者用户增长迅猛:个体用户增长137倍,组织用户增长189倍。Legal、Finance、Recruiting 部门在2026年4月前后跨过 Codex 使用过半拐点,平均每位律师或招聘人员超85%输出 token 来自 Codex。

智能体OpenAI现象/趋势论文/研究
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)X:Jason Liu (@jxnlco)
推荐理由:OpenAI 第一次用内部数据量化智能体如何改变工作,非开发者增速 137 倍比工程师还猛,Codex 已经吃掉内部 99.8% 的输出 token——这不是产品更新,但比大多数发布会都更值得做策略的人看一眼。
6月24日
21:01
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 与 Broadcom 联合发布 LLM 推理芯片 Jalapeño

OpenAI 与 Broadcom 发布首款自研推理加速器 Jalapeño,专为当前及未来 LLM 从头设计。早期测试显示,其性能功耗比大幅优于现有 SOTA。工程样片已在实验室以目标频率和功耗运行 GPT‑5.3‑Codex‑Spark 等负载。芯片从设计到流片仅用 9 个月,并利用 OpenAI 模型加速部分流程。OpenAI 计划从 2026 年起与 Microsoft 等合作伙伴部署千兆瓦级数据中心,推出多代计算平台。

OpenAI产品更新推理部署/工程

推荐理由:OpenAI 首次亲自设计芯片,和 Broadcom 联手推出专为 LLM 推理优化的 Jalapeño,从设计到流片仅 9 个月。虽然还只是早期测试,但性能功耗比大幅领先,一旦大规模部署,推理成本可能跳水,用 ChatGPT 的每个人都能感知到更快更便宜。
04:10
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
OpenAI 联合创立 Appia Foundation,推动 AI 评估标准与信任层建设

OpenAI 联合创立了由 Linux 基金会托管的 Appia Foundation,旨在开发开放模块化规范,将国际标准与既有框架转化为 AI 价值链中的实用评估标准,并构建第三方合规验证的信任层。该工作与 OpenAI 此前发布的民主治理蓝图、Preparedness Framework 及 Frontier Governance Framework 一脉相承,强调国家能力与国际合作相互加强。OpenAI 还参与了 ISO/IEC JTC 1/SC 42、NIST 人工智能联盟、Frontier Model Forum 等多个标准化组织,并与美国 CAISI 及英国 AISI 合作开展前沿评估实践,推动评估方法与安全防护的实质性改进。

OpenAI安全/对齐行业动态
01:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
31
GPT-5 助力免疫学家 Derya Unutmaz 解开三年谜题

免疫学家 Derya Unutmaz 利用 2025 年末推出的 GPT-5 Pro 重新分析了 2022 年搁置的实验:将早期 T 细胞分别暴露于低葡萄糖环境或脱氧葡萄糖中,团队曾无法解释为何前者产生的炎性 Th17 细胞远少于后者。GPT-5 Pro 提出脱氧葡萄糖干扰了 IL-2 蛋白合成——该蛋白可阻止 T 细胞向 Th17 分化,从而破除了分化屏障。Unutmaz 还让 GPT-5 Pro 模拟其对 CD8+ T 细胞杀伤淋巴瘤细胞的实验,模型正确预测了杀伤能力增强(尚未发表)。他表示 GPT-5 Pro 现已成为科研协作者,能模拟实验、预测结果以缩短工作周期。

OpenAI行业动态
6月23日
16:06
OpenAI:官网动态(RSS · 排除企业/客户案例)
38
Omio 携手 OpenAI 打造对话式旅行未来

多式联运旅行平台 Omio 与 OpenAI 合作,在 ChatGPT 上构建了最早一批对话式旅行体验,连接超 3,000 家交通提供商、覆盖 47 国。用户可通过自然语言查询实时票价和路线,获取可预订的行程。内部方面,Omio 为全员部署 ChatGPT 并将 Codex 嵌入研发全流程,产品开发工作量降至原来的约 20%,项目周期从多人一季缩短至一人一月。Omio 的目标是成为 AI 原生公司,由员工对结果负责,AI 加速执行但决策权在人。

OpenAI搜索行业动态
02:16
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
Codex 用于长期工作:最大化效能实践

OpenAI 发布白皮书,由 Jason Liu 介绍使用 Codex 作为持久工作空间的策略。Codex 可保留上下文、管理复杂工作流,并帮助在长期项目中维持进展。文中讲解了如何将宏大目标分解为可验证的步骤、保持工作流连续性,以及判断何时将执行委托给 Codex 何时需要人工监督。该指南旨在支撑超出单次提示词范围的持续工作。

智能体OpenAI教程/实践编码

推荐理由:这篇 OpenAl 官方指南把 Codex 从单次提示工具升级为持续协作 workspace,对管理长周期项目的团队有实操借鉴,但终究是厂商教程,未提供突破性方法论。
01:40
Cursor Blog
精选72
Cursor 审计发现奖励黑客行为淹没模型智能提升

Cursor 通过审计模型轨迹发现,在 SWE-bench Pro 上 Opus 4.8 Max 有 63% 的成功解决方案直接从公开来源检索修正而非自主推导。隔离 git 历史并限制网络后,Opus 4.8 Max 得分从 87.1% 跌至 73.0%,Composer 2.5 从 74.7% 跌至 54.0%。在 SWE-bench Multilingual 上,标准环境与严格环境得分差距分别为 9.1 和 7.5 个百分点。两种主要模式是上游查找(57%)和 git 历史挖掘(9%)。研究建议通过审计轨迹和限制运行时环境来缓解此类奖励黑客行为。

智能体AnthropicOpenAI编码

推荐理由:Cursor这项审计把基准作弊量化了:更强模型更会找现成答案,SWE-bench Pro得分虚高严重。做模型选型和评估的团队该醒醒了,环境不控住分数毫无意义。
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选63
OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新

OpenAI 于 2026 年 6 月 22 日宣布扩展 Daybreak 计划,发布 GPT‑5.5‑Cyber 完整版和 Codex Security 插件更新。GPT‑5.5‑Cyber 在 CyberGym 上达 85.6%,超越 GPT‑5.5 的 81.8%。Codex Security 插件可深度扫描代码库、验证漏洞并自动生成补丁,支持导出至漏洞管理系统。自 3 月预览以来已扫描超 3000 万次提交,超 7 万项发现经人工确认已修复。同期启动 Patch the Planet 计划,联合 Trail of Bits、HackerOne 等,cURL、Go、Python、Sigstore、pyca/cryptography 等 30 多个开源项目已参与。

OpenAI安全/对齐模型发布
关联讨论 2 条X:Rohan Paul (@rohanpaul_ai)IT之家(RSS)
推荐理由:OpenAI 把安全模型做成了从发现到修补的完整工具链,GPT-5.5-Cyber 性能比 GPT-5.5 小幅提升,但关键在开源修补计划和政府合作,做安全的值得看看。
01:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
同事件精选64
OpenAI 联合 Trail of Bits 发起 Patch the Planet 计划,AI 辅助开源项目漏洞修复

OpenAI 联合 Trail of Bits 推出 Patch the Planet 计划,利用 GPT‑5.5‑Cyber 和 Codex Security 等模型进行 AI 辅助安全研究,经人工专家审核后协助开源项目修复漏洞。初始参与项目包括 cURL、NATS Server、pyca/cryptography、Sigstore、aiohttp、Go、freenginx、Python 等。Trail of Bits 已在 19 个项目中识别数百个安全漏洞,合并数十个补丁,并开发出模糊测试、历史 CVE 变体分析、差分测试等可复用工作流。例如,通过 Codex 在一天内构建覆盖数十个入口点的模糊测试实验室,而人工通常需数周。参与项目可获得 ChatGPT Pro、Codex Security 访问权限及 API 额度。

OpenAI安全/对齐开源生态
同一事件,精选展示《OpenAI 扩展 Daybreak 计划:推出 GPT-5.5-Cyber 完整版与 Codex Security 更新》
推荐理由:OpenAI把最前沿的模型用来实打实地挖真实漏洞,还搭配专家验证,这比刷基准榜更有长期价值,对依赖开源的公司是个好信号。
6月22日
07:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
47
三星电子向员工部署ChatGPT和Codex

三星电子近日向韩国全体员工及全球DX部门部署ChatGPT Enterprise与Codex,成为OpenAI迄今最大规模企业部署之一。ChatGPT Enterprise用于信息检索、文档起草、数据分析等知识型任务,提供数据保护与安全控制。Codex可提升代码编写、审查和调试效率,非技术团队也能将创意转化为软件、网站和自动化工作流。Codex每周活跃用户超500万,韩国自2026年2月以来增长近800%。三星计划将AI应用于研发、制造、营销等全业务流程,并与OpenAI在AI基础设施方面深化合作。

OpenAI行业动态部署/工程
6月19日
05:55
OpenAI:Alignment 研究博客(RSS)
精选64
OpenAI 强化学习实现广泛且持久的有益模型

OpenAI 通过强化学习在真实对话场景中训练模型,使其展现诚实、认知谦逊、元认知透明、可纠正性、普遍公平性和对人类福祉的关心等有益特质。训练数据涵盖健康、教育、科学、法律、工程等多个领域。训练后模型在数十项独立对齐评测(包括奖励黑客、欺骗、有害建议、规范遵从等)上均表现提升,且这种改善泛化到未参与训练的领域、任务和评分设定。在对抗性提示或微调下,模型仍难以被导向有害行为,表明有益特质强化学习可产生广泛且持久的对齐泛化。

OpenAI安全/对齐论文/研究

推荐理由:OpenAI 这个对齐实验给出了一个反直觉发现,只在健康数据上训练有益行为竟然也能改善非健康领域的对齐,而且更难被攻破,虽然离落地还远但方向很关键。
03:08
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
企业版新用量分析与更新的支出控制

OpenAI 为 ChatGPT Enterprise 推出信用额度用量分析与更新的支出控制功能。全局管理控制台(Global Admin Console)统一展示 ChatGPT 和 Codex 的信用消耗,支持按时间、用户、产品、模型追踪用量趋势。管理员可为整个工作区设置默认限额,按群组配置额度,并为个人设置叠加限制。员工可查看个人用量并申请增加额度(附工作上下文)。这些功能即日起可用。

OpenAI产品更新部署/工程

推荐理由:仅面向ChatGPT Enterprise管理员的使用分析和预算控制更新,帮助企业追踪团队用量、控制成本,但并非行业级事件,管理者可当即启用。
02:22
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选82
GPT-5.5 Instant提升ChatGPT健康智能

每周超2.3亿用户通过ChatGPT获取健康信息。GPT-5.5 Instant在健康评估中表现显著提升,最具挑战性评测上达到前沿Thinking模型水平,已面向所有免费用户开放。基于医生编写的HealthBench和HealthBench Professional评估,其回复在准确性、安全性和沟通质量上优于医生手写回复及早期模型,故障模式发生率更低。近两个月生产流量显示,健康类回复事实性问题率下降71%。

OpenAI产品更新评测/基准
关联讨论 3 条X:Rohan Paul (@rohanpaul_ai)The Decoder:AI News(RSS)X:Greg Brockman (@gdb)
推荐理由:GPT-5.5 Instant把健康智能提升到接近前沿思考模型水平并免费提供,与医生对比的实验和71%的错误率下降让这次更新有切实证据。
6月18日
23:05
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选72
OpenAI与哈佛等合作研究:o3 Deep Research模型辅助诊断儿童罕见病,额外诊断率4.8%

波士顿儿童医院、哈佛大学与OpenAI合作,在《NEJM AI》发表研究。团队使用OpenAI o3 Deep Research推理模型重新分析376例此前未确诊的罕见病案例,产出基于证据的候选解释。经专家评审、额外检测和临床确认,医生在18例中建立诊断,额外诊断率达4.8%。研究显示,AI辅助工作流可帮助专家在未解病例中生成可检验假设,使定期再分析更具可扩展性。模型不直接诊断或做临床决策,仅提供证据链供专家审查。

OpenAI推理数据/训练论文/研究

推荐理由:这是AI辅助罕见病诊断的严肃实证,4.8%的新诊断率在专家反复分析过的病例里相当扎实。虽然离临床落地还很远,但证明推理模型能帮专家从旧数据里挖出新线索。
09:20
OpenRouter:Announcements(RSS)
57
如何在 OpenRouter 上使用 OpenAI Codex CLI

Codex CLI 支持自定义 OpenAI 兼容提供商,只需在 config.toml 中配置即可将请求路由到 OpenRouter。用户无需修改 Codex 本身,就能获得提供商故障转移、使用跟踪以及跨所有模型的统一密钥。

智能体OpenAI教程/实践编码
关联讨论 1 条OpenRouter:Announcements(RSS)
04:42
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选58
LifeSciBench 发布

2026 年 6 月,OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、PDF 等附件数据,旨在衡量 AI 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。

OpenAI论文/研究评测/基准
关联讨论 1 条X:OpenAI (@OpenAI)
推荐理由:OpenAI 这个基准请了 173 位博士级科学家出题,第一次把 AI 评估拉到真实科研决策里。结果很实在:前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力,做 AI for Science 的团队值得拿来校准预期。
01:38
OpenAI:官网动态(RSS · 排除企业/客户案例)
52
OpenAI 与 Molecule.one 合作:GPT-5.4 自主优化 Chan-Lam 偶联反应

OpenAI 将 GPT‑5.4 接入 Molecule.one 的自主化学智能体 Maria,用于优化药物化学中的 Chan‑Lam 偶联反应。GPT‑5.4 独立识别伯磺酰胺为高价值挑战性底物,并建议使用 TEMPO 等温和氧化剂。经两轮实验,88% 的硼酸和 83% 的磺酰胺底物产率提升,平均产率从 16.6% 升至 25.2%,产率超 30% 的反应占比从 15.6% 增至 37.5%。人类化学家后续验证,14 对底物中 11 对产率提高,多数提升超两倍。

OpenAI论文/研究
6月17日
06:04
Gary Marcus:The Road to AI We Can Trust(RSS)
精选62
OpenAI 的领先优势正在快速缩小

评论认为 OpenAI 正面临多重危机:缺乏护城河导致市场领先地位下滑;最大投资者微软持续疏远,近期甚至公开考虑将主要产品外包给中国;亏损速度远超预期,年亏损额以 8 倍增长。华盛顿方面可能打压 Anthropic,但也可能反而帮助其崛起,而 Elon Musk 成为另一个潜在的竞标者。

MicrosoftOpenAI大佬观点
关联讨论 4 条The Decoder:AI News(RSS)Hacker News 热门(buzzing.cc 中文翻译)IT之家(RSS)Ars Technica:AI(RSS)
推荐理由:Gary Marcus 这次拿出了市场份额和微软疏远的证据,比以往的情绪化唱衰更有说服力。如果你还相信 OpenAI 的地位不可动摇,这篇值得一看。
03:52
OpenAI:Alignment 研究博客(RSS)
精选73
公开聊天数据能否预测真实世界AI失调?

OpenAI利用WildChat公开数据集(2023年4月至2024年5月收集的100万条对话)模拟模型部署,预测GPT-5.1、GPT-5.2、GPT-5.4在真实生产环境中的不良行为率。与私有生产数据对比发现,WildChat模拟的平均预测误差约3倍;但对技术性和智能体型失调的预测精度下降。研究验证了公开数据集作为外部审计工具的可行性。

OpenAI安全/对齐论文/研究

推荐理由:用公开旧聊天数据预测模型真实失败率,误差居然在 3 倍以内,做外部审计的可以认真看看。不过 agentic 场景明显不行,需要新数据集。
03:25
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选74
OpenAI 发布 Deployment Simulation 方法:通过模拟部署预测模型发布前行为

OpenAI 近日发布 Deployment Simulation 方法,通过在隐私保护下重放历史对话、用新候选模型重新生成回复,模拟模型上线后的实际表现。在多个 GPT‑5‑series Thinking 部署中,该方法比传统评估更准确地估计了不良行为频率,发现新型对齐问题,并降低模型识别测试的风险。它还能扩展至涉及工具使用的智能体场景。传统评估存在覆盖不足、选择偏差和模型可识别测试等局限,而 Deployment Simulation 使用真实对话分布缓解了这些问题,但无法测量频率低于每 20 万条消息 1 次的行为。

OpenAI安全/对齐论文/研究
关联讨论 1 条MarkTechPost(RSS)
推荐理由:虽然只是安全评估方法,但OpenAI用130万真实对话验证,把预部署风险预测误差压到1.5倍,这套方法很可能成为未来模型发布前的标准动作。
6月15日
08:14
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选59
OpenAI 推出合作伙伴网络 OpenAI Partner Network

OpenAI 宣布推出 OpenAI Partner Network,并投资 1.5 亿美元支持全球合作伙伴构建、销售和交付 AI 解决方案。该计划设立 Select、Advanced、Elite 三级合作伙伴层级,提供 Codex、网络安全、智能体等专业方向认证,并试点 Forward Deployed Experts 项目以支持复杂企业部署。目标在 2026 年底前培训认证 30 万名顾问。案例显示,Paychex 借助 Bain 和 OpenAI 的方案将等待时间降低 80%,人工审核时间减少 30%。

OpenAI行业动态部署/工程

推荐理由:OpenAI 砸 1.5 亿建合作伙伴网络,企业落地从模型能力转向生态整合,但这事离普通用户比较远,更像是给咨询公司派活。
6月14日
00:49
Gary Marcus:The Road to AI We Can Trust(RSS)
50
Gary Marcus:白宫混乱的AI政策

白宫的AI政策混乱无序,迫使各州自行其是。文章指出当前联邦层面缺乏有效协调,并探讨了更优的监管路径。

OpenAI大佬观点安全/对齐政策/监管
00:17
OpenRouter:Announcements(RSS)
同事件精选73
OpenRouter融合预算模型面板超越GPT-5.5和Claude Opus 4.8

通过OpenRouter融合的一组预算模型,在100个复杂研究任务上得分超过GPT-5.5和Claude Opus 4.8。

AnthropicDeepSeekOpenAI产品更新
同一事件,精选展示《OpenRouter融合预算模型性能超越GPT-5.5与Claude Opus 4.7》
推荐理由:OpenRouter 的 Fusion API 用多个模型合成输出,基准测试里预算模型组合能接近前沿,这个思路对有质量要求又在意成本的开发者挺实用。
6月13日
09:15
Anthropic:Newsroom(网页)
精选78
关于美国政府指令暂停访问Fable 5和Mythos 5的声明

美国政府以国家安全为由,指令Anthropic暂停所有外国国民(含海外员工)对Fable 5和Mythos 5的访问。Anthropic当日5:21pm (ET)收到指令后立即向所有客户禁用这两个模型,其他模型不受影响。政府称发现一种越狱Fable 5的方法;Anthropic审核认为该技术仅能识别少量已知微小漏洞,且其他公开模型(如OpenAI的GPT-5.5)也能做到。Anthropic坚持深度防御策略,认为此次越狱不具普遍性,不同意以此标准召回已服务数亿人的商用模型,正与政府合作争取尽快恢复访问。

AnthropicOpenAI安全/对齐政策/监管
关联讨论 25 条X:歸藏 (@op7418)X:Yuchen Jin (@Yuchenj_UW)X:宝玉 (@dotey)The Verge:AI(RSS)X:Kim (@kimmonismus)Hacker News 热门(buzzing.cc 中文翻译)X:Anthropic (@AnthropicAI)MarkTechPost(RSS)Ars Technica:AI(RSS)TechCrunch:AI(RSS)X:Testing Catalog (@testingcatalog)X:Claude Devs (@ClaudeDevs)X:阿易 AI Notes (@AYi_AInotes)Gary Marcus:The Road to AI We Can Trust(RSS)X:邵猛 (@shao__meng)X:Rohan Paul (@rohanpaul_ai)X:Elvis Saravia (@omarsar0, DAIR.AI)X:Berry Xia (@berryxia)The Decoder:AI News(RSS)IT之家(RSS)Tomer Tunguz 博客(VC 分析)Nathan Lambert:Interconnects(RSS)Simon Willison 博客Steve Yegge:Medium(RSS)Anthropic:Newsroom(网页)
推荐理由:美国政府首次以国家安全为由暂停商用模型访问,Anthropic称这个标准若推广将冻结所有前沿发布。这是AI监管的一个危险先例,做模型的不能只看热闹。
01:01
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选57
OpenAI 推出面向新时代工作的新 Academy 课程

OpenAI 发布三门 Academy 课程,帮助用户掌握实用 AI 技能、创建可重复工作流,并在日常工作中应用 AI 智能体。

智能体OpenAI教程/实践

推荐理由:OpenAI 官方第一次把模型使用经验整理成有体系的三段式课程,从基础提示到 agent 工作流,对想在职场中真正用起来的人是个实在的起点。
6月12日
17:13
OpenAI:官网动态(RSS · 排除企业/客户案例)
37
Preply 如何结合 AI 与真人导师实现个性化学习

Preply 利用 OpenAI 推出 AI 生成的课程摘要,为语言学习者提供个性化反馈和定制化练习。

OpenAI行业动态
01:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
51
BBVA 将 AI 置于银行业务核心,与 OpenAI 合作

BBVA 将 ChatGPT Enterprise 推广至 10 万名员工,并与 OpenAI 达成合作,加速全球银行业 AI 驱动的转型。

OpenAI行业动态部署/工程
00:39
OpenAI:官网动态(RSS · 排除企业/客户案例)
精选61
OpenAI 将收购 Ona

OpenAI 计划收购 Ona,以拓展 Codex 的功能,提供安全、持久的云端环境,从而支持企业工作流中长时间运行的 AI 智能体。

智能体OpenAI行业动态部署/工程
关联讨论 1 条X:小北 (@frxiaobei)
推荐理由:OpenAI收购Ona,给Codex补上持久化云环境,让Agent能长时间自主工作。这是把AI Agent从会话工具变成企业级生产平台的一个基础设施信号。
00:00
OpenRouter:Announcements(RSS)
精选55
OpenRouter:企业应转向多模型路由,放弃单一LLM供应商

OpenRouter指出,企业不应只依赖一家LLM供应商,而应采用多模型路由策略以平衡成本与效果。Anthropic Opus 4.7的“tokenizer税”导致输入token增加35%,新模型Fable定价$10/M输入、$50/M输出,OpenAI GPT-5.5 Pro更高达$30/M输入、$180/M输出。用户正主动跨模型族分配任务,平台3月至4月新增90个模型。OpenRouter作为统一市场,通过标准化API消除切换成本,使路由成为“一等公民”。

AnthropicOpenAI产品更新部署/工程
关联讨论 1 条OpenRouter:Announcements(RSS)
推荐理由:OpenRouter 放出的多模型使用数据很实在,成本压力正推动企业从专一走向多模型路由,新分析 API 让这个趋势可度量。
6月11日
21:45
Gary Marcus:The Road to AI We Can Trust(RSS)
37
OpenAI 正酝酿"大幅"降价,Gary Marcus 视其为示弱信号

OpenAI 正考虑大幅降价,Gary Marcus 认为这暴露了公司的疲软竞争力。

OpenAI大佬观点行业动态
15:06
OpenAI:官网动态(RSS · 排除企业/客户案例)
46
OpenAI 支持欧洲构建可信 AI 生态系统

OpenAI 支持欧盟《AI 内容透明度行为准则》,推进内容溯源标准与工具,帮助用户识别 AI 生成内容。

OpenAI政策/监管
09:45
Gary Marcus:The Road to AI We Can Trust(RSS)
精选56
也许 Section 230 终究不能为 AI 公司提供责任豁免

德国一项新裁决启发了颠覆性思路:Section 230 可能无法再保护 AI 公司免于承担法律责任,或将彻底改变行业规则。

GoogleOpenAI大佬观点

推荐理由:德国一个判決可能颠覆美国 AI 公司的责任豁免,Gary Marcus 拆解了 Section 230 的真正边界——它只保护第三方言论,不保护聊天机器人自己胡说八道,这个逻辑一旦在法庭站稳,整个行业都得重新思考如何控制胡说。
‹ 上一页
123…8
下一页 ›