7月1日

23:03

IT之家（RSS）

OpenAI 推出 GeneBench-Pro 基准测试，评估 AI 模型生物学计算能力

OpenAI 发布 GeneBench-Pro 基准测试，评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境，自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向，共 129 道题，分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差，OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面，后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。

OpenAI 数据/训练评测/基准

20:21

Chubby♨️@kimmonismus

OpenAI首席经济学家：AI补充就业？数据已显严峻

OpenAI首席经济学家Ronnie Chatterji在ECB辛特拉会议上表示，AI可能补充而非替代就业，类比PC让经济学家更高效。但数据显示，AI采用最快的美国金融和信息行业，2026年平均每月减少2.8万个岗位。Challenger数据称今年已有约10.2万个岗位削减归因于AI，John Challenger认为其影响前所未有。

OpenAI 行业动态

18:51

Chubby♨️@kimmonismus

@AndrewCurran_ 预测一项重大架构突破即将公布，重点提升内存效率，来自从OpenAI分拆的团队（非SSI）。主推文@Kim 指出，若属实其意义远超普通模型发布--内存效率是长上下文模型、AI智能体和推理成本的核心瓶颈，架构级突破可使长时间跨度AI系统大幅降价并更实用。Andrew被视为最可靠信源之一，Kim认为可能正处于转折点。

Andrew Curran: I'm posting this prediction now so I can quote it later. There has been a significant breakthrough in architecture - spe...

OpenAI 大佬观点推理

18:10

The Decoder：AI News（RSS）

精选70

OpenAI论文揭示GPT-5.6三个Pro变体，打破单一顶级策略

OpenAI论文首次列出GPT-5.6的三个Pro变体：Luna Pro、Terra Pro和Sol Pro，取代以往单一Pro模式。在基因组学基准中，Sol Pro通过率31.5%居60个测试模型之首，领先标准Sol（28.7%）和Claude Opus 4.8（16.0%）。Pro相比标准版本提升逐级递减：Luna Pro提升7.1个百分点（16.5%→23.6%），Terra Pro提升5.2（23.3%→28.5%），Sol Pro仅提升2.8（28.7%→31.5%）。Terra Pro（28.5%）几乎与标准Sol（28.7%）持平。论文未披露Pro运行的token用量，也不清楚该分层是否会在ChatGPT中实际推出。

OpenAI 推理行业动态

推荐理由：论文意外曝光 GPT-5.6 Pro 将有三个变体，Pro 不再只是一个最强模型，而是让用户按推理需求选版本，这才是匹配 200 美元月费该有的逻辑。

16:03

IT之家（RSS）

软银完成对 OpenAI 的 100 亿美元追加投资，10 月 1 日将再投 100 亿美元

软银集团今日通过愿景基金二号完成对 OpenAI 的 100 亿美元追加投资（第二笔），属于总计 300 亿美元追加投资计划的一部分。为筹集该笔资金，软银于同日根据过渡贷款协议成功借入 100 亿美元。软银计划于日本时间 10 月 1 日完成第三笔同样 100 亿美元的投资。此前软银曾于 2024 年通过愿景基金首次向 OpenAI 投资 5 亿美元。

OpenAI 行业动态

15:03

IT之家（RSS）

OpenAI：ChatGPT 全球采用率持续扩大，非英语用户占比过半

OpenAI 2026 年 Q1 数据显示，ChatGPT 消费级产品全球采用率扩大。注册六个月后用户日均消息量增 50%，任务类型翻倍。可推断性别的用户中女性占比过半，35 岁以上用户消息占比上升。非洲和亚洲周活跃用户增速领先，人类发展指数较低的国家增长最大。非英语用户占活跃用户半数以上，西班牙语、葡萄牙语、阿拉伯语为前三非英语语言；乌兹别克语、哈萨克语、缅甸语占比增幅最大。消费级账户工作用途中，视觉设计增长最快。分析未包含 Codex 及企业版、教育版。

OpenAI 行业动态

14:00

Greg Brockman@gdb

OpenAI 推出研究级基准 GeneBench-Pro，用于测试 AI 智能体在真实计算生物学中处理复杂、需要高度判断的分析能力。每个问题需要人类专家约 20-40 小时完成。Greg Brockman 表示，GPT-5.6 Sol 在该基准上实现了重大进步。

OpenAI: We're introducing GeneBench-Pro, a research-level benchmark for a harder kind of AI progress: how well agents can naviga...

智能体 OpenAI 论文/研究