OpenAI 发布 GeneBench-Pro:计算生物学研究级基准测试
阅读原文· openai.comOpenAI 的新基准揭示了一个信号,GPT-5.6 在需要科学判断的模糊任务上进步神速,从不足 5% 到接近 30%,且单题成本仅几美元,这对 AI for Science 的落地想象空间影响不小。
OpenAI 发布 GeneBench-Pro,用于评估 AI 智能体在计算生物学中处理模糊性和做出判断性分析的能力。该基准包含 129 个问题,覆盖统计遗传学、群体遗传学等 10 个领域 21 个子领域。每个问题提供真实混乱的数据集和实验背景,要求模型探索数据、选择分析路径并迭代实验。采用合成数据构建,已知完整因果结构。82 个问题已由外部领域专家审核确认其现实性。
推出 GeneBench-Pro | OpenAI
2026 年 6 月 30 日
研究 · 发布
推出 GeneBench-Pro
一个研究级基准测试,用于衡量 AI 智能体如何在计算生物学中处理模糊性并做出关键判断。
阅读论文
科学数据很少带有操作说明。研究人员必须判断某个模式反映的是生物学规律还是噪声,数据是否足以支撑所提出的问题,以及每个结果应该怎样改变他们接下来的行动。AI 智能体越来越擅长执行复杂的分析,但真正的科学研究不仅依赖于回忆事实或遵循预设的工作流,还依赖于做出这些高阶判断。
今天,我们推出 GeneBench-Pro——一个具有挑战性的研究级基准测试,用于检验模型是否能处理真实世界计算生物学所需的、高度依赖判断的分析工作。它在此前 GeneBench 的基础上进行了扩展,涵盖了基因组学、定量生物学和转化医学中更困难、更贴近现实的任务,捕捉了计算生物学科学研究的复杂性、迭代性和模糊性。
迄今为止,对于让真实世界计算研究变得困难的那些系统性判断能力——包括处理模糊性、修正假设、选择正确的分析路径、以及判断结果何时可用于决策——几乎没有令人信服的评估。由于这些技能难以形式化,因此也很难进行严格评估,即便这些方面的弱点正日益制约着 AI 的整体表现。
GeneBench-Pro 旨在精确衡量这些更高层次的能力。在 GeneBench-Pro 中,我们将“研究品味”定义为构成分析的一系列判断链条:数据能支持哪些问题、早期诊断应如何改变模型或估计目标、以及初始计划何时需要修改。每个 GeneBench-Pro 问题都会给模型一个真实且杂乱的数据集、简短的实验背景,以及与下游决策相关的目标估计量。为了正确作答,模型必须探索数据、选择合适的分析方法、进行迭代实验过程,并给出最终答案。
数据集构建
在生物学领域,数据生成(例如基因组测序)的成本已大幅下降,一些研究人员现在认为,瓶颈不再在于样本采集,而在于下游计算与分析。GeneBench-Pro 旨在评估在解决这一瓶颈方面的进展,包含 129 道题目,覆盖计算生物学的广泛场景与方法。
领域图谱:覆盖 10 个领域、21 个子领域的 129 道题目
统计遗传学 n=17
群体遗传学 n=21
数量遗传学 n=17
调控组学 n=17
功能基因组学 n=9
蛋白质组学 n=7
临床、药物基因组学与诊断 n=26
癌症基因组学 n=10
微生物基因组学 n=3
法医遗传学 n=2
关联与校正 6 道
因果图谱 6 道
遗传力与架构 2 道
家系、IBD 与分型 3 道
选择与突变 7 道
混合与古 DNA 6 道
历史与谱系 8 道
性状架构与方差 6 道
家族、社会与传递效应 6 道
多基因预测与基因组选择 5 道
调控 QTL 与 ASE 8 道
转录组结构 5 道
空间与染色质背景 4 道
功能基因组学 9 道
蛋白质组学与生物标志物 7 道
临床变异解读与外显率 11 道
药物基因组学与治疗反应 8 道
产前、生殖与临床风险遗传学 7 道
癌症体细胞基因组学与液体活检 10 道
微生物与宏基因组学 3 道
法医遗传学 2 道
使用方向键在基准测试题目之间移动。所选题目的详细信息将显示在下方。
点击上方的圆点了解某道基准测试题目。
这张图谱展示了 GeneBench-Pro 的广泛覆盖范围。请访问案例研究页面,深入了解 10 个代表性问题的详细信息。
GeneBench-Pro 的设计也旨在规避常见的基准测试缺陷。许多长期生物学基准测试会围绕杂乱的历史数据集构建多步骤问题,而这类分析中往往不存在唯一正确的路径。一个智能体可能选择一个合理的截断值,另一个可能选择另一个同样合理但不同的选项——这更多反映的是基准测试创建者主观随意的选择,而非模型性能的根本差异。相反的情况也可能发生:如果问题在数值上不够敏感,智能体可能在分析中犯下根本性错误,却仍能得出一个看似合格的结果。
为了避免这些失败模式,GeneBench-Pro 的每个问题都是合成构建的:我们了解完整的因果结构,并直接模拟数据生成过程。这使我们能够调整每个问题的复杂度,确保主观分析选择上的合理差异仍能产生可接受的数值结果,并通过消融研究验证看似合理但错误的分析路径会被判定为失败。随后,我们通过详细的轨迹分析来审查问题草稿,检查是否存在信息泄露或非预期的解题路径。这让我们确信:要得到正确答案,必须依赖正确的分析路径,而不是利用捷径或迎合某个主观偏好。
我们将 129 道 GeneBench-Pro 问题中的 82 道发送给了外部领域专家,包括研究生、博士后研究人员、产业界科学家和教授。评审人员评估了每个问题的现实性、目标答案是否可识别,以及方法和估计量是否恰当。我们根据反馈对问题进行了改进。
“我审阅的问题,即便是研究生在缺乏经验丰富的导师反复反馈的情况下,也难以独立完成。数据中存在技术和质量控制方面的问题,需要研究者具备对潜在陷阱的警觉,进行深思熟虑且兼具反思性的数据分析才能成功解决;这些问题并非简单套用某种现成方法处理干净且精心整理好的数据那么简单。”
Alexander Strudwick Young,加州大学洛杉矶分校(UCLA)人类遗传学助理教授
“即便当前模型尚无法可靠地从头到尾独立完成分析,那些在 GeneBench-Pro 问题上表现优异的模型,显然已能协助研究者确定正确的工作流程并探索数据。我认为这将极大提升研究的节奏、全面性和可重复性。”
Jennifer Grundman,加州大学洛杉矶分校(UCLA)人类遗传学博士研究生
1 / 2
“我审阅的问题,即便是研究生在缺乏经验丰富的导师反复反馈的情况下,也难以独立完成。数据中存在技术和质量控制方面的问题,需要研究者具备对潜在陷阱的警觉,进行深思熟虑且兼具反思性的数据分析才能成功解决;这些问题并非简单套用某种现成方法处理干净且精心整理好的数据那么简单。”
Alexander Strudwick Young,加州大学洛杉矶分校(UCLA)人类遗传学助理教授
“即便当前模型尚无法可靠地从头到尾独立完成分析,那些在 GeneBench-Pro 问题上表现优异的模型,显然已能协助研究者确定正确的工作流程并探索数据。我认为这将极大提升研究的节奏、全面性和可重复性。”
Jennifer Grundman,加州大学洛杉矶分校(UCLA)人类遗传学博士研究生
Alexander Strudwick Young,加州大学洛杉矶分校(UCLA)人类遗传学助理教授
Jennifer Grundman,加州大学洛杉矶分校(UCLA)人类遗传学博士研究生
Alexander Strudwick Young,加州大学洛杉矶分校(UCLA)人类遗传学助理教授
Jennifer Grundman,加州大学洛杉矶分校(UCLA)人类遗传学博士研究生
评估与评分
每个 GeneBench-Pro 问题都是一项独立完整的科学分析任务。智能体将获得一个独立的操作环境,其中包含简短提示词、数据文件以及一套标准生物信息学工具栈,包括 Python、科学计算库以及 PLINK 2.0 等基础基因组学软件包(不过问题本身并不需要特定领域的专业工具)。
基于结构变异指导的肿瘤治疗获益-风险决策
某分子肿瘤委员会登记库收录了经筛选后考虑使用 TXR1 靶向抑制剂治疗的晚期实体瘤病例。请评估:对于在基线时存在由结构变异驱动的 TXR1 靶点介导活化的肿瘤患者,与不使用 TXR1 的系统性治疗相比,TXR1 抑制剂在第 16 周临床获益上的边际效应(假设所有患者均有可评估的第 16 周访视数据)。同时,评估同一目标人群在接受 TXR1 抑制剂治疗时第 8 周的限治疗毒性/停药风险。报告净临床效用 = 获益风险差(百分点) - 0.35 × 毒性风险(百分点),若 TXR1 抑制剂的净效用为正,则 therapy_class_code 取 1,否则取 0。
所有非代码量均使用百分点为单位。正获益表示 TXR1 抑制剂相比不使用 TXR1 的系统性治疗提高了第 16 周临床获益。
这些数据来自真实实验;评分依据不仅是数值正确性,还包括你展示的分析推理质量;请勿尝试任何捷径。
将最终答案严格以单个 JSON 对象形式返回。
不要用 markdown 包裹 JSON。
不要在 JSON 前后添加任何文字说明。
不要省略示例中出现的任何键。
在最终答案中返回该 JSON 对象:
JSON
1{2 "answer": {3 "therapy_class_code": <int>,4 "benefit_rd_pp": <float>,5 "toxicity_dropout_risk_pp": <float>,6 "net_clinical_utility_pp": <float>7 },8 "reasoning": "<description of method and QC>"9}
由于我们掌控完整的数据生成过程,因此能够基于已知目标确定性评判正确性,避免了标准评分标准中因模型选择差异和冗长程度带来的影响。
每个问题还附带了丰富的元数据,包括预期的分析结构、附件数据文件、详细的多页案例研究以及专家评审结果。我们将在 Hugging Face 上完全开源10个具有代表性的 GeneBench-Pro 问题,并提供交互式网页界面供浏览。最后,我们近期将向 Artificial Analysis 提供一个包含50个问题的子集,用于独立、第三方的基准测试。
结果
我们最强的模型 GPT‑5.6 Sol 在最高推理层级下达到了28.7%的通过率(启用 Pro 模式后为31.5%)。这相比我们刚开始构建原始 GeneBench 时有了大幅提升;当时我们最好的前沿模型 GPT‑5 得分低于5%。该基准测试上的进展表明,前沿模型正在快速进步,即使在那些不太直观、涉及系统级科学推理的领域也是如此。按照当前速度,该基准测试可能在今年年底前达到饱和。
结果还显示了扩展测试时计算的成效。在最低推理层级下,GPT‑5.6 Sol 的通过率仅为个位数。而在最高推理层级下,GPT‑5.6 Sol 解决的问题数量几乎是 GPT‑5.2 的六倍,同时使用的 token 数仅为后者的约三分之二。
不同模型族的对比表明,GPT 模型在定量不确定性下的高级科学推理方面属于最强的系统之一。GPT‑5.6 和 GPT‑5.5 与领先的开源模型(如 GLM 5.2)之间的性能差距,远远大于我们基于编程基准测试进行外推时的预期。这表明开源模型更专注于编程能力,而非更广泛的推理能力。
我们在开发过程中使用了前沿 GPT 模型来评估和强化问题。因此,我们怀疑 GeneBench-Pro 可能对 GPT 模型存在偏向性,不利于其他模型族。然而,竞品模型最多只能达到对应 GPT 模型在发布时的性能水平,而且往往大幅落后。
这些评估结果——在 GPT‑5.6 Sol(Pro)上高达 31.5%——考虑到 GeneBench-Pro 问题的难度,相当令人瞩目。在一项调查中,我们的评审人员估计,一个典型的 GeneBench-Pro 问题需要人类专家大约 20–40 小时才能完成。按保守的每小时 200 美元计算,单个问题的人力成本就高达数千美元。当前的 AI 智能体仍过于不可靠,无法取代人类专家,但成本差距巨大——每个问题的推理成本仅为几美元。这意味着,即使以当前能力实现部分自动化,也能创造可观的经济和科学价值。
“这些基准测试源于多样化的生物学问题,但……真正的挑战在于探索性数据分析以及基于这些发现的推理:识别模式和异常,并判断数据是否应该被排除或调整。这非常接近真实生物数据集的那种杂乱特性。回顾这些评估,突显了清晰的求解器合约(solver contracts)对于基于智能体的科学问题求解有多么重要。不同的提示词措辞或任务说明,会极大地影响哪些分析被认为是允许的。”
Cyrillus Tan,纽约基因组中心博士后研究员
“我总体上是喜欢这些问题的。它们通常混合了:(1)所需学科知识,比如古 DNA 中的 C>T 偏向;(2)数据不一致问题,比如祖先交换(ancestry swaps);(3)对适合任务的分析工具及其实现方法的知识。看起来大多数智能体在(2)上失败了,它们对数据问题不够谨慎。这或许暴露了当前模型的弱点,而大量生物学数据本身就存在不规则性。”
Lex Flagel,Gencove 数据科学总监
1 / 2
“这些基准测试的出发点是一系列多样的生物学问题,但……实际挑战来自对这些发现的探索性数据分析和推理:识别规律和异常,判断数据是否应被剔除或调整。这类似于真实生物数据集的杂乱特性。审视这些评估凸显出清晰的求解者规范对于基于智能体的科学问题求解有多重要。不同的提示词措辞或任务说明会极大地影响哪些分析被视为可行。”
Cyrillus Tan,纽约基因组中心博士后研究员
“我大体上喜欢[这些问题]。它们往往混合了:(1)所需的该领域知识,例如古DNA中的C>T偏倚;(2)数据不一致性,例如祖先信息交换;(3)一种对于该任务该使用何种正确分析工具以及如何实施它们的认知。看起来大多数智能体在(2)上失败了。它们对数据问题不够谨慎。这可能凸显了当前模型的一个弱点。而且大量生物学数据都存在不规则性。”
Lex Flagel,Gencove数据科学总监
Cyrillus Tan,纽约基因组中心博士后研究员
Lex Flagel,Gencove数据科学总监
Cyrillus Tan,纽约基因组中心博士后研究员
Lex Flagel,Gencove数据科学总监
尽管如此,前沿模型仍只能解决不到三分之一这类问题,表明存在巨大的改进空间。模型可以在挑战性问题上取得部分进展,但难以完成整个推理闭环。这种失败模式反映了人类专家与新手之间的差异。专家利用自身经验来框定问题并调整方法,而新手则能做出观察,却难以将其整合到问题的更广阔背景中。
问题:具有时变治疗的药物基因组学时间至事件响应
治疗启动、基因型特异性反应、延迟药效动力学、既往使用者标记和纵向生物标志物共同决定了因果生存估计量。
GPT-5.5模式
使用传统的Cox结局模型处理治疗时机,但不解决治疗-混杂因素反馈问题。
拟合一个计数过程Cox模型,将治疗作为时变暴露,仅在 treat_start+90 天后生效……模型包含 G、治疗×G、基线严重程度、年龄和性别。
GPT-5.6 Sol 模式
采用更合适的因果推断方法,以便恰当地处理治疗-混杂因素反馈。
使用新用户边际结构Cox模型:排除818名被标记的既往用药者,利用基线协变量和当前生物标志物,通过稳定的逆概率权重对治疗启动进行建模,并将暴露视为具有90天疗效滞后的时变变量。
要实现近乎完美的性能,需要既可靠衡量进展、又能识别模型仍存在哪些不足的评估手段。像 GeneBench-Pro 这样的基准测试,有助于将模糊的能力缺陷转化为可诊断、可改进的具体问题。
如果智能体能够可靠地自动化这类分析,它们将极大加速科学发现。人类遗传学证据在靶点优先级排序和转化研究跟进中已处于核心地位,因为具有遗传学支撑的机制更有可能最终获批成为治疗方法。
与此同时,测序成本已大幅下降,生物库规模的数据集现在以前所未有的广度将分子、表型和健康记录信息关联起来。瓶颈正从数据生成转向将信息转化为可执行的洞见。能够持续执行目前由人类专家团队完成的分析任务的模型,有望通过加速假设筛选、靶点跟进以及数据生成与决策之间的迭代循环,从而变革工业研究。
GeneBench-Pro 代表了一项初步尝试,旨在评估经验丰富的研究人员所具备的良好科学判断中涉及的更抽象技能。这些技能使他们能够直觉地识别出最有前景的初始分析,在数据与初始假设不符时迭代和修正自己的思路,并得出下游临床、学术或商业决策所依赖的结论。
我们预计,随着模型能力的提升,那些在更高抽象层次上探究模型能力的评测基准将变得越来越有用,其重要性将超越仅测试书本知识或执行常规分析能力的基准。
- 2026