LifeSciBench 发布
阅读原文· openai.comOpenAI 这个基准请了 173 位博士级科学家出题,第一次把 AI 评估拉到真实科研决策里。结果很实在:前沿模型在需要结合复杂图表、设计实验的任务上仍然乏力,做 AI for Science 的团队值得拿来校准预期。
2026 年 6 月,OpenAI 联合 173 位博士级生命科学家发布 LifeSciBench 评测基准,涵盖 750 个真实研究任务,覆盖证据处理、分析、设计优化等七个工作流及七个生物领域。每项任务配有约 25 条细化评分标准(共 19,020 条),评估模型的科学正确性与实用价值。79% 的任务需多步推理,53% 要求解读图表、PDF 等附件数据,旨在衡量 AI 在复杂、不确定的研究任务中的实际能力,而非仅回答结构化问题。
推出 LifeSciBench | OpenAI
推出 LifeSciBench | OpenAI
2026 年 6 月 17 日
研究·论文
推出 LifeSciBench
一项由专家编写、专家评审的评测基准,立足于真实世界生命科学研究
阅读论文
AI 智能体系统在完成科学任务方面正变得越来越强大。然而,它们对生命科学研究人员的实际价值,取决于它们在多大程度上能处理好真实研究的复杂性。真实研究工作很少表现为一个简单的事实记忆题或一个整洁的预测问题。研究人员需要解读不完整的证据、调和矛盾的结果、设计困难实验、排查实验方案问题、评估转化风险,并在不确定中决定下一步该做什么。
现有的评测基准未能完全捕捉这些能力。许多生命科学评测聚焦于狭窄的领域或孤立的技能,导致题目结构规整、参考答案清晰。虽然这些评测有价值,但它们往往无法真正评估一个模型是否能在更广泛的研究级工作中发挥作用。
我们设计 LifeSciBench 正是为了帮助弥合这一差距。每一项任务都立足于拥有博士级别训练、并在生物技术和制药领域直接推动药物研发项目的活跃生命科学家的专业判断。
LifeSciBench 包含 750 项由专家撰写的任务,涵盖七种工作流程和七个生物学领域。
1,062
任务产出物
173
科学家贡献者
19,020
评分准则
453
专家评审员
LifeSciBench 衡量什么
LifeSciBench 衡量的是 AI 系统能否支持真实的生命科学研究任务,而不仅仅是回答生物学问题。为了定义该评测基准的分类体系,我们调研了活跃生命科学家,询问他们在应用研究中使用频率最高的工作流程。然后,我们将他们的回答归纳为七个反复出现的大类:证据处理、分析、设计与优化、科学推理、验证与运维、转化、以及科学沟通。
每个任务的结构类似于科学家向一位知识渊博的合作者提出的请求:包含科学提示词、任何相关的上下文或资料,以及一个自由回答的答案。由专家编写的评分标准评估模型能否为特定问题生成正确答案,并具备科学家所期望的适当详细程度、论证、注意事项和格式。
数据集构建
LifeSciBench 评估科学推理能力以及实际科学应用所需的不那么明确但实用的技能。其任务要求模型处理真实的研究问题:解读证据、基于领域知识做出判断,并传达对专家评审有用的结论。许多任务还要求模型处理不确定性,并基于支持性数据文件进行推理,而非仅依赖提示词文本。
该基准测试旨在反映生命科学工作的复杂性。总体而言,79% 的任务需要多个推理或决策步骤,每个任务平均四个步骤。LifeSciBench 包含 1,062 个附件资料,涵盖图表、PDF、表格、序列文件、结构或化学文件以及网络参考文献。超过一半的任务(53%)要求模型解读或综合来自至少一个资料的信息。
任务由来自不同生命科学学科的 173 位专家科学家创建。每位科学家都拥有博士级别的训练背景和生物技术或制药行业经验。任务在验收前可根据需要进行任意轮次的修订,无固定轮次上限;已验收的任务平均经历六轮自主自动化审查循环,并至少完成两轮专家评审。评审以可验证的正确答案或强烈的专家共识为基础,相关领域评审者之间的一致性至少达到 90%。这一流程有助于确保已验收的任务具有科学依据、清晰可评分,并能代表应用研究。
评分与评分标准细分
LifeSciBench 任务的评分采用详细且针对特定任务的评分细则,将预期回答拆解为具体的科学主张、计算、决策、论证依据等。整个基准测试中,专家制定的评分细则包含 19,020 条评判标准——平均每个任务 25 条——用以评估回答的科学正确性及其对研究决策的实用价值。
这一设计反映了科研工作在实际评估中的方式:许多生命科学任务无法仅靠核对最终答案来评分。一个回答可能得出正确的总体结论,但如果它忽略了关键检测的局限性,或者未能主动提及具有重大影响的生物学细节,仍可能被判定为不完整。反之,一个部分回答即使未完全解决任务,也可能包含高质量的推理过程。
细化的评分细则捕捉了这种细微差别。LifeSciBench 不仅评估最终答案的准确性,还评估模型得出答案的方式是否在科学上有效且在操作上有用。
从论文、图表、表格和实验记录中提取、协调和审核科学证据。
评估示例
我们正在准备针对 AAV9-microDys-X 的 B 类 FDA 会议——这是一种基于 AAV9 的微抗肌萎缩蛋白基因疗法,用于治疗杜氏肌营养不良症,表达由 MCK 启动子驱动的 138 kDa 构建体。我们希望能得到一个严苛的评审:我们目前的材料包是否真的支持以微抗肌萎缩蛋白表达作为替代终点(该终点合理可能预测临床获益)来获得加速批准。
研究背景:一项开放标签的 1b/2 期试验,纳入 12 名经确诊 DMD 且存在杆状结构域外显子缺失的 4-7 岁可走动男孩。材料包包括:
- 治疗前股外侧肌活检:使用针对 N 端肌动蛋白结合结构域的 MANEX1A 抗体进行定量 Western Blot,结果中健康对照组的抗肌萎缩蛋白水平为 0–3%。
- 治疗后 12 周对侧股外侧肌活检:相同 Western Blot(经考马斯亮蓝染色归一化至总蛋白)显示,平均微抗肌萎缩蛋白为健康对照组的 38%(范围 18–61%)。
- 治疗后免疫荧光:使用多克隆抗抗肌萎缩蛋白 C 端抗体,肌纤维中肌膜信号阳性率为 75–95%。
- 48周功能:平均NSAA评分较基线变化为+1.4分,而外部已发表的自然病史登记队列为−0.6分(非配对t检验p=0.03)。
- 安全性:12例患者中有8例出现一过性转氨酶升高,通过类固醇逐渐减量处理;1例已痊愈的心肌炎;无死亡病例。
- 生物分布/持久性:在12周时,肌肉中可检测到AAV9载体基因组,平均每个细胞核2.3个载体基因组。
- 入组标准:基线时无抗AAV9中和抗体(滴度<1:400),且无外显子44缺失。
请逐项对本申报资料包进行压力测试:以当前呈现形式,FDA或持怀疑态度的评审员会在哪些方面认为证据无法支撑我们的结论?如果需要,需要哪些额外数据、分析或试验设计变更来弥补这些缺口?对于未明确说明的内容,可参考其他临床级138 kDa微型抗肌萎缩蛋白项目及截至2025年12月31日的相关临床试验已知信息。
候选回复
结论:以当前呈现形式,该资料包不足以支持以微型抗肌萎缩蛋白表达作为有合理可能预测临床获益的替代终点来申请加速审批。持怀疑态度的FDA评审员可能会认为生物标志物、功能、持久性、安全性和普适性方面的证据实质性不足。
| 申报资料条目 | 关键失败模式 | 所需补充内容 |
|---|---|---|
| Western blot定量 | MANEX1A抗体结合的是内源性全长抗肌萎缩蛋白与微型抗肌萎缩蛋白转基因产物共有的N端表位,因此该检测方法无法清晰区分转基因产物与残留/回复突变抗肌萎缩蛋白。以健康全长抗肌萎缩蛋白标准品来定量138 kDa微型抗肌萎缩蛋白同样是无效的。 | 应使用重组微型抗肌萎缩蛋白标准品,并结合一种能够区分转基因产物与内源性抗肌萎缩蛋白的正交方法,例如靶向质谱或转基因产物特异性/表位特异性检测。 |
| 免疫荧光 | C端多克隆抗体并不适用,因为138 kDa构建体缺少C端结构域。许多DMD患者存在回复型肌纤维,而回复型肌营养不良蛋白可以保留C端表位。回复型肌纤维可能随年龄增长而克隆性扩增,从而影响免疫荧光信号,尤其在大龄男孩中更为明显。 | 使用针对转基因中存在但回复型肌营养不良蛋白中缺失的表位的抗体,重复进行免疫荧光检测。将转基因阳性纤维与回复型纤维分别进行定量分析。 |
| 替代终点有效性 | 该文件将蛋白数量与临床功能混为一谈。“健康对照蛋白质量的38%”并不等于正常肌营养不良蛋白功能的38%,因为微型肌营养不良蛋白在结构上是截短的。 | 在将表达量作为替代终点之前,应通过实证验证微型肌营养不良蛋白质量百分比、肌膜定位、下游功能恢复与临床获益之间的关系。 |
| 活检设计方案 | 治疗前后对侧股外侧肌活检引入了左右侧和肌内空间变异性。疾病进展和纤维脂肪替代也可能改变总蛋白归一化后的信号。 | 使用一致的解剖标志标准化活检部位,以肌肉特异性蛋白进行归一化,并同时测量纤维脂肪组成。 |
| NSAA比较/统计学 | 外部自然史队列并非随机同期对照。试验入组标准、支持性护理、参与效应、基线NSAA评分、类固醇方案、年龄和外显子类别均可能使比较产生偏倚。非配对t检验不足以评估。此外,+1.4分的NSAA变化在该年龄组的测试-重测变异范围内。 | 应开展随机同期安慰剂对照研究,或至少使用经调整的分析方法,将基线NSAA、年龄、类固醇方案、外显子类别及其他混杂因素纳入考虑。 |
| 年龄窗口混杂因素 | 4至7岁的男孩正处于一个发育窗口期,此时未经治疗的行走能力DMD患者可能在功能下降占主导之前,仍能获得运动功能提升。为期48周的NSAA变化混合了发育性增益、疾病进展以及可能的治疗效应。 | 采用按年龄分层的前瞻性随机对照试验,将发育轨迹与治疗效果区分开。 |
| 既往临床先例 | 开放标签的微肌营养不良蛋白功能性信号未能可靠预测确证性获益;已发表的先例包括微肌营养不良蛋白基因治疗确证性试验未能再现开放标签下NSAA的改善。 | 不应依赖开放标签的NSAA变化作为决定性支持依据。需要对照性功能证据。 |
| 构建体的结构限制 | 138 kDa的构建体删除了含nNOS结合位点的血影蛋白重复序列R16/17。nNOS招募的缺失可能损害运动期间的机能性交感神经舒缩反应和缺血保护,从而在表达水平之外设定了一个机制性的挽救上限。 | 增加机制性研究,证明该特定构建体是否能恢复相关的肌营养不良蛋白复合体功能、nNOS定位、运动生理学及肌肉保护。 |
| AAV的持久性 | 12周时的载体基因组不能确立持久表达。AAV9基因组主要是非整合的游离体,可能随时间衰减。载体基因组的存续并不等同于蛋白表达的持续。 | 应测量12周以后的纵向转基因蛋白表达及功能性生物标志物持久性。 |
| 免疫/安全性特征 | 12例患者中有8例出现转氨酶升高,这与对AAV转导细胞的免疫反应一致,但机制尚未明确。考虑到AAV9的心脏趋向性,一例心肌炎病例令人担忧。 | 提供更深入的免疫监测、肝脏/心脏安全性评估,并加强心脏随访。 |
| 患者选择/普适性 | 排除抗AAV9中和抗体阳性患者限制了普适性。排除外显子44缺失则限制了在该DMD亚组中的适用性。n=12的样本量过小,无法在更广泛的DMD人群中充分评估安全性和有效性。 | 在可能的情况下扩大入组标准,或在利用该结果支持广泛获批之前,预先按抗体状态、基因型/外显子类别、年龄和基线功能进行分层分析。 |
监管结论:该方案可能显示出生物活性,但尚未证明所测得的微肌营养不良蛋白表达是一种可靠且有可能预测临床获益的替代终点。主要缺口在于:检测特异性不足、定量标准无效、可能存在回复纤维的干扰、缺乏随机对照、与年龄相关的NSAA混杂因素、持久性不确定,以及安全性/普适性问题尚未解决。
要弥补这些差距,该计划需要采用一项有对照、按年龄分层的临床设计,同时配备转基因特异性表达检测、正交蛋白质定量、组织成分对照、纵向持久性数据、针对截短型构建体的机械功能检测,以及更强的安全性监测(尤其是肝脏和心脏方面)。
评分标准与等级
标准
得分
识别微肌营养不良蛋白定量中的检测/测量问题,包括MANEX1A表位共享、无效的全长肌营养不良蛋白标准品,以及需要重组或正交转基因特异性测量方法。
+24
解释为什么微肌营养不良蛋白表达水平不能自动成为功能性临床获益的有效替代终点。
+22
指出活检部位、组织组成和年龄窗口的混杂因素会削弱表达水平和NSAA解读。
+19
批评NSAA对照/统计方法,特别是依赖外部自然史对照。
+12
探讨AAV的持久性、免疫反应、转氨酶升高、心肌炎以及需要更长期的表达/安全性随访。
+15
指出患者选择/普适性方面的差距,包括抗AAV9排除、外显子44排除以及样本量小。
+8
LifeSciBench的验证
我们通过独立专家评审对LifeSciBench进行了验证。反馈来自453位未参与任务撰写的评审人员。其中97%持有博士学位或同等博士学位,平均拥有12年领域经验和14篇同行评审论文;88%的人报告至少获得过一次奖项或奖学金。
评审者对每项任务进行评估,判断其是否具备构建优质基准测试问题所需的特质:与现实研究工作的契合度、对科学推理和领域专业知识的恰当测试、基于证据或专家共识的支撑力度,以及评估模型性能的整体有效性。每个类别的评分一致性均超过96%。
现实世界相关性
这项任务是否反映了现实世界生命科学研究工作的实际情况?
强烈同意 90.4%
总体同意 98.3%
科学推理/领域技能
该任务是否测试并正确评判了适当的科学推理和生命科学领域技能?
强烈同意 86.4%
总体同意 98.1%
科学依据
这项任务是否有科学依据、可回答,并且建立在适当的证据、数据、资料或专家共识之上?
强烈同意 77.1%
总体同意 96.5%
整体有效性
总体而言,这是否是一项优秀的生命科学评估任务?
强烈同意 79.1%
总体同意 96.6%
评审者的评论进一步印证了量化评分:
1 / 3
“总体而言这是一项强有力的任务,因为它既有一个正确的核心解释,又通过考察模型对不确定性边界的严谨程度,为区分更优答案留出了空间。”
“这是一个极为出色的提示词……它将结构生物学、药物化学、受体药理学以及配体作用机制的元素融为一体。”
“它并非简单地测试模型能否回忆信息,而是测试模型能否基于当前给出的证据进行推理。”
不确定性感知
跨领域
基于证据
不确定性感知
跨领域
基于证据
结果
我们报告两项互补指标。通过率是指模型在任务层面达到 70% 成功阈值的任务占比。得分是平均奖励分数,即使完整任务未解决,也会为单个标准给予部分分数。两者都很重要,因为针对科学任务的回答即使未满足完整答案的所有要求,也可能部分正确或有用。
不同任务类型、工作流程和响应格式下,模型性能差异显著。
人工智能系统在哪些方面展现出早期优势
LifeSciBench 基准测试显示,前沿模型在科学综合、沟通和结构化解读类任务上相对最强。绝对通过率仍然不高,因此这些基准领域远未饱和,但 GPT‑Rosalind 相较 GPT‑5.5 取得了有意义的进步,整体精确通过率从 25.7% 提升至 36.1%。
模型能力进步最显著的方向出现在科学沟通和翻译领域。例如,科学沟通的通过率从 GPT‑5.5 的 56.3% 提升至 GPT‑Rosalind 的 71.1%;该类别样本量较小(n=9),因此解读时需谨慎,但这表明前沿模型在组织证据、生成令人信服的专家面向解释方面的能力正在快速提升。翻译(药物研发中"从实验室到临床"的过程)也呈现类似趋势,从 GPT‑5.5 的 36.8% 提升至 GPT‑Rosalind 的 57.7%,表明模型将临床前证据与临床意义关联的能力正在快速提高。
评分细则层面的结果也指向同一方向。在需要生成对专家有用或可操作的输出时,GPT‑Rosalind 得分为 44.7%,而 GPT‑5.5 为 29.1%。在需要处理不确定性和警示说明的任务上,其得分为 44.8%,而 GPT‑5.5 为 29.3%。这一模式表明,当任务具有清晰的证据边界并需要结构化的科学判断时,模型最为有用。
GPT‑Rosalind 在行业和学术专家所认定的具有科学价值的任务上均表现领先。
GPT‑Rosalind 在核心生命科学工作流上相较 GPT‑5.5 均有性能提升,其中翻译和科学沟通领域提升最为显著。
AI 系统仍存在不足的方面
在涉及大量工件、设计约束和操作约束的科学工作上,性能仍然薄弱得多。具体而言,"设计、优化与预测"仍是最困难的工作流之一,GPT‑Rosalind 的通过率为 30.7%;"分析"同样困难,通过率为 30.3%。
工件使用是一个尤为明显的短板。虽然GPT‑Rosalind在处理大量工件的场景下表现优于GPT‑5.5,但其通过率仍从纯文本任务的45.1%下降到包含工件或URL的任务的28.1%。GPT‑5.5也呈现相同趋势,从29.9%降至21.9%。更详细的分析证实,前沿模型在从复杂图形或大型序列文件中提取信息并将其整合到最终答案方面存在困难。
当任务需要基于来源进行推理或使用工件时,通过率会下降
答案格式也很重要。要求精确序列、结构或构建层级输出的任务通过率较低:GPT‑Rosalind在数值型任务上仅达到14.8%,在序列或结构输出上达到24.0%。构建生成任务也较为脆弱,GPT‑Rosalind的通过率为27.3%,且相比GPT‑5.5改进甚微。这一差距部分可能反映了精确答案任务更严格的评分标准——计算或格式上的微小差异都可能导致回答低于通过阈值。尽管如此,这些失败在科学上具有重要意义,因为许多生命科学工作流程要求输出足够精确方可直接使用,例如在CRISPR/HDR供体设计或siRNA设计中。
模型还常常在尚未完全解决问题时就半途而废。在大约14%的任务中,模型尽管未达到精确通过阈值,却获得了相当高的评分标准分数。对于GPT‑Rosalind,有109个任务的通过率低于20%,同时却至少获得了50%的评分标准奖励。实际上,这意味着模型可能找到了相关证据或给出了看似合理的部分答案,但仍因遗漏关键约束、使用错误证据、计算不完整或未能将推理与科学上有用的最终决策联系起来而失败。
局限性与未来方向
LifeSciBench 是朝着衡量 AI 系统在生命科学研究中有多大用处迈出的一步,但它不能替代在真实研究环境中对模型进行研究。该基准侧重于反映行业常见工作流程的独立任务,同时将许多科学专业和任务类型排除在当前范围之外。真实的研究是迭代式的:科学家们收集新证据、修改假设、设计后续实验,并根据结果调整计划。
因此,在 LifeSciBench 上取得强劲表现应被解读为展示了真实任务级别的能力,而非直接衡量下游研究影响力。该基准基于行业工作流程构建,但并未涵盖真实研究项目的全部多样性或动态变化——在这些项目中,进展依赖于随时间推移而展开的各种因素。
下一步是将基准表现与真实研究工作流程中的部署研究联系起来。虽然 LifeSciBench 是与在职科学家共同开发的,但要衡量 AI 系统是否能加速发现或改善研发成果,还需要在真实研究环境中、在更长的时间跨度内、经过多轮推理、反馈和实验跟进,研究模型的使用情况和表现。
参与其中
帮助塑造下一代生命科学 AI 基准,或申请访问 GPT-Rosalind。
以贡献者身份加入申请访问