# OpenAI 推出 GeneBench-Pro 基准测试，评估 AI 模型生物学计算能力

- 来源：IT之家（RSS）
- 发布时间：2026-07-01 22:53
- AIHOT 分数：57
- AIHOT 链接：https://aihot.virxact.com/items/cmr27gufx05i3sl8zuuctq09q
- 原文链接：https://www.ithome.com/0/971/383.htm

## AI 摘要

OpenAI 发布 GeneBench-Pro 基准测试，评估 AI 模型在生物学计算中的真实研究能力。测试让模型面对模糊、不完整甚至带干扰的数据环境，自主完成数据探索、方法选择和策略修正。GeneBench-Pro 覆盖基因组学、定量生物学和转化医学等方向，共 129 道题，分布于 10 个大领域和 21 个子领域。为避免长流程评分偏差，OpenAI 采用合成数据构建题目。目前已在 Hugging Face 开源 10 道示例题并提供交互界面，后续将开放 50 道题给 Artificial Analysis 进行第三方独立评测。

## 正文

IT之家 7 月 1 日消息，OpenAI 宣布推出 GeneBench-Pro 基准测试，主要用于评估 AI 模型在生物学计算任务中的真实研究能力，重点衡量模型面对杂乱数据时的分析判断、方法选择，以及研究结果是否足以支撑后续决策。

据介绍，相比传统基准测试通常聚焦在“模型是否记住知识”或“能否按固定流程完成任务”，GeneBench-Pro 更强调在真实科研环境中的实用性，让模型面对“模糊、不完整、甚至带有干扰的数据环境”，令其判断分析得出结论。

具体来看，GeneBench-Pro 基准测试任务覆盖基因组学、定量生物学和转化医学等多个方向，总共包含 129 道题目，分布在 10 个大领域和 21 个子领域，涵盖范围包括统计遗传学、群体遗传学、功能基因组学、蛋白质组学等，每道题都会给模型一份接近真实科研环境的数据集，以及简短的实验背景说明和一个与后续决策相关的目标问题。模型需要自己完成数据探索、选择分析方法，并在过程中不断修正策略，最终给出答案。

为了避免传统长流程基准测试常见的评分偏差问题，OpenAI 在设计 GeneBench-Pro 时采用了合成数据（Synthetic Data）作为核心构建方式，这是因为如果直接用历史真实数据出题，往往会存在多条合理分析路径，导致模型即便利用错误方法也可能碰巧答对。

而利用合成数据，OpenAI 可以完全掌握底层因果结构和数据生成过程，从而更准确地判断模型是否真的理解问题，而不是走捷径。

目前，OpenAI 已经在 Hugging Face 开源了 10 道代表性的 GeneBench-Pro 示例题，并提供可交互界面供外部研究人员体验。后续官方会开放其中 50 道题给 Artificial Analysis 进行第三方独立评测，以验证不同模型在这一基准测试中的实际表现。
