OpenAI@OpenAI

2026-07-01 01:10·2天前

AI 摘要

我们正在引入GeneBench-Pro，一个研究级基准测试，用于衡量一种更难的AI进步：智能体在混乱的生物数据中导航、选择正确分析路径、并做出真实计算研究所需的判断决策的能力。

We're introducing GeneBench-Pro， a research-level benchmark for a harder kind of AI progress： how well agents can navigate messy biological data， choose the right analysis path， and make judgment calls that real computational research depends on. https://openai.com/index/introducing-genebench-pro/

智能体 OpenAI 数据/训练论文/研究

在 X 查看原推导出 Markdown

OpenAI@OpenAI · X

58导出 Markdown

2026-07-01 01:10·2天前

在 X 看原推· x.com

AI 摘要

智能体 OpenAI 数据/训练论文/研究

在 X 查看原推