GeneBench-Pro 发布：AI 在基因组学与生物学中判断力的新基准

OpenAI 今日正式发布 GeneBench-Pro，一个面向计算生物学领域、专为评估 AI 系统在真实科研场景中高阶判断能力而设计的基准测试。该基准在原有 GeneBench 基础上大幅升级，覆盖基因组学、定量生物学与转化医学中更具挑战性的任务，旨在衡量模型处理模糊性、迭代修正分析路径以及做出关键科研决策的能力。

为何需要新的基准？

科研数据很少自带“说明书”。研究人员必须自行判断：某个模式是生物学信号还是噪声？现有数据能否支撑待解答的问题？每一个结果又该如何指导下一步行动？尽管当前 AI 模型已能熟练执行复杂的数据分析流程，但真实的科学研究还依赖于更高层次的判断——这正是 GeneBench-Pro 试图量化的核心能力。

OpenAI 指出，此前业界缺乏令人信服的评估手段来衡量这类“系统性判断”，包括处理歧义、修正假设、选择正确分析路径，以及判断结果是否已具备决策条件。这些能力难以形式化，因此也难以严格评估，但恰恰成为制约 AI 在科研领域整体表现的关键瓶颈。

“科研品味”的可量化评估

GeneBench-Pro 引入了一个独特概念——“科研品味”（research taste），将其定义为塑造整个分析过程的判断链条：数据能回答哪些问题？早期诊断结果应如何改变模型或估计目标？初始计划何时需要修订？

每个问题都会提供给模型一个真实且杂乱的数据集、简要的实验背景，以及一个与下游决策直接关联的目标估计量。模型必须主动探索数据、选择恰当的分析方法、进行迭代实验，并最终给出答案——整个过程模拟了科研中从数据到结论的完整推理路径。

数据构造与行业背景

在生物学领域，数据生成成本（如基因组测序）已大幅下降。一些研究人员甚至认为，当前科研的瓶颈已不再是样本采集，而是下游分析。GeneBench-Pro 正是为应对这一转变而设计——它要求 AI 不仅要会“跑流程”，更要会“做判断”。

该基准的推出，标志着 AI 在科学发现领域的评估标准从“能否执行任务”向“能否像科学家一样思考”迈进。对于从事计算生物学、精准医学以及 AI for Science 的团队而言，GeneBench-Pro 提供了一套可复用的、高难度的能力检验框架。

影响与展望

GeneBench-Pro 的发布不仅为模型开发者提供了更清晰的优化方向，也为科研社区如何信任和使用 AI 辅助工具设立了新的标尺。未来，具备高阶判断能力的 AI 有望在药物发现、基因功能解读、疾病机制探索等场景中发挥更大价值。

论文已同步公开，详细介绍了基准设计、数据集构建与评估方法。

GeneBench-Pro 发布：AI 在基因组学与生物学中的判断力迎来严苛新测试

为何需要新的基准？

“科研品味”的可量化评估

数据构造与行业背景

影响与展望

延伸阅读

相关资讯