OpenAI推出GeneBench-Pro基准测试:评估AI模型生物学计算研究能力
7月2日,OpenAI今日宣布推出GeneBench-Pro基准测试,用于评估AI模型在生物学计算任务中的真实研究能力。与传统基准测试聚焦于知识记忆或流程执行不同,GeneBench-Pro更强调模型在面对模糊、不完整甚至带有干扰的数据环境时,能否独立判断、选择方法并得出支撑决策的结论。
该基准测试任务覆盖基因组学、定量生物学和转化医学等多个方向,共计包含129道题目,分布在10个大领域和21个子领域,涵盖统计遗传学、群体遗传学、功能基因组学、蛋白质组学等。每道题提供一份接近真实科研环境的数据集、简短的实验背景说明以及一个与后续决策相关的目标问题。模型需自行完成数据探索、方法选择并在过程中修正策略,最终给出答案。
GeneBench-Pro的核心设计亮点在于采用合成数据作为构建方式。传统基准测试若使用真实历史数据出题,往往存在多条合理分析路径,模型即使使用错误方法也可能碰巧答对。而合成数据让OpenAI完全掌握底层因果结构和数据生成过程,从而更准确地判断模型是否真正理解问题,而非走捷径。
目前,OpenAI已在Hugging Face开源10道代表性示例题,并提供交互界面供外部研究人员体验。后续将开放其中50道题给Artificial Analysis进行第三方独立评测,以验证不同模型在生物学计算场景中的实际表现。业内人士指出,随着AI在科研领域的作用从文献辅助走向实验设计与数据分析,相应的能力评估也需要从“答题正确率”转向“科研实操能力”,GeneBench-Pro的推出正是对这一趋势的响应。