OpenAI推出GeneBench-Pro基准测试：评估AI模型生物学计算研究能力

2026-07-02 14:39:14 | 弘乐 | 355

7月2日，OpenAI今日宣布推出GeneBench-Pro基准测试，用于评估AI模型在生物学计算任务中的真实研究能力。与传统基准测试聚焦于知识记忆或流程执行不同，GeneBench-Pro更强调模型在面对模糊、不完整甚至带有干扰的数据环境时，能否独立判断、选择方法并得出支撑决策的结论。

该基准测试任务覆盖基因组学、定量生物学和转化医学等多个方向，共计包含129道题目，分布在10个大领域和21个子领域，涵盖统计遗传学、群体遗传学、功能基因组学、蛋白质组学等。每道题提供一份接近真实科研环境的数据集、简短的实验背景说明以及一个与后续决策相关的目标问题。模型需自行完成数据探索、方法选择并在过程中修正策略，最终给出答案。

GeneBench-Pro的核心设计亮点在于采用合成数据作为构建方式。传统基准测试若使用真实历史数据出题，往往存在多条合理分析路径，模型即使使用错误方法也可能碰巧答对。而合成数据让OpenAI完全掌握底层因果结构和数据生成过程，从而更准确地判断模型是否真正理解问题，而非走捷径。

目前，OpenAI已在Hugging Face开源10道代表性示例题，并提供交互界面供外部研究人员体验。后续将开放其中50道题给Artificial Analysis进行第三方独立评测，以验证不同模型在生物学计算场景中的实际表现。业内人士指出，随着AI在科研领域的作用从文献辅助走向实验设计与数据分析，相应的能力评估也需要从“答题正确率”转向“科研实操能力”，GeneBench-Pro的推出正是对这一趋势的响应。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。