OpenAI推出GeneBench-Pro基准测试:评估AI模型生物学计算研究能力

2026-07-02 14:39:14   |   弘乐   |   355

7月2日,OpenAI今日宣布推出GeneBench-Pro基准测试,用于评估AI模型在生物学计算任务中的真实研究能力。与传统基准测试聚焦于知识记忆或流程执行不同,GeneBench-Pro更强调模型在面对模糊、不完整甚至带有干扰的数据环境时,能否独立判断、选择方法并得出支撑决策的结论。

该基准测试任务覆盖基因组学、定量生物学和转化医学等多个方向,共计包含129道题目,分布在10个大领域和21个子领域,涵盖统计遗传学、群体遗传学、功能基因组学、蛋白质组学等。每道题提供一份接近真实科研环境的数据集、简短的实验背景说明以及一个与后续决策相关的目标问题。模型需自行完成数据探索、方法选择并在过程中修正策略,最终给出答案。

GeneBench-Pro的核心设计亮点在于采用合成数据作为构建方式。传统基准测试若使用真实历史数据出题,往往存在多条合理分析路径,模型即使使用错误方法也可能碰巧答对。而合成数据让OpenAI完全掌握底层因果结构和数据生成过程,从而更准确地判断模型是否真正理解问题,而非走捷径。

目前,OpenAI已在Hugging Face开源10道代表性示例题,并提供交互界面供外部研究人员体验。后续将开放其中50道题给Artificial Analysis进行第三方独立评测,以验证不同模型在生物学计算场景中的实际表现。业内人士指出,随着AI在科研领域的作用从文献辅助走向实验设计与数据分析,相应的能力评估也需要从“答题正确率”转向“科研实操能力”,GeneBench-Pro的推出正是对这一趋势的响应。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

OpenAI推出GeneBench-Pro基准测试:评估AI模型生物学计算研究能力

2026-07-02 14:39:14 浏览量: 355 作者: 弘乐

7月2日,OpenAI今日宣布推出GeneBench-Pro基准测试,用于评估AI模型在生物学计算任务中的真实研究能力。与传统基准测试聚焦于知识记忆或流程执行不同,GeneBench-Pro更强调模型在面对模糊、不完整甚至带有干扰的数据环境时,能否独立判断、选择方法并得出支撑决策的结论。

该基准测试任务覆盖基因组学、定量生物学和转化医学等多个方向,共计包含129道题目,分布在10个大领域和21个子领域,涵盖统计遗传学、群体遗传学、功能基因组学、蛋白质组学等。每道题提供一份接近真实科研环境的数据集、简短的实验背景说明以及一个与后续决策相关的目标问题。模型需自行完成数据探索、方法选择并在过程中修正策略,最终给出答案。

GeneBench-Pro的核心设计亮点在于采用合成数据作为构建方式。传统基准测试若使用真实历史数据出题,往往存在多条合理分析路径,模型即使使用错误方法也可能碰巧答对。而合成数据让OpenAI完全掌握底层因果结构和数据生成过程,从而更准确地判断模型是否真正理解问题,而非走捷径。

目前,OpenAI已在Hugging Face开源10道代表性示例题,并提供交互界面供外部研究人员体验。后续将开放其中50道题给Artificial Analysis进行第三方独立评测,以验证不同模型在生物学计算场景中的实际表现。业内人士指出,随着AI在科研领域的作用从文献辅助走向实验设计与数据分析,相应的能力评估也需要从“答题正确率”转向“科研实操能力”,GeneBench-Pro的推出正是对这一趋势的响应。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号