JetBrains推出业界首个AI编程基准测试平台
11月17日,知名IDE开发商JetBrains于11月17日宣布,正式推出Developer Productivity AI Arena(DPAI Arena)基准测试平台,并计划将其贡献给Linux Foundation,以建立中立的行业评估标准。
DPAI Arena被定位为业界首款开放式、多语言、多框架的基准测试平台,其核心目标是衡量AI编码智能体在真实软件工程任务中的实际成效。该平台采用灵活的基于路径的架构,能够对各种工作流进行公平且可重现的比较,涵盖代码修补、缺陷修复、PR审查、测试生成、静态分析等多个开发场景。
JetBrains指出,当前业界的基准测试存在明显局限:依赖的数据集已经过时,技术覆盖范围狭窄,且过度聚焦于“问题到补丁”这一单一工作流。随着AI编码工具的快速迭代,行业亟需一个中立且基于标准的框架,来准确评估这些工具对开发效率的真实提升。
DPAI Arena的推出正是为了填补这一空白。该平台首次将可衡量的工作效率标准引入AI辅助软件开发领域。作为平台的首个基准,Spring Benchmark确立了技术标准,不仅实现了数据集创建准则,还详细规定了支持的评估格式和通用规则。同时,它提供了解耦的基础架构,允许任何人采用自己的数据集并重用该架构进行独立评估。