OpenAI推出新一代编程模型GPT-5.1-Codex-Max,AI编程迈入“通宵工作”新时代
在谷歌发布Gemini 3 Pro仅仅数日后,人工智能领域再次迎来重要突破。11月20日,OpenAI正式推出其新一代编程模型GPT-5.1-Codex-Max,这款被业界称为“最强AI程序员”的模型不仅在多项基准测试中反超竞争对手,更以其革命性的“压缩”机制,首次实现了AI模型持续24小时以上的复杂编程任务执行能力。
在这场编程模型的巅峰对决中,Codex-Max交出了一份令人瞩目的成绩单。在衡量实际软件问题解决能力的SWE-Bench Verified测试中,Codex-Max以77.9%的准确率小幅领先Gemini 3 Pro的76.2%。而在Terminal-Bench 2.0测试中,其58.1%的准确率同样优于对手的54.2%。这些数据表明,OpenAI在新一轮的编程AI竞赛中已经重新夺回了技术领先地位。
Codex-Max最引人注目的突破在于其创新的“压缩”机制。这一架构升级使得模型在接近上下文窗口限制时,能够智能地保留关键信息并舍弃无关细节,从而实现了跨越数百万token的连续工作而不出现性能衰减。这项技术不仅让模型在内部测试中成功完成了持续超过24小时的多步骤代码重构和自主调试任务,还带来了约30%的token效率提升,显著降低了运算成本与延迟。
目前,这一新一代模型已深度集成到OpenAI自家的多个Codex开发环境中,包括官方命令行工具、内部代码审查系统以及各类交互式编程界面。开发者通过这些工具可以体验到模型强大的实时交互能力,无论是在可视化界面中进行强化学习训练,还是模拟复杂的光学定律,Codex-Max都展现出了前所未有的流畅性。
OpenAI透露,公司内部95%的工程师每周都会使用Codex系统,自采用以来,这些工程师平均多提交了约70%的拉取请求,开发效率得到了显著提升。
尽管Codex-Max具备了高度自主性,OpenAI仍强调其定位是编码“助手”而非人类程序员的替代品。为了确保透明度,模型会生成详细的终端日志和测试引用,方便开发者审查和验证所有生成代码。同时,模型默认在严格的沙盒环境中运行,并禁用了网络访问权限,充分体现了OpenAI对AI安全的一贯重视。
目前,GPT-5.1-Codex-Max尚未通过公共API对外开放,但官方表示即将向开发者社区开放这一能力。普通用户则需要订阅ChatGPT Plus、Pro或企业版等付费计划才能体验这一尖端技术。