字节火山引擎正式发布豆包编程模型:成本降低62.7%
11月11日,火山引擎正式发布豆包编程模型(Doubao-Seed-Code):专为 Agentic 编程任务深度优化,在 SWE-Bench-Verified 官方榜单中刷新 SOTA,并兼容 Anthropic API 等主流开发环境。
同时,此次发布的编程模型价格进一步降低。官方表示,豆包编程模型综合使用成本相比业界平均水平降低62.7%,国内最低价。目前,该模型已通过火山方舟平台全量开放 API。面向开发需求量大的个人开发者,并且公布订阅制套餐包“Coding Plan”,“用得多省得多,首月低至9.9元。”官方提到。
Doubao-Seed-Code 面向 Agentic 编程任务进行了深度优化,在 Terminal Bench、SWE-Bench-Verified-Openhands、Multi-SWE-Bench-Flash-Openhands 等多项权威基准测试中表现优异,领先国内同类模型。
Doubao-Seed-Code 支持 256K 长上下文,可以轻松处理长代码文件、多模块依赖等复杂场景,更好支持端到端自主编程,在全栈开发中表现良好,前端能力尤为突出。同时,作为国内首个支持视觉理解能力的编程模型,它可参照 UI 设计稿、截图或手绘草图生成代码,或对生成页面进行视觉比对,自主完成样式修复和 Bug 修复,大幅提升前端开发效率。
面向开发者的实际需求,Doubao-Seed-Code 还针对 Anthropic API、TRAE 等主流开发生态做了兼容。对于使用 Claude Code 的团队,只需几行代码即可切换到 Doubao-Seed-Code,享受更高性价比的服务。
该系统内构建了覆盖十万容器镜像的庞大训练数据集,具备万级并发沙盒会话的能力,可以对上千卡的单个 RL 任务实现高效训练。基于这套系统,模型无需蒸馏或标注的冷启动数据,完全依靠端到端强化学习训练即可练就顶尖的 Agent 能力,优化路径更简洁高效。
训练结果显示,模型在 Multi-SWE-Bench 和 SWE-Bench-Verified 两个数据集上的表现稳定上升,展现出良好的泛化能力。在 SWE-Bench 基准测试中,仅依赖 RL 训练的 Doubao-Seed-Code 模型就可达到最优水平,表明纯强化学习在真实编程场景下具备潜力。
值得关注的是,与 TRAE 开发环境深度结合后,Doubao-Seed-Code 在 SWE-Bench Verified 榜单中达到 78.80% 的成绩,取得了新的 SOTA,充分验证了模型与工具深度适配后的协同效应。此外,官方表示,TRAE 中国版正式接入豆包编程模型。为了更好地支持企业级AI开发场景,TRAE(CN)企业版今日正式公测。