DeepSeek V3.2 正式发布:强化 Agent 能力
12月2日,据报道,深度学习领域的领先企业 DeepSeek 今日正式发布了其新一代大模型 DeepSeek V3.2 系列,包括面向日常使用的 DeepSeek-V3.2 和旨在突破推理极限的 DeepSeek-V3.2-Speciale。此次更新的亮点在于模型 Agent(智能体)能力的显著强化,以及将“思考推理”机制首次深度融入工具调用流程,标志着开源模型在复杂任务处理上迈出了重要一步。
V3.2:日常 Agent 的高效新标杆
DeepSeek-V3.2 定位为一款平衡推理能力与输出效率的通用模型,尤其适用于日常问答和通用 Agent 任务。官方数据显示,在公开的推理类 Benchmark 测试中,DeepSeek-V3.2 的表现已达到了 GPT-5 的水平,仅略微落后于 Google 最新的 Gemini-3.0-Pro。
更值得一提的是,相比于同类竞争产品 Kimi-K2-Thinking,V3.2 极大地降低了输出内容的长度,从而显著减少了用户的等待时间和计算开销,为用户带来了更为高效和流畅的使用体验。该模型已全面部署于 DeepSeek 的官方网页端、App 及 API 服务。
V3.2-Speciale:探索开源推理能力的边界
对于追求极致性能的研究者和开发者,DeepSeek 推出了长思考增强版的 DeepSeek-V3.2-Speciale。该模型不仅具备 V3.2 的所有优势,还融合了 DeepSeek-Math-V2 的定理证明能力,旨在将开源模型的推理能力推向全新高度。
V3.2-Speciale 在主流推理基准测试上的性能表现已能与 Gemini-3.0-Pro 媲美。其强大的逻辑与数学能力在国际顶级竞赛中得到充分验证:该模型一举斩获 IMO 2025、CMO 2025、ICPC World Finals 2025 和 IOI 2025 四项金牌,其中在 ICPC(国际大学生程序设计竞赛)和 IOI(国际信息学奥林匹克)中的成绩分别达到了人类选手的第二名和第十名水平,展现出比肩顶尖人类选手的卓越实力。
然而,由于 Speciale 模型在高度复杂任务上会消耗显著更多的 Tokens,成本更高,目前仅以临时 API 服务的形式开放至 12 月 15 日,专供社区评测与研究之用,且暂不支持工具调用。
“思考”与“工具”首次融合,Agent 能力大幅跃升
此次 DeepSeek-V3.2 最重要的技术突破在于,它打破了以往版本在思考模式下无法调用工具的局限,成为 DeepSeek 首个实现思考模式与工具调用深度融合的模型。为实现这一目标,DeepSeek 官方提出了一种大规模 Agent 训练数据合成方法,通过构造超过 85,000 条复杂指令的“难解答,易验证”强化学习任务,大幅提高了模型的泛化能力。这一创新使得 DeepSeek-V3.2 在智能体评测中达到了当前开源模型的最高水平,大幅缩小了与闭源模型之间的差距。此外,DeepSeek-V3.2 的思考模式还新增了对 Claude Code 的支持,进一步拓宽了开发者在代码和逻辑推理场景中的应用潜力。DeepSeek V3.2 系列的正式发布及其技术开源(HuggingFace 和 ModelScope 平台已同步),不仅为日常用户带来了更高效的 AI 体验,更为全球的研究社区提供了强大的基石,共同探索大模型能力的未来边界。