DeepSeek新模型代号“MODEL1”代码曝光,技术架构或有革新

2026-01-21 16:53:32   |   探索者   |   993

1月21日,据报道,有开发者在DeepSeek的GitHub代码库中发现了涉及未知大模型标识符“MODEL1”的大量更新,横跨114个文件中共有28处提及。该标识符与现有已知模型“V32”(即DeepSeek-V3.2)并列出现,并显示出在关键技术设计上的显著差异。这一发现,结合此前关于DeepSeek将于2月中旬发布新一代旗舰模型DeepSeek-V4的传闻,进一步引发了业界对该公司新模型技术动向的关注。

代码分析显示,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面存在区别。这些技术差异暗示新模型可能在内存优化与计算效率上进行针对性架构设计,有望在保持强大性能的同时提升推理经济性。

此前,DeepSeek研究团队已陆续发表两篇技术论文,分别介绍了一种名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。行业观察者推测,这些最新研究成果有望被整合到正在开发的新模型中,从而在训练稳定性、长期记忆与推理连贯性等方面实现提升。

今年1月初,The Information曾报道称DeepSeek计划在农历新年期间(2月中旬)推出新一代旗舰模型DeepSeek-V4,并强调其在代码生成能力上将显著增强。此次“MODEL1”代码的曝光,为这一传闻提供了更具体的技术线索,也反映出DeepSeek在模型架构创新方面的持续探索。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

DeepSeek新模型代号“MODEL1”代码曝光,技术架构或有革新

2026-01-21 16:53:32 浏览量: 993 作者: 探索者

1月21日,据报道,有开发者在DeepSeek的GitHub代码库中发现了涉及未知大模型标识符“MODEL1”的大量更新,横跨114个文件中共有28处提及。该标识符与现有已知模型“V32”(即DeepSeek-V3.2)并列出现,并显示出在关键技术设计上的显著差异。这一发现,结合此前关于DeepSeek将于2月中旬发布新一代旗舰模型DeepSeek-V4的传闻,进一步引发了业界对该公司新模型技术动向的关注。

代码分析显示,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面存在区别。这些技术差异暗示新模型可能在内存优化与计算效率上进行针对性架构设计,有望在保持强大性能的同时提升推理经济性。

此前,DeepSeek研究团队已陆续发表两篇技术论文,分别介绍了一种名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。行业观察者推测,这些最新研究成果有望被整合到正在开发的新模型中,从而在训练稳定性、长期记忆与推理连贯性等方面实现提升。

今年1月初,The Information曾报道称DeepSeek计划在农历新年期间(2月中旬)推出新一代旗舰模型DeepSeek-V4,并强调其在代码生成能力上将显著增强。此次“MODEL1”代码的曝光,为这一传闻提供了更具体的技术线索,也反映出DeepSeek在模型架构创新方面的持续探索。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号