DeepSeek新模型代号“MODEL1”代码曝光,技术架构或有革新
1月21日,据报道,有开发者在DeepSeek的GitHub代码库中发现了涉及未知大模型标识符“MODEL1”的大量更新,横跨114个文件中共有28处提及。该标识符与现有已知模型“V32”(即DeepSeek-V3.2)并列出现,并显示出在关键技术设计上的显著差异。这一发现,结合此前关于DeepSeek将于2月中旬发布新一代旗舰模型DeepSeek-V4的传闻,进一步引发了业界对该公司新模型技术动向的关注。
代码分析显示,“MODEL1”与“V32”在键值(KV)缓存布局、稀疏性处理方式以及对FP8数据格式的解码支持等方面存在区别。这些技术差异暗示新模型可能在内存优化与计算效率上进行针对性架构设计,有望在保持强大性能的同时提升推理经济性。
此前,DeepSeek研究团队已陆续发表两篇技术论文,分别介绍了一种名为“优化残差连接(mHC)”的新训练方法,以及一种受生物学启发的“AI记忆模块(Engram)”。行业观察者推测,这些最新研究成果有望被整合到正在开发的新模型中,从而在训练稳定性、长期记忆与推理连贯性等方面实现提升。
今年1月初,The Information曾报道称DeepSeek计划在农历新年期间(2月中旬)推出新一代旗舰模型DeepSeek-V4,并强调其在代码生成能力上将显著增强。此次“MODEL1”代码的曝光,为这一传闻提供了更具体的技术线索,也反映出DeepSeek在模型架构创新方面的持续探索。