美团开源“大一统”多模态模型LongCat-Next:让AI用同一种方式理解文字、图像与声音
3月27日,美团对外发布了一款原生多模态大模型LongCat-Next,并同步将其核心模型与离散分词器开源。该模型通过一种名为DiNA(离散原生自回归)的全新架构,将文字、图像和语音统一转化为同源的离散Token,使AI能够以“预测下一个Token”这一极简方式,同时处理多种模态的信息。
长期以来,多模态模型往往需要为图像、文本、音频分别设计不同的处理路径,这既增加了系统复杂度,也给训练和部署带来挑战。美团的思路则是将这些原本形式各异的信息“翻译”成同一种语言——离散Token。对模型而言,无论是阅读一段文字、分析一张图片,还是聆听一段语音,本质上都变成了同一件事:根据上下文,推测接下来最可能出现的Token是什么。
这种统一的处理范式,被美团称为DiNA离散原生自回归架构。它以68.5B总参数、3B激活参数的LongCat-Flash-Lite MoE模型为基座,通过纯粹的下一个Token预测(NTP)范式,将多种物理信号纳入同一个建模框架。实验数据显示,在这一架构下,模型的路由机制在训练过程中逐渐展现出模态专精化的趋势,激活的专家数量相比纯语言场景有所增加,表明模型正利用更大的容量来支撑多模态能力的扩展。
在性能表现上,LongCat-Next在视觉理解、图像生成、音频处理、智能体等多个维度均展现出与专用模型相当甚至领先的水平。例如,在OmniDocBench学术论文与复杂表格的理解评测中,该模型的成绩不仅超越了Qwen3-Omni,甚至超过了专用的视觉模型Qwen3-VL。消融实验进一步显示,其统一模型的理解损失仅比纯理解模型高出0.006,而生成损失反而比纯生成模型低0.02,说明统一建模并未以牺牲单项能力为代价。
在纯文本任务上,LongCat-Next的MMLU-Pro和C-Eval得分分别达到77.02和86.80,表明多模态训练并未削弱其语言核心能力。在工具调用与代码任务方面,该模型在τ²-Bench零售场景中的得分为73.68,大幅领先对比模型;在SWE-Bench代码能力测试中,也超越了同类模型。
音频领域同样体现了这一统一架构的优势。LongCat-Next在文本转语音任务中,中英文词错误率分别低至1.90和1.89;在音频理解评测MMAU和TUT2017上,均达到先进水平。更重要的是,该模型支持低延迟的并行文本语音生成与可定制的语音克隆,为更自然、更个性化的语音交互提供了技术基础。
美团此次将LongCat-Next模型及其离散分词器一并开源,意味着开发者可以基于这一框架,构建能够真正感知、理解并作用于真实世界的AI应用。通过将多模态统一为离散Token的自回归建模,这套方案在降低系统复杂度的同时,也为AI在视觉、语言、语音等多场景下的融合应用提供了一条更简洁的路径。