美团开源“大一统”多模态模型LongCat-Next：让AI用同一种方式理解文字、图像与声音

2026-03-27 17:09:20 | 弘乐 | 838

3月27日，美团对外发布了一款原生多模态大模型LongCat-Next，并同步将其核心模型与离散分词器开源。该模型通过一种名为DiNA（离散原生自回归）的全新架构，将文字、图像和语音统一转化为同源的离散Token，使AI能够以“预测下一个Token”这一极简方式，同时处理多种模态的信息。

长期以来，多模态模型往往需要为图像、文本、音频分别设计不同的处理路径，这既增加了系统复杂度，也给训练和部署带来挑战。美团的思路则是将这些原本形式各异的信息“翻译”成同一种语言——离散Token。对模型而言，无论是阅读一段文字、分析一张图片，还是聆听一段语音，本质上都变成了同一件事：根据上下文，推测接下来最可能出现的Token是什么。

这种统一的处理范式，被美团称为DiNA离散原生自回归架构。它以68.5B总参数、3B激活参数的LongCat-Flash-Lite MoE模型为基座，通过纯粹的下一个Token预测（NTP）范式，将多种物理信号纳入同一个建模框架。实验数据显示，在这一架构下，模型的路由机制在训练过程中逐渐展现出模态专精化的趋势，激活的专家数量相比纯语言场景有所增加，表明模型正利用更大的容量来支撑多模态能力的扩展。

在性能表现上，LongCat-Next在视觉理解、图像生成、音频处理、智能体等多个维度均展现出与专用模型相当甚至领先的水平。例如，在OmniDocBench学术论文与复杂表格的理解评测中，该模型的成绩不仅超越了Qwen3-Omni，甚至超过了专用的视觉模型Qwen3-VL。消融实验进一步显示，其统一模型的理解损失仅比纯理解模型高出0.006，而生成损失反而比纯生成模型低0.02，说明统一建模并未以牺牲单项能力为代价。

在纯文本任务上，LongCat-Next的MMLU-Pro和C-Eval得分分别达到77.02和86.80，表明多模态训练并未削弱其语言核心能力。在工具调用与代码任务方面，该模型在τ²-Bench零售场景中的得分为73.68，大幅领先对比模型；在SWE-Bench代码能力测试中，也超越了同类模型。

音频领域同样体现了这一统一架构的优势。LongCat-Next在文本转语音任务中，中英文词错误率分别低至1.90和1.89；在音频理解评测MMAU和TUT2017上，均达到先进水平。更重要的是，该模型支持低延迟的并行文本语音生成与可定制的语音克隆，为更自然、更个性化的语音交互提供了技术基础。

美团此次将LongCat-Next模型及其离散分词器一并开源，意味着开发者可以基于这一框架，构建能够真正感知、理解并作用于真实世界的AI应用。通过将多模态统一为离散Token的自回归建模，这套方案在降低系统复杂度的同时，也为AI在视觉、语言、语音等多场景下的融合应用提供了一条更简洁的路径。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。