美团开源“大一统”多模态模型LongCat-Next:让AI用同一种方式理解文字、图像与声音

2026-03-27 17:09:20   |   弘乐   |   827

3月27日,美团对外发布了一款原生多模态大模型LongCat-Next,并同步将其核心模型与离散分词器开源。该模型通过一种名为DiNA(离散原生自回归)的全新架构,将文字、图像和语音统一转化为同源的离散Token,使AI能够以“预测下一个Token”这一极简方式,同时处理多种模态的信息。

长期以来,多模态模型往往需要为图像、文本、音频分别设计不同的处理路径,这既增加了系统复杂度,也给训练和部署带来挑战。美团的思路则是将这些原本形式各异的信息“翻译”成同一种语言——离散Token。对模型而言,无论是阅读一段文字、分析一张图片,还是聆听一段语音,本质上都变成了同一件事:根据上下文,推测接下来最可能出现的Token是什么。

这种统一的处理范式,被美团称为DiNA离散原生自回归架构。它以68.5B总参数、3B激活参数的LongCat-Flash-Lite MoE模型为基座,通过纯粹的下一个Token预测(NTP)范式,将多种物理信号纳入同一个建模框架。实验数据显示,在这一架构下,模型的路由机制在训练过程中逐渐展现出模态专精化的趋势,激活的专家数量相比纯语言场景有所增加,表明模型正利用更大的容量来支撑多模态能力的扩展。

在性能表现上,LongCat-Next在视觉理解、图像生成、音频处理、智能体等多个维度均展现出与专用模型相当甚至领先的水平。例如,在OmniDocBench学术论文与复杂表格的理解评测中,该模型的成绩不仅超越了Qwen3-Omni,甚至超过了专用的视觉模型Qwen3-VL。消融实验进一步显示,其统一模型的理解损失仅比纯理解模型高出0.006,而生成损失反而比纯生成模型低0.02,说明统一建模并未以牺牲单项能力为代价。

在纯文本任务上,LongCat-Next的MMLU-Pro和C-Eval得分分别达到77.02和86.80,表明多模态训练并未削弱其语言核心能力。在工具调用与代码任务方面,该模型在τ²-Bench零售场景中的得分为73.68,大幅领先对比模型;在SWE-Bench代码能力测试中,也超越了同类模型。

音频领域同样体现了这一统一架构的优势。LongCat-Next在文本转语音任务中,中英文词错误率分别低至1.90和1.89;在音频理解评测MMAU和TUT2017上,均达到先进水平。更重要的是,该模型支持低延迟的并行文本语音生成与可定制的语音克隆,为更自然、更个性化的语音交互提供了技术基础。

美团此次将LongCat-Next模型及其离散分词器一并开源,意味着开发者可以基于这一框架,构建能够真正感知、理解并作用于真实世界的AI应用。通过将多模态统一为离散Token的自回归建模,这套方案在降低系统复杂度的同时,也为AI在视觉、语言、语音等多场景下的融合应用提供了一条更简洁的路径。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

美团开源“大一统”多模态模型LongCat-Next:让AI用同一种方式理解文字、图像与声音

2026-03-27 17:09:20 浏览量: 827 作者: 弘乐

3月27日,美团对外发布了一款原生多模态大模型LongCat-Next,并同步将其核心模型与离散分词器开源。该模型通过一种名为DiNA(离散原生自回归)的全新架构,将文字、图像和语音统一转化为同源的离散Token,使AI能够以“预测下一个Token”这一极简方式,同时处理多种模态的信息。

长期以来,多模态模型往往需要为图像、文本、音频分别设计不同的处理路径,这既增加了系统复杂度,也给训练和部署带来挑战。美团的思路则是将这些原本形式各异的信息“翻译”成同一种语言——离散Token。对模型而言,无论是阅读一段文字、分析一张图片,还是聆听一段语音,本质上都变成了同一件事:根据上下文,推测接下来最可能出现的Token是什么。

这种统一的处理范式,被美团称为DiNA离散原生自回归架构。它以68.5B总参数、3B激活参数的LongCat-Flash-Lite MoE模型为基座,通过纯粹的下一个Token预测(NTP)范式,将多种物理信号纳入同一个建模框架。实验数据显示,在这一架构下,模型的路由机制在训练过程中逐渐展现出模态专精化的趋势,激活的专家数量相比纯语言场景有所增加,表明模型正利用更大的容量来支撑多模态能力的扩展。

在性能表现上,LongCat-Next在视觉理解、图像生成、音频处理、智能体等多个维度均展现出与专用模型相当甚至领先的水平。例如,在OmniDocBench学术论文与复杂表格的理解评测中,该模型的成绩不仅超越了Qwen3-Omni,甚至超过了专用的视觉模型Qwen3-VL。消融实验进一步显示,其统一模型的理解损失仅比纯理解模型高出0.006,而生成损失反而比纯生成模型低0.02,说明统一建模并未以牺牲单项能力为代价。

在纯文本任务上,LongCat-Next的MMLU-Pro和C-Eval得分分别达到77.02和86.80,表明多模态训练并未削弱其语言核心能力。在工具调用与代码任务方面,该模型在τ²-Bench零售场景中的得分为73.68,大幅领先对比模型;在SWE-Bench代码能力测试中,也超越了同类模型。

音频领域同样体现了这一统一架构的优势。LongCat-Next在文本转语音任务中,中英文词错误率分别低至1.90和1.89;在音频理解评测MMAU和TUT2017上,均达到先进水平。更重要的是,该模型支持低延迟的并行文本语音生成与可定制的语音克隆,为更自然、更个性化的语音交互提供了技术基础。

美团此次将LongCat-Next模型及其离散分词器一并开源,意味着开发者可以基于这一框架,构建能够真正感知、理解并作用于真实世界的AI应用。通过将多模态统一为离散Token的自回归建模,这套方案在降低系统复杂度的同时,也为AI在视觉、语言、语音等多场景下的融合应用提供了一条更简洁的路径。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号