小米深夜发布三大自研MiMo-V2系列模型：旗舰Pro、全模态Omni、语音合成TTS齐亮相

2026-03-19 13:38:25 | 微观猎人 | 1544

3月19日凌晨，小米宣布推出三款自研大模型——MiMo-V2-Pro、MiMo-V2-Omni与MiMo-V2-TTS。目前，这些模型已登陆Xiaomi miclaw、MiMo Studio、金山办公、小米浏览器，并通过OpenClaw、OpenCode、KiloCode、Blackbox、Cline等框架接入，限时免费体验一周。

旗舰Pro：专为Agent场景打造，性能逼近顶尖闭源模型

Xiaomi MiMo-V2-Pro专为现实世界中高强度的Agent工作场景而打造。其拥有超过1T总参数量（42B激活参数），采用创新的混合注意力架构，并支持1M超长上下文长度。在Artificial Analysis排行榜上，MiMo-V2-Pro位列全球第八、国内第二。

在OpenClaw、Claude Code等智能体框架中，MiMo-V2-Pro能够在无人工干预条件下完成复杂工作流编排、长程规划与精准工具调用。整体使用体感已超越Claude Sonnet 4.6，逼近Opus 4.6，但模型API定价仅为其1/5。在OpenClaw标准评测榜单PinchBench、ClawEval上，MiMo-V2-Pro效果处于全球顶尖。内部工程师评测显示，其体感已接近Claude Opus 4.6，展现出更出色的系统设计与任务规划能力、更优雅的代码风格。

MiMo-V2-Pro模型现已正式开放API服务，支持1M上下文长度，并根据使用量分段计价：256K上下文以内输入$1/百万tokens、输出$3/百万tokens；1M上下文以内输入$2/百万tokens、输出$6/百万tokens。MiMo Claw模块已全面打通金山WebOffice生态，原生支持Word、Excel、PPT、PDF四大主流格式。

全模态Omni：音频视频图像统一理解，全球顶尖音频能力

Xiaomi MiMo-V2-Omni专为现实世界中复杂的多模态交互与执行场景而生，实现了从理解到操控的跨越。音频理解方面，支持从环境声分类、多说话人分离、音频-视觉联合推理，到超过10小时连续长音频的深度理解，综合表现超越Gemini 3 Pro，是当前最强的音频理解基座模型之一。图像理解方面，超越Claude Opus 4.6，逼近Gemini 3 Pro等顶尖闭源模型水平。视频理解方面，支持原生音视频联合输入，实现真正的多模态视频理解。

MiMo-V2-Omni模型现已正式开放API服务，支持256K上下文长度，输入$0.4/百万tokens，输出$2/百万tokens。同时，联合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent开发框架团队，为全球开发者提供为期一周的限时免费接口支持。

语音合成TTS：多方言、可唱歌，实现高表现力语音生成

Xiaomi MiMo-V2-TTS是小米自主研发的语音合成大模型，基于自研Audio Tokenizer和多码本语音-文本联合建模架构，经过上亿小时语音数据的大规模预训练与多维度强化学习，实现了高度可控的多粒度语音风格控制。

该模型支持从整体风格定调到局部情绪表达的精准调节，能在同一句话内完成语气转折和情感递变，真实还原人类说话的自然韵律。在唱歌时也能准确表达音高和节奏，自然且富有表现力。MiMo-V2-TTS支持多种方言的自然发音，包括东北话、四川话、河南话、粤语、台湾腔等，可进行角色扮演式的风格化演绎，实现高质量歌声合成——让同一个模型既能说、能演、也能唱。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。