小米深夜发布三大自研MiMo-V2系列模型:旗舰Pro、全模态Omni、语音合成TTS齐亮相
3月19日凌晨,小米宣布推出三款自研大模型——MiMo-V2-Pro、MiMo-V2-Omni与MiMo-V2-TTS。目前,这些模型已登陆Xiaomi miclaw、MiMo Studio、金山办公、小米浏览器,并通过OpenClaw、OpenCode、KiloCode、Blackbox、Cline等框架接入,限时免费体验一周。
旗舰Pro:专为Agent场景打造,性能逼近顶尖闭源模型
Xiaomi MiMo-V2-Pro专为现实世界中高强度的Agent工作场景而打造。其拥有超过1T总参数量(42B激活参数),采用创新的混合注意力架构,并支持1M超长上下文长度。在Artificial Analysis排行榜上,MiMo-V2-Pro位列全球第八、国内第二。
在OpenClaw、Claude Code等智能体框架中,MiMo-V2-Pro能够在无人工干预条件下完成复杂工作流编排、长程规划与精准工具调用。整体使用体感已超越Claude Sonnet 4.6,逼近Opus 4.6,但模型API定价仅为其1/5。在OpenClaw标准评测榜单PinchBench、ClawEval上,MiMo-V2-Pro效果处于全球顶尖。内部工程师评测显示,其体感已接近Claude Opus 4.6,展现出更出色的系统设计与任务规划能力、更优雅的代码风格。
MiMo-V2-Pro模型现已正式开放API服务,支持1M上下文长度,并根据使用量分段计价:256K上下文以内输入$1/百万tokens、输出$3/百万tokens;1M上下文以内输入$2/百万tokens、输出$6/百万tokens。MiMo Claw模块已全面打通金山WebOffice生态,原生支持Word、Excel、PPT、PDF四大主流格式。
全模态Omni:音频视频图像统一理解,全球顶尖音频能力
Xiaomi MiMo-V2-Omni专为现实世界中复杂的多模态交互与执行场景而生,实现了从理解到操控的跨越。音频理解方面,支持从环境声分类、多说话人分离、音频-视觉联合推理,到超过10小时连续长音频的深度理解,综合表现超越Gemini 3 Pro,是当前最强的音频理解基座模型之一。图像理解方面,超越Claude Opus 4.6,逼近Gemini 3 Pro等顶尖闭源模型水平。视频理解方面,支持原生音视频联合输入,实现真正的多模态视频理解。
MiMo-V2-Omni模型现已正式开放API服务,支持256K上下文长度,输入$0.4/百万tokens,输出$2/百万tokens。同时,联合OpenClaw、OpenCode、KiloCode、Blackbox及Cline等五大Agent开发框架团队,为全球开发者提供为期一周的限时免费接口支持。
语音合成TTS:多方言、可唱歌,实现高表现力语音生成
Xiaomi MiMo-V2-TTS是小米自主研发的语音合成大模型,基于自研Audio Tokenizer和多码本语音-文本联合建模架构,经过上亿小时语音数据的大规模预训练与多维度强化学习,实现了高度可控的多粒度语音风格控制。
该模型支持从整体风格定调到局部情绪表达的精准调节,能在同一句话内完成语气转折和情感递变,真实还原人类说话的自然韵律。在唱歌时也能准确表达音高和节奏,自然且富有表现力。MiMo-V2-TTS支持多种方言的自然发音,包括东北话、四川话、河南话、粤语、台湾腔等,可进行角色扮演式的风格化演绎,实现高质量歌声合成——让同一个模型既能说、能演、也能唱。