微软推出首批自研AI模型：语音生成进入“秒级”时代

2025-08-29 10:00:27 | 嫣然 | 303

8月29日，微软人工智能部门于本周四正式发布其首批两款自研AI模型——MAI-Voice-1语音合成模型与MAI-1-preview通用语言模型。这一发布被视为微软在AI领域从依赖合作伙伴走向自主创新的重要标志，两款模型分别瞄准语音生成与智能文本交互两大核心场景。

MAI-Voice-1展现出卓越的语音生成效率，仅需单块GPU即可在1秒内生成长达1分钟的高质量音频，极大降低了语音合成任务的计算门槛和响应时间。该模型目前已投入实际应用，例如在“Copilot Daily”功能中担任AI新闻主播，为用户播报当日热点，还可生成自然流畅的播客风格对话内容，辅助用户理解各类话题。普通用户现可通过Copilot Labs平台亲身体验该模型，在输入文本内容的同时，还可自由调整语音的音色、语调和风格，实现高度个性化的语音输出。

同步推出的MAI-1-preview是一款经大规模训练的语言模型，其训练过程动用了约1.5万块英伟达H100 GPU。该模型专注于指令理解与实用回应生成，被定位为Copilot未来文本功能演进的关键技术基础。微软AI负责人穆斯塔法·苏莱曼曾在访谈中透露，公司自研模型的核心目标并非企业级应用，而是打造真正优质的消费者产品，充分利用微软在消费者行为数据和广告业务中积累的信息优势，构建更贴近用户需求的“伙伴型”AI。

据悉，MAI-1-preview将逐步应用于Copilot助手的特定文本场景中，在一定程度上减少对OpenAI大型语言模型的依赖。该模型已在AI基准测试平台LMArena开放公共测试，用于进一步优化其指令遵循与多轮对话能力。

微软AI团队在官方博文中表示，“我们拥有清晰的长期规划，未来将持续推动自研模型的技术突破。我们坚信，通过一系列面向不同场景的专业化模型组合，将为用户创造真正差异化的价值。”

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。