微软推出首批自研AI模型:语音生成进入“秒级”时代
8月29日,微软人工智能部门于本周四正式发布其首批两款自研AI模型——MAI-Voice-1语音合成模型与MAI-1-preview通用语言模型。这一发布被视为微软在AI领域从依赖合作伙伴走向自主创新的重要标志,两款模型分别瞄准语音生成与智能文本交互两大核心场景。
MAI-Voice-1展现出卓越的语音生成效率,仅需单块GPU即可在1秒内生成长达1分钟的高质量音频,极大降低了语音合成任务的计算门槛和响应时间。该模型目前已投入实际应用,例如在“Copilot Daily”功能中担任AI新闻主播,为用户播报当日热点,还可生成自然流畅的播客风格对话内容,辅助用户理解各类话题。普通用户现可通过Copilot Labs平台亲身体验该模型,在输入文本内容的同时,还可自由调整语音的音色、语调和风格,实现高度个性化的语音输出。
同步推出的MAI-1-preview是一款经大规模训练的语言模型,其训练过程动用了约1.5万块英伟达H100 GPU。该模型专注于指令理解与实用回应生成,被定位为Copilot未来文本功能演进的关键技术基础。微软AI负责人穆斯塔法·苏莱曼曾在访谈中透露,公司自研模型的核心目标并非企业级应用,而是打造真正优质的消费者产品,充分利用微软在消费者行为数据和广告业务中积累的信息优势,构建更贴近用户需求的“伙伴型”AI。
据悉,MAI-1-preview将逐步应用于Copilot助手的特定文本场景中,在一定程度上减少对OpenAI大型语言模型的依赖。该模型已在AI基准测试平台LMArena开放公共测试,用于进一步优化其指令遵循与多轮对话能力。
微软AI团队在官方博文中表示,“我们拥有清晰的长期规划,未来将持续推动自研模型的技术突破。我们坚信,通过一系列面向不同场景的专业化模型组合,将为用户创造真正差异化的价值。”