英伟达推出开源ASR新标杆Parakeet TDT 0.6B 1秒转录60分钟音频

2025-05-07 16:46:18   |   嫣然   |   1627

5月7日,全球AI计算巨头英伟达(NVIDIA)近日宣布推出Parakeet TDT 0.6B,一款基于Transformer架构的先进自动语音识别(ASR)模型,凭借突破性的速度与精度登顶开源ASR领域。该模型已在Hugging Face平台全面开源,为实时转录、语音分析、音乐索引等企业级应用提供行业领先的解决方案。  

Parakeet TDT 0.6B的核心优势在于其惊人的处理效率——仅需1秒即可完成60分钟音频的转录,速度达到主流开源ASR模型的50倍。在Hugging Face的Open ASR Leaderboard上,其字错率(WER)低至6.05%,刷新开源模型纪录,展现出接近商业级ASR系统的专业性能。  

 技术亮点:专为工业级场景优化  

- 高效架构:基于6亿参数的编码-解码结构,支持TDT(Transducer Decoder Transformer)架构,结合量化与融合内核技术,显著提升推理效率。  

- 英伟达硬件深度优化:依托TensorRT和FP8量化技术,实现实时率(RTF)高达3386,满足高并发、低延迟的工业需求。  

- 多功能转录:除常规语音外,首创歌曲转歌词功能,为音乐平台和媒体内容索引提供新工具。  

- 企业级特性:支持时间戳标记、数字标准化、标点恢复,可直接适配会议记录、医疗文档、法律转录等专业场景。  

 Parakeet TDT 0.6B的推出将大幅降低企业部署ASR技术的门槛,其开源属性更利于开发者生态的扩展。潜在应用包括:实时语音转写:会议、直播、在线教育等场景的即时字幕生成。智能客服与呼叫中心:高精度语音分析提升服务效率。媒体与娱乐:自动化歌词转录、音频内容检索。医疗与法律:结构化转录文档减少人工校对成本。  

科技媒体MarktechPost指出,Parakeet TDT 0.6B的发布“重新定义了开源ASR的标杆”,其速度与精度的结合为行业提供了“前所未有的生产力工具”。英伟达强调,该模型将持续迭代,未来可能集成更多语言支持及跨模态能力。

特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

英伟达推出开源ASR新标杆Parakeet TDT 0.6B 1秒转录60分钟音频

2025-05-07 16:46:18 浏览量: 1627 作者: 嫣然

5月7日,全球AI计算巨头英伟达(NVIDIA)近日宣布推出Parakeet TDT 0.6B,一款基于Transformer架构的先进自动语音识别(ASR)模型,凭借突破性的速度与精度登顶开源ASR领域。该模型已在Hugging Face平台全面开源,为实时转录、语音分析、音乐索引等企业级应用提供行业领先的解决方案。  

Parakeet TDT 0.6B的核心优势在于其惊人的处理效率——仅需1秒即可完成60分钟音频的转录,速度达到主流开源ASR模型的50倍。在Hugging Face的Open ASR Leaderboard上,其字错率(WER)低至6.05%,刷新开源模型纪录,展现出接近商业级ASR系统的专业性能。  

 技术亮点:专为工业级场景优化  

- 高效架构:基于6亿参数的编码-解码结构,支持TDT(Transducer Decoder Transformer)架构,结合量化与融合内核技术,显著提升推理效率。  

- 英伟达硬件深度优化:依托TensorRT和FP8量化技术,实现实时率(RTF)高达3386,满足高并发、低延迟的工业需求。  

- 多功能转录:除常规语音外,首创歌曲转歌词功能,为音乐平台和媒体内容索引提供新工具。  

- 企业级特性:支持时间戳标记、数字标准化、标点恢复,可直接适配会议记录、医疗文档、法律转录等专业场景。  

 Parakeet TDT 0.6B的推出将大幅降低企业部署ASR技术的门槛,其开源属性更利于开发者生态的扩展。潜在应用包括:实时语音转写:会议、直播、在线教育等场景的即时字幕生成。智能客服与呼叫中心:高精度语音分析提升服务效率。媒体与娱乐:自动化歌词转录、音频内容检索。医疗与法律:结构化转录文档减少人工校对成本。  

科技媒体MarktechPost指出,Parakeet TDT 0.6B的发布“重新定义了开源ASR的标杆”,其速度与精度的结合为行业提供了“前所未有的生产力工具”。英伟达强调,该模型将持续迭代,未来可能集成更多语言支持及跨模态能力。

,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号