英伟达推出开源ASR新标杆Parakeet TDT 0.6B 1秒转录60分钟音频

2025-05-07 16:46:18 | 嫣然 | 1656

5月7日，全球AI计算巨头英伟达（NVIDIA）近日宣布推出Parakeet TDT 0.6B，一款基于Transformer架构的先进自动语音识别（ASR）模型，凭借突破性的速度与精度登顶开源ASR领域。该模型已在Hugging Face平台全面开源，为实时转录、语音分析、音乐索引等企业级应用提供行业领先的解决方案。

Parakeet TDT 0.6B的核心优势在于其惊人的处理效率——仅需1秒即可完成60分钟音频的转录，速度达到主流开源ASR模型的50倍。在Hugging Face的Open ASR Leaderboard上，其字错率（WER）低至6.05%，刷新开源模型纪录，展现出接近商业级ASR系统的专业性能。

技术亮点：专为工业级场景优化

- 高效架构：基于6亿参数的编码-解码结构，支持TDT（Transducer Decoder Transformer）架构，结合量化与融合内核技术，显著提升推理效率。

- 英伟达硬件深度优化：依托TensorRT和FP8量化技术，实现实时率（RTF）高达3386，满足高并发、低延迟的工业需求。

- 多功能转录：除常规语音外，首创歌曲转歌词功能，为音乐平台和媒体内容索引提供新工具。

- 企业级特性：支持时间戳标记、数字标准化、标点恢复，可直接适配会议记录、医疗文档、法律转录等专业场景。

Parakeet TDT 0.6B的推出将大幅降低企业部署ASR技术的门槛，其开源属性更利于开发者生态的扩展。潜在应用包括：实时语音转写：会议、直播、在线教育等场景的即时字幕生成。智能客服与呼叫中心：高精度语音分析提升服务效率。媒体与娱乐：自动化歌词转录、音频内容检索。医疗与法律：结构化转录文档减少人工校对成本。

科技媒体MarktechPost指出，Parakeet TDT 0.6B的发布“重新定义了开源ASR的标杆”，其速度与精度的结合为行业提供了“前所未有的生产力工具”。英伟达强调，该模型将持续迭代，未来可能集成更多语言支持及跨模态能力。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。