OpenAI正式推出Realtime语音对话API,支持多语言切换与情感感知

2025-08-29 09:55:44   |   微观猎人   |   354

8月29日,OpenAI宣布其“Realtime API”正式结束测试阶段,进入生产环境,面向企业和开发者全面开放。该API的核心是基于端到端语音架构的“gpt-realtime”模型,旨在帮助开发者构建更自然、高效的多模态语音助手,应用于客服、教育、个人效率等多个实际场景。

gpt-realtime模型采用创新的Speech-to-Speech技术,无需中间文本转换即可直接生成和处理语音,显著降低延迟并提升交互流畅度。该模型不仅能识别笑声等非语言信号,还支持在对话中无缝切换语言,并允许开发者定制语音风格,如“带法国口音的友好语调”或“语速较快的专业语气”。此外,OpenAI新增了“Cedar”和“Marin”两种语音选项,并对现有8种语音进行了全面优化。

在多项基准测试中,gpt-realtime表现出显著性能提升:Big Bench Audio准确率从65.6%提升至82.8%,MultiChallenge从20.6%升至30.5%,ComplexFuncBench则从49.7%提高到66.5%,显示出其在复杂指令理解和语音处理方面的强劲能力。

此次更新还增强了工具调用与外部服务集成能力。该模型可更精准地选择和使用外部工具,并通过会话初始协议(SIP)与远程媒体控制协议(MCP)连接第三方服务。可复用提示词功能支持开发者保存不同场景的配置,大幅提升开发效率。

Realtime API现已支持图像输入。用户可发送截图或照片,模型能够识别图中文字并回答与图像相关的问题,开发者可灵活控制模型对图像内容的访问权限。为优化成本控制,API新增了token使用上限设置和多轮对话精简处理功能,有效帮助管理长会话开销。

价格方面,gpt-realtime模型的音频输入token定价为每百万个32美元,输出为每百万个64美元,缓存输入token每百万个0.40美元,整体成本较此前降低约20%。

OpenAI强调,该API内置安全机制可自动终止违反政策的对话,但仍建议开发者根据自身需求强化安全措施。针对欧盟用户,API提供数据本地化存储选项,并制定特殊隐私规则以符合GDPR等法规要求。


特别提醒:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺,请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益,请及时发送相关信息至bireading@163.com,本站将会在48小时内处理完毕。

OpenAI正式推出Realtime语音对话API,支持多语言切换与情感感知

2025-08-29 09:55:44 浏览量: 354 作者: 微观猎人

8月29日,OpenAI宣布其“Realtime API”正式结束测试阶段,进入生产环境,面向企业和开发者全面开放。该API的核心是基于端到端语音架构的“gpt-realtime”模型,旨在帮助开发者构建更自然、高效的多模态语音助手,应用于客服、教育、个人效率等多个实际场景。

gpt-realtime模型采用创新的Speech-to-Speech技术,无需中间文本转换即可直接生成和处理语音,显著降低延迟并提升交互流畅度。该模型不仅能识别笑声等非语言信号,还支持在对话中无缝切换语言,并允许开发者定制语音风格,如“带法国口音的友好语调”或“语速较快的专业语气”。此外,OpenAI新增了“Cedar”和“Marin”两种语音选项,并对现有8种语音进行了全面优化。

在多项基准测试中,gpt-realtime表现出显著性能提升:Big Bench Audio准确率从65.6%提升至82.8%,MultiChallenge从20.6%升至30.5%,ComplexFuncBench则从49.7%提高到66.5%,显示出其在复杂指令理解和语音处理方面的强劲能力。

此次更新还增强了工具调用与外部服务集成能力。该模型可更精准地选择和使用外部工具,并通过会话初始协议(SIP)与远程媒体控制协议(MCP)连接第三方服务。可复用提示词功能支持开发者保存不同场景的配置,大幅提升开发效率。

Realtime API现已支持图像输入。用户可发送截图或照片,模型能够识别图中文字并回答与图像相关的问题,开发者可灵活控制模型对图像内容的访问权限。为优化成本控制,API新增了token使用上限设置和多轮对话精简处理功能,有效帮助管理长会话开销。

价格方面,gpt-realtime模型的音频输入token定价为每百万个32美元,输出为每百万个64美元,缓存输入token每百万个0.40美元,整体成本较此前降低约20%。

OpenAI强调,该API内置安全机制可自动终止违反政策的对话,但仍建议开发者根据自身需求强化安全措施。针对欧盟用户,API提供数据本地化存储选项,并制定特殊隐私规则以符合GDPR等法规要求。


,

Copyright ©2018 铋读网 All Rights Reserved.

京ICP备18051707号

京公网安备 11011302001633号