OpenAI正式推出Realtime语音对话API,支持多语言切换与情感感知
8月29日,OpenAI宣布其“Realtime API”正式结束测试阶段,进入生产环境,面向企业和开发者全面开放。该API的核心是基于端到端语音架构的“gpt-realtime”模型,旨在帮助开发者构建更自然、高效的多模态语音助手,应用于客服、教育、个人效率等多个实际场景。
gpt-realtime模型采用创新的Speech-to-Speech技术,无需中间文本转换即可直接生成和处理语音,显著降低延迟并提升交互流畅度。该模型不仅能识别笑声等非语言信号,还支持在对话中无缝切换语言,并允许开发者定制语音风格,如“带法国口音的友好语调”或“语速较快的专业语气”。此外,OpenAI新增了“Cedar”和“Marin”两种语音选项,并对现有8种语音进行了全面优化。
在多项基准测试中,gpt-realtime表现出显著性能提升:Big Bench Audio准确率从65.6%提升至82.8%,MultiChallenge从20.6%升至30.5%,ComplexFuncBench则从49.7%提高到66.5%,显示出其在复杂指令理解和语音处理方面的强劲能力。
此次更新还增强了工具调用与外部服务集成能力。该模型可更精准地选择和使用外部工具,并通过会话初始协议(SIP)与远程媒体控制协议(MCP)连接第三方服务。可复用提示词功能支持开发者保存不同场景的配置,大幅提升开发效率。
Realtime API现已支持图像输入。用户可发送截图或照片,模型能够识别图中文字并回答与图像相关的问题,开发者可灵活控制模型对图像内容的访问权限。为优化成本控制,API新增了token使用上限设置和多轮对话精简处理功能,有效帮助管理长会话开销。
价格方面,gpt-realtime模型的音频输入token定价为每百万个32美元,输出为每百万个64美元,缓存输入token每百万个0.40美元,整体成本较此前降低约20%。
OpenAI强调,该API内置安全机制可自动终止违反政策的对话,但仍建议开发者根据自身需求强化安全措施。针对欧盟用户,API提供数据本地化存储选项,并制定特殊隐私规则以符合GDPR等法规要求。