OpenAI正式推出Realtime语音对话API，支持多语言切换与情感感知

2025-08-29 09:55:44 | 微观猎人 | 387

8月29日，OpenAI宣布其“Realtime API”正式结束测试阶段，进入生产环境，面向企业和开发者全面开放。该API的核心是基于端到端语音架构的“gpt-realtime”模型，旨在帮助开发者构建更自然、高效的多模态语音助手，应用于客服、教育、个人效率等多个实际场景。

gpt-realtime模型采用创新的Speech-to-Speech技术，无需中间文本转换即可直接生成和处理语音，显著降低延迟并提升交互流畅度。该模型不仅能识别笑声等非语言信号，还支持在对话中无缝切换语言，并允许开发者定制语音风格，如“带法国口音的友好语调”或“语速较快的专业语气”。此外，OpenAI新增了“Cedar”和“Marin”两种语音选项，并对现有8种语音进行了全面优化。

在多项基准测试中，gpt-realtime表现出显著性能提升：Big Bench Audio准确率从65.6%提升至82.8%，MultiChallenge从20.6%升至30.5%，ComplexFuncBench则从49.7%提高到66.5%，显示出其在复杂指令理解和语音处理方面的强劲能力。

此次更新还增强了工具调用与外部服务集成能力。该模型可更精准地选择和使用外部工具，并通过会话初始协议（SIP）与远程媒体控制协议（MCP）连接第三方服务。可复用提示词功能支持开发者保存不同场景的配置，大幅提升开发效率。

Realtime API现已支持图像输入。用户可发送截图或照片，模型能够识别图中文字并回答与图像相关的问题，开发者可灵活控制模型对图像内容的访问权限。为优化成本控制，API新增了token使用上限设置和多轮对话精简处理功能，有效帮助管理长会话开销。

价格方面，gpt-realtime模型的音频输入token定价为每百万个32美元，输出为每百万个64美元，缓存输入token每百万个0.40美元，整体成本较此前降低约20%。

OpenAI强调，该API内置安全机制可自动终止违反政策的对话，但仍建议开发者根据自身需求强化安全措施。针对欧盟用户，API提供数据本地化存储选项，并制定特殊隐私规则以符合GDPR等法规要求。

特别提醒：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其原创性以及文中陈述文字和内容未经本站证实，对本文以及其中全部或者部分内容、文字、图片等内容的真实性、完整性、及时性本站不作任何保证或承诺，请自行核实相关内容。本站不承担此类作品侵权行为的直接责任及连带责任。如若本网有任何内容侵犯您的权益，请及时发送相关信息至bireading@163.com，本站将会在48小时内处理完毕。