开发者现在可以通过全新的Real-timeAPI访问GPT-realtime。该模型旨在提供更自然、富有表现力的语音输出和更高质量的音频体验。作为此次发布的一部分,微软还推出了两种全新的语音选项——Marin和Cedar,旨在为用户带来逼真且清晰的语音合成效果。
微软在公告中强调了新模型的几项关键改进,包括增强的功能调用能力、更高的指令执行准确性,以及创新的图像输入支持。这项新功能允许用户在语音对话中加入图像并进行讨论,从而实现多模态交互,而无需依赖视频流。
除了技术层面的升级,微软还对定价模型进行了调整。与之前的gpt-4o-realtime预览版本相比,正式版的gpt-realtime价格降低了20%,成本将依据每百万代币(token)的使用量进行计算。
此次发布标志着微软正致力于为广大开发者和企业扩展其实时AI能力。通过将富有表现力的语音合成、高质量音频和多模态输入相结合,GPT-realtime有望为从
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...