Gemini2.5版本发布原生音频功能，AI 对话更加自然

6 0 0

在最近的开发更新中，谷歌更新了Gemini2.5版本，标志着AI音频对话和生成技术的重大进步。Gemini2.5是一个多模态的AI系统，能够原生理解和生成文本、图像、音频、视频和代码，提升了用户与AI的互动体验。

Gemini2.5的实时音频对话功能使得人机交流变得更加自然。人类的对话往往涉及语调、口音以及非语言的声音（如笑声），这些细节都能通过Gemini的音频生成技术得到体现。其低延迟的特点使得交流流畅自然，用户可以通过自然语言调整对话的风格，如选择不同的口音和语气，甚至可以选择耳语的方式进行交流。

Table of Contents

实时音频对话

人类的对话丰富而细腻，表达的意义不仅依赖于说出的话，还体现在语气、口音及非语言的声音，如笑声。Gemini2.5旨在通过音频实现高效、实时的交流，其音频对话功能包括:

自然对话:提供高质量的语音交互，展现出适当的表现力和韵律，使得对话流畅自然，延迟极低。
风格控制:用户可以通过自然语言提示，自定义对话的语调、口音及情感表达，甚至可以进行耳语。
工具集成:在对话过程中，Gemini2.5可以调用工具和函数，实时获取来自Google搜索等源的信息，增强对话的实用性。
对话上下文感知:该系统能够识别并忽略背景噪声和无关对话，确保在适当时机作出响应。
音视频理解:支持实时音频和视频流，能够与用户讨论视频内容或屏幕共享的信息。
多语言支持:支持24种以上的语言，能够在同一对话中灵活切换语言。
情感对话:根据用户的语调做出反应，理解不同表达方式的情感差异。
高级思维对话:凭借推理能力，提升对话的连贯性与智能性，特别在复杂问题上表现更佳。

可控文本转语音技术

Gemini2.5的文本转语音（TTS）技术迎来了新突破，用户不仅可以生成自然的语音输出，还能对音频进行前所未有的控制。用户可以生成从短语到长篇叙述的内容，精确掌控风格、语调、情感和表现，所有这些均可通过自然语言提示进行调整。

动态表现:可对文本进行生动的朗读，适用于诗歌、新闻播报及故事讲述，支持特定情感和口音的演绎。
速度与发音控制:用户可以控制语音的速度，并确保特定词汇的准确发音。
多说话人对话生成:能够根据文本输入生成双人对话音频，使内容更具吸引力。
多语言音频生成:轻松生成多语言音频内容，支持24种语言。

在Gemini2.5的开发过程中，谷歌对潜在风险进行了全面评估，并采取了相应的缓解策略。所有音频输出均嵌入了名为SynthID的水印技术，以确保AI生成音频的透明性和可识别性。

Gemini2.5为开发者提供了丰富的原生音频功能，允许他们通过GoogleAIStudio或VertexAI的GeminiAPI，构建更具互动性的应用。开发者可以在GoogleAIStudio的流选项卡中试用Gemini2.5Flash预览的原生音频对话，或选择可控的文本转语音生成，推动公告、故事、播客及视频游戏等应用的音频创新。

打赏赞

文章版权归作者所有，未经允许请勿转载。

谷歌AI搜索模式重磅扩展！新增5种语言支持，全球用户迎来智能搜索新体验

阿力

7 0

谷歌Gemini网页版对话搜索全面上线，移动端逐步推出，重塑AI搜索新体验

阿力

5 0

甲骨文与谷歌云联手，Gemini 先进AI模型即将来袭

阿力

11 0

Midjourney 推出新功能，标准订阅用户可生成高清视频

阿力

10 0

掘金发布MCP，AI生成前端项目一键部署

阿力

9 0

苹果Xcode重磅集成Claude Sonnet4:iOS开发迎来AI革命时代

阿力

9 0

暂无评论

暂无评论...

Gemini2.5版本发布原生音频功能，AI 对话更加自然

实时音频对话

可控文本转语音技术

亚马逊计划在北卡罗来纳州投资100亿美元扩展AI基础设施

微软推出开源 AI 助手 Athena，提升 Teams 工作效率

相关文章

暂无评论

热门文章

热门标签

Gemini2.5版本发布原生音频功能，AI 对话更加自然

实时音频对话

可控文本转语音技术

相关文章：

亚马逊计划在北卡罗来纳州投资100亿美元扩展AI基础设施

微软推出开源 AI 助手 Athena，提升 Teams 工作效率

相关文章

暂无评论

热门文章

热门标签