ElevenLabs推出V3声音模型:支持70多种语言，可通过标签控制情感、语气

16 0 0

全球领先的AI语音技术公司ElevenLabs正式发布了其最新文本转语音模型Elevenv3（Alpha版），被誉为迄今最具表现力的AI语音模型。这一突破性进展不仅提升了语音合成的自然度和情感表达能力，还为内容创作者和开发者提供了更强大的工具，助力视频、音频书和多媒体工具的开发。

技术突破:更自然的对话与情感表达

Elevenv3引入了全新的架构，能够更深入地理解文本语义，显著提升语音的表现力。相比前代模型，v3支持70多种语言，并能处理多角色对话场景，模拟真实交谈中的语气变化、情感起伏甚至中断等自然特性。通过新增的音频标签功能，用户可以直接使用类似[sad]、[angry]、[whispers]或[laughs]的标签，精确控制语音的情感表达和非语言反应，例如笑声或叹息。这种细粒度的控制为创作者提供了前所未有的灵活性，特别适用于电影配音、音频书制作和游戏语音设计。

应用场景:赋能创作者与开发者

ElevenLabs特别强调v3模型为内容创作者和媒体工具开发者量身打造。无论是制作引人入胜的视频旁白、情感丰富的音频书，还是开发交互式媒体工具，v3的高表现力都能显著提升用户体验。此外，模型支持多达32个不同说话者的识别与区分，为多人对话场景提供了强大支持。这使得v3在教育、娱乐和企业级应用（如AI客服中心）中具有广泛的应用前景。

公测与优惠:开发者与创作者的福音

Elevenv3现已进入公开Alpha测试阶段，并于6月期间提供80%的折扣，鼓励用户体验其强大功能。ElevenLabs还宣布，v3的公共API即将推出，开发者可通过联系销售团队获得早期访问权限。对于实时和对话场景，ElevenLabs建议暂时继续使用v2.5Turbo或Flash模型，v3的实时版本也在开发中，预计将进一步拓展其应用范围。

行业影响:引领AI语音新潮流

随着AI语音技术的快速发展，ElevenLabsv3的推出无疑加剧了行业竞争。此前，ElevenLabs凭借其高精度语音克隆和文本转语音技术，已在音频书、配音和AI客服领域占据重要地位。v3的发布进一步巩固了其领先优势，尤其是在与OpenAIWhisperv3、GoogleGemini2.0等模型的竞争中，v3在多语言支持和情感表达上的表现尤为突出。X平台上已有用户称v3为“地表最强文本转语音模型”，足见其影响力。

ElevenLabs表示，v3只是其技术路线图中的一步，未来将持续优化模型性能，推出低延迟版本以支持实时应用，并进一步扩展语言支持和场景适配。AIbase认为，v3的发布不仅标志着ElevenLabs在AI语音领域的技术突破，也为内容创作和人机交互开启了全新可能。随着技术的普及，AI语音有望成为数字内容创作的核心驱动力。

AIbase将持续关注ElevenLabs及AI语音技术的最新进展，为您带来前沿资讯。

打赏赞