超小的TTS模型 Kitten TTS：参数量仅为 1500 万

21 0 0

近日，KittenML团队在HuggingFace平台上发布了其新款开源文本转语音模型——KittenTTS。这一模型的设计目标是实现高质量的语音合成，同时保持轻量级和高效能，适合在各种设备上进行部署。KittenTTS的参数量仅为1500万，相比于其他同类模型，其体积小于25MB，特别适合资源有限的环境。

KittenTTS支持无GPU运行，这意味着用户可以在普通的CPU设备上进行语音合成，极大地降低了使用门槛。该模型还提供了多种高质量的语音选项，确保生成的语音更加自然流畅，适合用于各类应用场景。此外，KittenTTS的推理速度也得到了优化，可以实现实时语音合成，满足用户对速度的需求。

为了让用户快速上手，KittenML还提供了简单的安装和使用指南。用户只需通过pip命令安装相应的库，并通过简单的代码调用模型，即可生成高质量的语音。例如，用户只需输入文本“这个高质量的TTS模型无需GPU即可运行”，模型便会输出相应的音频文件，方便用户保存和使用。

KittenTTS目前处于开发者预览阶段，未来还将发布全面训练的模型权重，移动SDK以及网页版，进一步拓展应用范围。KittenML希望通过这一模型，推动文本转语音技术的普及，帮助更多开发者和企业在其项目中轻松实现语音合成功能。

KittenTTS的发布标志着AI语音合成技术向更广泛应用的又一步，期待这一模型在未来能够为更多用户带来便利和创新的体验。

项目：https://huggingface.co/KittenML/kitten-tts-nano-0.1