PlayDiffusion发布：开源扩散模型实现语音“局部修改”不留痕

33 0 0

PlayAI日前开源推出了一款全新语音编辑模型——PlayDiffusion，这是一种基于扩散模型的创新性工具，专为语音局部修改而设计。不同于传统的文本转语音系统需对整段音频重生成，PlayDiffusion支持直接对语音中的某一部分进行替换、删除或调整，而其他未修改部分将保持完全一致。这种方式不仅极大提高了效率，也让音频编辑进入“所听即所得”的新阶段。

用户只需提供目标文本（例如将音频中的“Neo”改为“Morpheus”），模型便可精准识别需替换位置，并智能调整节奏、语调以及说话人的音色，实现几乎无痕的自然融合。PlayDiffusion能够有效避免人工修改后的割裂感，听感上几乎无法察觉任何拼接痕迹。

得益于扩散模型架构带来的整体优化能力，在语音片段被大范围mask（遮盖）的极端场景中，它也可作为一款非自回归的高性能TTS(文本转语音)模型使用。相较传统TTS系统，PlayDiffusion的推理速度提升可达50倍，并具备更强的全局一致性，适合需要高效率、高质量语音合成的应用场景。

这项技术的推出对于播客制作、AI配音、内容纠错、剧本对话二次加工等场景意义重大。PlayDiffusion不只是一个音频编辑工具，更是语音生成领域向“精确、灵活、自然”转型的重要信号。在语音AI日益普及的当下，它或将成为下一个播客、视频内容创作的必备利器。

GitHub:https://github.com/playht/PlayDiffusion

模型下载:https://huggingface.co/PlayHT/PlayDiffusion

打赏赞

文章版权归作者所有，未经允许请勿转载。

OpenAI 携手推出首部 AI 动画电影《Critterz》，2026 年全球上映

阿力

9 0

研究显示：保守派对 AI 推荐的接受度高于自由派

阿力

3 0

MiniMax 发布全球首个开源大规模 AI 模型，技术突破引发行业关注

阿力

27 0

马斯克宣布 Grok V7基础模型完成预训练，具备原生多模态能力

阿力

9 0

OpenAI重磅升级ChatGPT Projects：深度研究+语音模式

阿力

49 0

百度首推双数字人互动直播间，文心大模型4.5T驱动多模态技术新突破

阿力

55 0

暂无评论

暂无评论...

PlayDiffusion发布：开源扩散模型实现语音“局部修改”不留痕

纽约时报与亚马逊签署首个生成式 AI 内容许可协议

Claude Code或将向Pro用户开放

相关文章

暂无评论

热门文章

热门标签

PlayDiffusion发布：开源扩散模型实现语音“局部修改”不留痕

相关文章：

​纽约时报与亚马逊签署首个生成式 AI 内容许可协议

Claude Code或将向Pro用户开放

相关文章

暂无评论

热门文章

热门标签

纽约时报与亚马逊签署首个生成式 AI 内容许可协议