斯图加特大学自然语言处理研究所(IMS)开发了一个超全文本转语音模型ToucanTTS。ToucanTTS专为教学、训练和使用最先进的语音合成模型而设计。 是目前最多语言的 TTS 模型,支持超过7000种语言的语音合成,具备多说话人语音合成功能,能够模拟多种说话人的节奏、重音和语调。
ToucanTTS 提供了多种应用的交互演示,包括语音设计、风格克隆、多语言语音合成和人工编辑诗歌朗读,展示了其多功能性和强大性能。
该工具包基于 FastSpeech 2 架构,包含一些改进,如基于 PortaSpeech 的正则流 PostNet,确保了自然高质量的语音合成。ToucanTTS 还包含一个使用连接时序分类(CTC)和声谱图重建训练的对齐器,用于多种用途。
开源项目地址:https://github.com/DigitalPhonetics/IMS-Toucan
在线演示:https://huggingface.co/spaces/Flux9665/MassivelyMultilingualTTS
让我一起来听听语音演示吧!
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)