IndexTTS,B站开源的文本到语音(TTS)模型,可以使用拼音纠正汉字的发音,并通过标点符号在任何位置控制暂停。

在中文场景中,我们引入了一种角色pinyin混合建模方法,这允许快速纠正错误发音的字符。

Indextts结合了构象体调节编码器和基于BIGVGAN2的语音码解码器,这可以提高训练稳定性,语音音色相似性和声音质量。

IndexTTS,B站开源的文本到语音(TTS)模型,可以使用拼音纠正汉字的发音,并通过标点符号在任何位置控制暂停插图

项目地址:https://index-tts.github.io/

Github地址:https://github.com/index-tts/index-tts

论文地址:https://arxiv.org/abs/2502.05512



微信扫描下方的二维码阅读本文

IndexTTS,B站开源的文本到语音(TTS)模型,可以使用拼音纠正汉字的发音,并通过标点符号在任何位置控制暂停插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。