Zonos,开源的TTS模型,允许对说话速度、音高变化、音频质量以及快乐、恐惧、悲伤和愤怒等情绪进行精细控制。

Github地址:https://github.com/Zyphra/Zonos

详细与演示:https://www.52wts.cn/5839.html

chatTTS是一款强大的对话式文本转语音模型,它有中英混读和多说话人的能力,可以配置为中文,英文,日文等六种语言。

Github地址:https://github.com/2noise/ChatTTS

详细与演示:https://www.52wts.cn/1673.html

ToucanTTS,开源的文本转语音,支持超过7000种语言的语音合成,具备多说话人语音合成功能,能够模拟多种说话人的节奏、重音和语调。

Github地址:https://github.com/DigitalPhonetics/IMS-Toucan

详细与演示:https://www.52wts.cn/2062.html

Fish Speech,完美支持中英日语言的开源TTS模型,语音处理接近人类水平,模型使用约十五万小时三语数据训练,对中文支持非常的完美。

Github地址:https://github.com/fishaudio/fish-speech

详细与演示:https://www.52wts.cn/2106.html

FunAudioLLM,阿里开源的TTS模型,人与人LLMs之间自然交互的语音理解和生成。

Github地址:https://github.com/FunAudioLLM

详细与演示:https://www.52wts.cn/2174.html

Parler-TTS 是一种轻量级文本转语音 (TTS) 模型,可以按照给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。

Github地址:https://github.com/huggingface/parler-tts

详细与演示:https://www.52wts.cn/2742.html

F5-TTS,上交大/剑桥开源的TTS,零样本声音克隆,推理实时率达到0.15,支持控制语音速度,支持无缝在不同语言/方言间平滑过渡。

Github地址:https://github.com/SWivid/F5-TTS

详细与演示:https://www.52wts.cn/3828.html

MaskGCT,零样本文本转语音,完全非自回归的 TTS 模型,支持跨语言翻译配音、语音克隆、语言转换、情感控制等。

Github地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct

详细与演示:https://www.52wts.cn/4133.html

Smol TTS,开源的基于 LLaMa 架构构建的TTS 模型,零样本语音克隆。

Github地址:https://github.com/edwko/OuteTTS

详细与演示:https://www.52wts.cn/4332.html

Kokoro,开源的TTS模型,8200 万个参数,在 <100 小时的音频上进行训练,支持多种语言。

Github地址:https://github.com/hexgrad/kokoro

详细与演示:https://www.52wts.cn/5495.html

OuteTTS,开源的文本到语音模型,支持六种语言,英语(en)、日语(jp)、韩语(ko)、中文(zh)、法语(fr)和德语(de),通过添加标点符号支持,显著增强了语音合成的自然性和连贯性,提高了生成语音的流畅性和清晰度。

Github地址:https://github.com/edwko/OuteTTS

详细与演示:https://www.52wts.cn/5554.html

Llasa,开源的零样本语音克隆和 TTS 模型,可以仅从输入文本生成语音,或者利用给定的语音提示生成语音。

模型下载地址:https://huggingface.co/HKUSTAudio/Llasa-1B

详细与演示:https://www.52wts.cn/5668.html



微信扫描下方的二维码阅读本文

开源文本到语音系列,开源TTS系列,Text-to-Speech系列插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。