Zonos,开源的TTS模型,允许对说话速度、音高变化、音频质量以及快乐、恐惧、悲伤和愤怒等情绪进行精细控制。
Github地址:https://github.com/Zyphra/Zonos
详细与演示:https://www.52wts.cn/5839.html
chatTTS是一款强大的对话式文本转语音模型,它有中英混读和多说话人的能力,可以配置为中文,英文,日文等六种语言。
Github地址:https://github.com/2noise/ChatTTS
详细与演示:https://www.52wts.cn/1673.html
ToucanTTS,开源的文本转语音,支持超过7000种语言的语音合成,具备多说话人语音合成功能,能够模拟多种说话人的节奏、重音和语调。
Github地址:https://github.com/DigitalPhonetics/IMS-Toucan
详细与演示:https://www.52wts.cn/2062.html
Fish Speech,完美支持中英日语言的开源TTS模型,语音处理接近人类水平,模型使用约十五万小时三语数据训练,对中文支持非常的完美。
Github地址:https://github.com/fishaudio/fish-speech
详细与演示:https://www.52wts.cn/2106.html
FunAudioLLM,阿里开源的TTS模型,人与人LLMs之间自然交互的语音理解和生成。
Github地址:https://github.com/FunAudioLLM
详细与演示:https://www.52wts.cn/2174.html
Parler-TTS 是一种轻量级文本转语音 (TTS) 模型,可以按照给定说话者的风格(性别、音调、说话风格等)生成高质量、自然的语音。
Github地址:https://github.com/huggingface/parler-tts
详细与演示:https://www.52wts.cn/2742.html
F5-TTS,上交大/剑桥开源的TTS,零样本声音克隆,推理实时率达到0.15,支持控制语音速度,支持无缝在不同语言/方言间平滑过渡。
Github地址:https://github.com/SWivid/F5-TTS
详细与演示:https://www.52wts.cn/3828.html
MaskGCT,零样本文本转语音,完全非自回归的 TTS 模型,支持跨语言翻译配音、语音克隆、语言转换、情感控制等。
Github地址:https://github.com/open-mmlab/Amphion/tree/main/models/tts/maskgct
详细与演示:https://www.52wts.cn/4133.html
Smol TTS,开源的基于 LLaMa 架构构建的TTS 模型,零样本语音克隆。
Github地址:https://github.com/edwko/OuteTTS
详细与演示:https://www.52wts.cn/4332.html
Kokoro,开源的TTS模型,8200 万个参数,在 <100 小时的音频上进行训练,支持多种语言。
Github地址:https://github.com/hexgrad/kokoro
详细与演示:https://www.52wts.cn/5495.html
OuteTTS,开源的文本到语音模型,支持六种语言,英语(en)、日语(jp)、韩语(ko)、中文(zh)、法语(fr)和德语(de),通过添加标点符号支持,显著增强了语音合成的自然性和连贯性,提高了生成语音的流畅性和清晰度。
Github地址:https://github.com/edwko/OuteTTS
详细与演示:https://www.52wts.cn/5554.html
Llasa,开源的零样本语音克隆和 TTS 模型,可以仅从输入文本生成语音,或者利用给定的语音提示生成语音。
模型下载地址:https://huggingface.co/HKUSTAudio/Llasa-1B
详细与演示:https://www.52wts.cn/5668.html
微信扫描下方的二维码阅读本文
评论(0)