FunAudioLLM,这是一个旨在增强人类与大型语言模型之间自然语音交互的框架。

LLMs其核心是两款创新模型:

SenseVoice,用于高精度多语言语音识别、情感识别和音频事件检测;

CosyVoice,用于生成具有多语言、音色和情感控制的自然语音。

SenseVoice 提供极低的延迟并支持 50 多种语言,而 CosyVoice 在多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟踪功能方面表现出色。

通过将这些模型与 LLMs集成,FunAudioLLM 实现了语音翻译、情感语音聊天、交互式播客和富有表现力的有声读物旁白等应用,从而突破了语音交互技术的界限。

开源项目地址:https://github.com/FunAudioLLM

让我听听官方的演示语音吧!



微信扫描下方的二维码阅读本文

FunAudioLLM,阿里开源的TTS模型,人与人LLMs之间自然交互的语音理解和生成插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。