FunAudioLLM,这是一个旨在增强人类与大型语言模型之间自然语音交互的框架。
LLMs其核心是两款创新模型:
SenseVoice,用于高精度多语言语音识别、情感识别和音频事件检测;
CosyVoice,用于生成具有多语言、音色和情感控制的自然语音。
SenseVoice 提供极低的延迟并支持 50 多种语言,而 CosyVoice 在多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟踪功能方面表现出色。
通过将这些模型与 LLMs集成,FunAudioLLM 实现了语音翻译、情感语音聊天、交互式播客和富有表现力的有声读物旁白等应用,从而突破了语音交互技术的界限。
开源项目地址:https://github.com/FunAudioLLM
让我听听官方的演示语音吧!
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)