FunAudioLLM，阿里开源的TTS模型，人与人LLMs之间自然交互的语音理解和生成

FunAudioLLM，这是一个旨在增强人类与大型语言模型之间自然语音交互的框架。

LLMs其核心是两款创新模型：

SenseVoice，用于高精度多语言语音识别、情感识别和音频事件检测;

CosyVoice，用于生成具有多语言、音色和情感控制的自然语音。

SenseVoice 提供极低的延迟并支持 50 多种语言，而 CosyVoice 在多语言语音生成、零样本语音生成、跨语言语音克隆和指令跟踪功能方面表现出色。

通过将这些模型与 LLMs集成，FunAudioLLM 实现了语音翻译、情感语音聊天、交互式播客和富有表现力的有声读物旁白等应用，从而突破了语音交互技术的界限。

让我听听官方的演示语音吧！

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

评论(0)