让我们看看官方演示音频吧!
SpeechGPT2 是一种端到端的语音对话语言模型,类似于 GPT-4o。
它可以感知和表达情感,并根据上下文和人类指令以各种风格提供适当的语音响应,例如说唱、戏剧、机器人、搞笑和耳语。
为了解决冗长的语音序列问题,SpeechGPT2 采用了超低比特率语音编解码器 (750bps),可以对语义和声学信息进行建模。它利用多输入多输出语言模型 (MIMO-LM)。
目前,SpeechGPT2仍然是一个回合制的对话系统。
项目地址:https://0nutation.github.io/SpeechGPT2.github.io/
Github地址:https://github.com/0nutation/SpeechGPT
论文地址:https://arxiv.org/abs/2401.13527
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)