让我们看看官方演示音频吧!

SpeechGPT2 是一种端到端的语音对话语言模型,类似于 GPT-4o。

它可以感知和表达情感,并根据上下文和人类指令以各种风格提供适当的语音响应,例如说唱、戏剧、机器人、搞笑和耳语。

为了解决冗长的语音序列问题,SpeechGPT2 采用了超低比特率语音编解码器 (750bps),可以对语义和声学信息进行建模。它利用多输入多输出语言模型 (MIMO-LM)。

目前,SpeechGPT2仍然是一个回合制的对话系统。

项目地址:https://0nutation.github.io/SpeechGPT2.github.io/

Github地址:https://github.com/0nutation/SpeechGPT

论文地址:https://arxiv.org/abs/2401.13527



微信扫描下方的二维码阅读本文

SpeechGPT2,复旦团队推出的语音生成模型,可以让机器与人类的对话更加自然流畅。插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。