SpeechGPT2，复旦团队推出的语音生成模型，可以让机器与人类的对话更加自然流畅。

2024-07-26 开源项目

让我们看看官方演示音频吧！

SpeechGPT2 是一种端到端的语音对话语言模型，类似于 GPT-4o。

它可以感知和表达情感，并根据上下文和人类指令以各种风格提供适当的语音响应，例如说唱、戏剧、机器人、搞笑和耳语。

为了解决冗长的语音序列问题，SpeechGPT2 采用了超低比特率语音编解码器（750bps），可以对语义和声学信息进行建模。它利用多输入多输出语言模型（MIMO-LM）。

目前，SpeechGPT2仍然是一个回合制的对话系统。

项目地址：https://0nutation.github.io/SpeechGPT2.github.io/

Github地址：https://github.com/0nutation/SpeechGPT

论文地址：https://arxiv.org/abs/2401.13527

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

ai音频 SpeechGPT2

评论(0)

提示：请文明发言取消回复