Moshi 是一个语音文本基础模型和全双工口语对话框架。它使用 Mimi,这是一种最先进的流式神经音频编解码器。Mimi 以完全流式处理方式(延迟为 80 毫秒,帧大小)处理 24 kHz 音频,低至 12.5 Hz,带宽为 1.1 kbps,但性能优于现有的非流式处理编解码器,如 SpeechTokenizer(50 Hz,4kbps)或 SemantiCodec(50 Hz,1.3kbps)。

Github地址:https://github.com/kyutai-labs/moshi

模型下载地址:https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd



微信扫描下方的二维码阅读本文

Moshi,开源的实时对话的语音-文本端对端模型插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。