Moshi，开源的实时对话的语音-文本端对端模型

Moshi 是一个语音文本基础模型和全双工口语对话框架。它使用 Mimi，这是一种最先进的流式神经音频编解码器。Mimi 以完全流式处理方式（延迟为 80 毫秒，帧大小）处理 24 kHz 音频，低至 12.5 Hz，带宽为 1.1 kbps，但性能优于现有的非流式处理编解码器，如 SpeechTokenizer（50 Hz，4kbps）或 SemantiCodec（50 Hz，1.3kbps）。

Github地址：https://github.com/kyutai-labs/moshi

模型下载地址：https://huggingface.co/collections/kyutai/moshi-v01-release-66eaeaf3302bef6bd9ad7acd

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Moshi，开源的实时对话的语音-文本端对端模型

评论(0)

提示：请文明发言取消回复

每日推文

Moshi，开源的实时对话的语音-文本端对端模型

相关文章

Qwen2.5-Omni，Qwen开源的端到端多模态大模型，无缝处理包括文本、图像、音频和视频在内的各种输入，同时支持流式的文本生成和自然语音合成输出

EzAudio，开源的AI音频生成模型，基于Diffusion Transformer 增强文本到音频的生成

BEN2，开源的背景去除模型，支持图片与视频去除背景

Fin-R1，开源的基于Qwen2.5的金融推理大模型，通过高质量的可验证金融问题微调训练

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复