Stable Audio Open是Stability AI开源的音频生成项目。

Stable Audio Open 从文本提示生成 44.1kHz 的可变长度(最多 47 秒)立体声音频。它由三个组件组成:一个自动编码器,用于将波形压缩为可管理的序列长度,一个用于文本调节的基于 T5 的文本嵌入,以及一个在自动编码器的潜在空间中运行的基于 Transformer 的扩散 (DiT) 模型。

让我们听听官方演示音频吧!

开源项目地址:https://stability-ai.github.io/stable-audio-open-demo/

模型地址:https://huggingface.co/stabilityai/stable-audio-open-1.0



微信扫描下方的二维码阅读本文

Stable Audio Open,Stability AI开源的音频生成项目插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。