Stable Audio Open，Stability AI开源的音频生成项目

Stable Audio Open是Stability AI开源的音频生成项目。

Stable Audio Open 从文本提示生成 44.1kHz 的可变长度（最多 47 秒）立体声音频。它由三个组件组成：一个自动编码器，用于将波形压缩为可管理的序列长度，一个用于文本调节的基于 T5 的文本嵌入，以及一个在自动编码器的潜在空间中运行的基于 Transformer 的扩散（DiT）模型。

让我们听听官方演示音频吧！

开源项目地址：https://stability-ai.github.io/stable-audio-open-demo/

模型地址：https://huggingface.co/stabilityai/stable-audio-open-1.0

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Stable Audio Open，Stability AI开源的音频生成项目

评论(0)

提示：请文明发言取消回复

每日推文

Stable Audio Open，Stability AI开源的音频生成项目

相关文章

FirePlace，对 3D 对象放置常识推理，可根据语言指令为要插入 3D 场景的新 3D 对象生成对象位置

开源版Manus，开源的Manus替代方案，开源的Agent智能体

AnchorCrafter，视频版ControlNet，可以用一个人物替换视频中的人物，并且能保持视频中人与物品交互的细节，适用于商品推广的场景

Light-A-Video，无需训练即可实现改变视频的光照效果

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复