FoleyCrafter 是一个基于文本的视频到音频生成框架,可以生成语义相关且与输入视频时间同步的高质量音频。

FoleyCrafter 建立在预先训练的文本到音频 (T2A) 生成器之上,确保高质量的音频合成。它包括两个主要组件:语义适配器(S.A.)和时间控制器,后者包括时间戳检测器(T.D.)和时间适配器(T.A.)。语义适配器和时间控制器都是可训练的模块,它们将视频作为输入来合成音频,并带有音频监督以进行优化。T2A 型号保持固定,以保持其既定的高质量音频合成能力。

项目介绍:https://foleycrafter.github.io/

项目在线体验:https://huggingface.co/spaces/ymzhang319/FoleyCrafter

让我们来看看官方视频演示吧!



微信扫描下方的二维码阅读本文

FoleyCrafter,给Sora,VGG等生成的无声视频添加逼真和同步的声音插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。