StreamVC可以实时转换说话者的声音音色,并且可以保持源语音的内容和韵律,比如情感、语调等,支持在移动设备上运行。

特别适用于通话和视频会议等实时通信场景,还可以语音匿名化。

StreamVC在Pixel 7智能手机上实现了70.8毫秒的低推理延迟

在Diff-VCTK 、BNE-PPG-VC、VQMIVC、QuickVC等基线评估显示,StreamVC在自然度、可理解性、说话人相似度和f0一致性方面优秀。

项目地址:https://google-research.github.io/seanet/stream_vc/

让我们来听听官方演示音频吧!



微信扫描下方的二维码阅读本文

StreamVC,谷歌发布的实时低延迟语音转换项目插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。