让我们看看官方演示视频吧!

全身多模态运动生成由文本、语音或音乐控制,具有许多应用,包括视频生成和角色动画。然而,采用统一模型来完成具有不同条件模式的各种发电任务存在两个主要挑战:不同发电场景中的运动分布漂移以及具有不同粒度的混合条件的复杂优化。

此外,现有数据集中不一致的运动格式进一步阻碍了多模态运动的有效生成。在本文中,我们提出了ControlMM,这是一个统一的框架,以即插即用的方式控制全身M的超模态M的产生。

为了有效地学习和传递不同运动分布的运动知识,我们提出了ControlMM-Attn,用于静态和动态人体拓扑图的并行建模。

为了处理不同粒度的条件,ControlMM 采用了从粗到细的训练策略,包括用于语义生成的第 1 阶段文本到运动预训练和针对不同低级粒度条件的第 2 阶段多模态控制适应。

为了解决现有基准测试的不同运动格式限制,我们引入了ControlMM-Bench,这是第一个基于统一全身SMPL-X格式的公开可用的多模态全身人体运动生成基准测试。

大量实验表明,ControlMM在各种标准运动生成任务中都实现了最先进的性能。

项目地址:https://yxbian23.github.io/ControlMM/

Github地址:https://github.com/yxbian23/ControlMM

论文地址:http://arxiv.org/abs/2407.21136



微信扫描下方的二维码阅读本文

ControlMM,支持输入文字、语音、音乐,生成与内容相匹配的全身动作,多模态输入生成全身动作插图

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。