让我们看看官方演示视频吧!
Tora,这是第一个面向轨迹的 DiT 框架,该框架同时集成了文本、视觉和轨迹条件以用于视频生成。具体来说,Tora 由一个轨迹提取器 (TE)、一个时空 DiT 和一个运动引导熔断器 (MGF) 组成。TE 使用 3D 视频压缩网络将任意轨迹编码为分层时空运动补丁。MGF 将运动贴片集成到 DiT 模块中,以生成跟随轨迹的一致视频。我们的设计与 DiT 的可扩展性无缝对齐,允许精确控制具有不同持续时间、宽高比和分辨率的视频内容的动态。
项目地址:https://ali-videoai.github.io/tora_video/
Github地址:https://github.com/ali-videoai/Tora
论文地址:https://arxiv.org/abs/2407.21705
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)