Vidi,字节跳动推出的视频理解和编辑的大型多模态模型,适用于各种视频理解和编辑 (VUE) 场景,第一个版本侧重于时间检索 (TR),即识别输入视频中对应于给定文本查询的时间范围。

项目地址:https://bytedance.github.io/vidi-website/
Github地址:https://github.com/bytedance/vidi
论文地址:https://arxiv.org/pdf/2504.15681
微信扫描下方的二维码阅读本文
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
评论(0)