让我们看看官方演示视频吧!

VILA 是一种视觉语言模型 (VLM),使用大规模交错图像文本数据进行预训练,可实现视频理解和多图像理解功能。

LongVILA,这是一种针对长上下文视觉语言模型的全栈解决方案,包括系统、模型训练和数据集开发。在系统方面,我们引入了第一个长上下文多模态序列并行(MM-SP)系统,该系统可实现长训练和推理,从而在256个GPU上实现2M上下文长度训练。

LongVILA,VILA升级版,长上下文的视觉语言模型插图

Github地址:https://github.com/NVlabs/VILA

论文地址:https://arxiv.org/abs/2312.07533



微信扫描下方的二维码阅读本文

LongVILA,VILA升级版,长上下文的视觉语言模型插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。