Show-o,统一视觉多模态模型,支持文本和图片的原生输入和输出,同时具有理解图片和生成图片的能力。

Show-o 概述:输入数据(无论其模态如何)都会被标记化,然后提示到格式化的输入序列中。Show-o 通过全神贯注在(离散)去噪扩散建模中用因果注意力和图像词元自回归地处理文本词元,然后生成所需的输出。具体来说,Show-o 能够处理图像描述、视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。

Show-o,统一视觉多模态模型,支持文本和图片的原生输入和输出插图

项目地址:https://showlab.github.io/Show-o/

Github地址:https://github.com/showlab/Show-o

论文地址:https://arxiv.org/abs/2408.12528



微信扫描下方的二维码阅读本文

Show-o,统一视觉多模态模型,支持文本和图片的原生输入和输出插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。