Show-o，统一视觉多模态模型，支持文本和图片的原生输入和输出

Show-o，统一视觉多模态模型，支持文本和图片的原生输入和输出，同时具有理解图片和生成图片的能力。

Show-o 概述：输入数据（无论其模态如何）都会被标记化，然后提示到格式化的输入序列中。Show-o 通过全神贯注在（离散）去噪扩散建模中用因果注意力和图像词元自回归地处理文本词元，然后生成所需的输出。具体来说，Show-o 能够处理图像描述、视觉问答、文本到图像生成、文本引导修复/外推和混合模态生成。

项目地址：https://showlab.github.io/Show-o/

Github地址：https://github.com/showlab/Show-o

论文地址：https://arxiv.org/abs/2408.12528

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Show-o，统一视觉多模态模型，支持文本和图片的原生输入和输出

评论(0)

提示：请文明发言取消回复

每日推文

Show-o，统一视觉多模态模型，支持文本和图片的原生输入和输出

相关文章

LLaMA-Omni，与大型语言模型的无缝语音交互，实现GPT-4o级别的语音能力

Stability AI发布Stable Diffusion 3.5 Large，8B参数，支持图里写英文

Pixtral 12B，Mistral推出的第一个多模态开源模型

Mistral Small 3，MistralAI开源的模型，Llama 3.3 70b或Qwen 32B竞争

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复