CogView3 是一种新颖的文本生成图像系统,采用了接力扩散的方式,将生成高分辨率图像的过程分解为多个阶段。通过接力的超分辨率过程,对低分辨率生成结果添加高斯噪声,并从这些带噪声的图像开始扩散。

我们的结果显示,CogView3 的表现优于 SDXL,获胜率达到 77.0%。此外,通过对扩散模型的逐步蒸馏,CogView3 能够在推理时间仅为 SDXL 1/10 的情况下,生成可比的结果。

CogView3,智谱开源的文本生成图像模型,推理时间仅为 SDXL 1/10插图

Github地址:https://github.com/THUDM/CogView3

论文地址:https://arxiv.org/abs/2403.05121



微信扫描下方的二维码阅读本文

CogView3,智谱开源的文本生成图像模型,推理时间仅为 SDXL 1/10插图1

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。