CogView3，智谱开源的文本生成图像模型，推理时间仅为 SDXL 1/10

2024-10-01 开源模型

CogView3 是一种新颖的文本生成图像系统，采用了接力扩散的方式，将生成高分辨率图像的过程分解为多个阶段。通过接力的超分辨率过程，对低分辨率生成结果添加高斯噪声，并从这些带噪声的图像开始扩散。

我们的结果显示，CogView3 的表现优于 SDXL，获胜率达到 77.0%。此外，通过对扩散模型的逐步蒸馏，CogView3 能够在推理时间仅为 SDXL 1/10 的情况下，生成可比的结果。

CogView3，智谱开源的文本生成图像模型，推理时间仅为 SDXL 1/10插图

Github地址：https://github.com/THUDM/CogView3

论文地址：https://arxiv.org/abs/2403.05121

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

CogView3 开源模型

评论(0)

提示：请文明发言取消回复