Diffree，通过文字编辑图片，文本引导的无形状对象修复

让我们看看官方演示视频吧！

Diffree是通过文字编辑图片，类似手动选中区域后通过提示词inpaint的效果，文本引导的无形状对象修复。

Diffree 经过训练，可以根据原始图像和对象文本描述预测包含新对象的蒙版和图像。得益于OABench中自然场景中物体的广泛覆盖，Diffree可以在同一图像中添加各种物体，同时很好地匹配视觉上下文。此外，Diffree 可以迭代地将对象插入到单个图像中，同时使用生成的蒙版保持背景一致性。

为了实现高质量的文本引导对象添加，我们策划了一个名为对象添加基准（OABench）的合成数据集，该数据集由 74K 真实世界元组组成，包括原始图像、绘制图像、对象的蒙版图像和对象描述。请注意，对象添加可以看作是对象删除的逆过程。我们通过使用高级图像修复算法删除图像中的对象来构建 OABench。通过这种方式，我们可以获得包含对象的原始图像、删除对象的修复图像、对象蒙版和对象描述。

项目地址：https://opengvlab.github.io/Diffree/

Github地址：https://github.com/OpenGVLab/Diffree

论文地址：https://arxiv.org/pdf/2407.16982

在线演示：https://huggingface.co/spaces/LiruiZhao/Diffree

微信扫描下方的二维码阅读本文

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Diffree，通过文字编辑图片，文本引导的无形状对象修复

评论(0)

提示：请文明发言取消回复

每日推文

Diffree，通过文字编辑图片，文本引导的无形状对象修复

相关文章

Light-A-Video，无需训练即可实现改变视频的光照效果

JoyHallo，京东开源的普通话数字人项目，从效果看唇形表达流畅自然

Live_Portrait_Monitor，从摄像头获取的表情视频迁移到对应图片上变成新的视频

DreamMesh4D，可以从视频中推测出物体的建模，从而合成任意新视角的视频

评论(0)

提示：请文明发言 取消回复

标签云

每日推文

提示：请文明发言取消回复