T2I-Adapter论文精读

less than 1 minute read

Published:

Overview

如下图所示,文字很难为图像合成提供结构指导,简单的语言描述没办法精确控制图像的空间结构。而如果加入草图或者其他指导图片则可以更精确控制图像的空间结构。

因此想设计一个adapter,用于从不同类型的条件中,例如草图、边缘、关键点、颜色、深度和语义分割,提取指导特征来控制图像生成。

Design

如下图所示,adapter的核心是四个特征提取块,每个特征提取块由一个卷积层加两个残差块构成。这四个特征提取块由三个下采样块连接用以改变分辨率。每个特征提取块拥有一个输出,用于直接加到 Stable Diffusion 中UNet对应分辨率的中间层。

adapter的输入是用于控制图像生成的不同类型的条件中,例如草图、边缘等。对于每一种类型的条件输入配置一个不同的adapter。不同adapter的输出结果加权求和之后送入UNet中。

Training

不同类型控制条件对应的adapter在其相应的数据集下进行fine-tune。例如语义分割就在COCO-Stuff数据集下。

Non-uniform time step sampling

在DDIM的均匀采样过程中,在中后期添加adapter进行引导效果不大,而只有在前期影响较大。因此在采样过程中,不使用uniform时间采样而使用3次时间采样,$t=(1-(\frac{t}{T})^3)*T$。

在连续时空条件下的情况如何处理/以及能否只在某些特定时间加入引导,在其他时间加入引导是否会影响性能 在非UNet结构的扩散模型中用类似的方法能否迁移