接设计单的网站,网站图片一般多大,免费wap自助建站火星建站,自己电脑做服务器网站吗DiffBIR: 基于生成扩散先验的盲图像恢复 论文链接#xff1a;https://arxiv.org/abs/2308.15070 
项目链接#xff1a;https://github.com/XPixelGroup/DiffBIR 
Abstract 
我们提出了DiffBIR#xff0c;它利用预训练的文本到图像扩散模型来解决盲图像恢复问题。我们的框架采…DiffBIR: 基于生成扩散先验的盲图像恢复 论文链接https://arxiv.org/abs/2308.15070 
项目链接https://github.com/XPixelGroup/DiffBIR 
Abstract 
我们提出了DiffBIR它利用预训练的文本到图像扩散模型来解决盲图像恢复问题。我们的框架采用两阶段pipeline。在第一阶段我们在多种退化中预训练恢复模块以提高现实场景中的泛化能力。第二阶段利用潜在扩散模型的生成能力实现真实的图像恢复。具体来说我们引入了一个injective modulation 子网络——LAControlNet进行微调而预训练的Stable Diffusion是为了保持其生成能力。最后我们引入了一个可控模块通过在推理过程的去噪过程中引入潜在图像引导使用户能够平衡质量和保真度。大量的实验已经证明了它在合成和现实世界数据集上的盲图像超分辨率和盲人脸恢复任务方面优于最先进的方法。 
1 Introduction 
图像恢复的目的是从低质量的观测中重建出高质量的图像。典型的图像恢复问题如图像去噪、去模糊和超分辨率通常是在受限的环境下定义的其中退化过程是简单和已知的(例如高斯噪声和双三次降采样)。他们成功地推广了大量优秀的恢复算法[14;65;36;7;58;63;8]但天生具有有限的泛化能力。为了处理现实世界中退化的图像盲图像恢复(BIR)成为一个很有前途的方向。BIR的最终目标是在具有一般退化的一般图像上实现真实的图像重建。BIR不仅扩展了经典图像修复任务的边界而且具有广泛的实际应用领域(如旧照片/胶片修复)。 
BIR的研究还处于初级阶段需要对其现状进行更多的解释。根据问题设置的不同现有的BIR方法大致可以分为三个研究方向即盲图像超分辨率(BSR)、zero-shot图像恢复(ZIR)和盲人脸恢复(BFR)。它们都取得了显著的进步但也有明显的局限性。BSR最初是为了解决现实世界的超分辨率问题而提出的其中低分辨率图像包含未知的退化。根据最近的BSR综述调查[37]最流行的解决方案可能是BSRGAN[64]和Real-ESRGAN[55]。他们将BSR表述为一个有监督的大规模退化过拟合问题。为了模拟真实的退化分别提出了一种退化混洗策略和高阶退化建模。然后是对抗性损失[31;17;56;41;49]以端到端方式学习重建过程。它们确实消除了一般图像上的大部分退化但无法生成逼真的细节。此外它们的退化设置仅限于×4/ × 8超分辨率这对于BIR问题来说是不完整的。第二组ZIR是一个新出现的方向。代表作品有DDRM[26]、DDNM[57]、GDP[16]。它们将强大的扩散模型作为附加先验因此比基于GAN的方法具有更大的生成能力。通过适当的退化假设它们可以在经典IR任务中实现令人印象深刻的zero-shot恢复。但是ZIR的问题设置与BIR不一致。他们的方法只能处理明确定义的退化(线性或非线性)但不能很好地推广到未知的退化。换句话说它们可以在一般图像上实现逼真的重建但不能在一般退化图像上实现。第三类是BFR主要研究人脸修复。最先进的方法可以参考CodeFormer[68]和VQFR[18]。它们具有与BSR方法相似的pipeline但在退化模型和生成网络上有所不同。由于图像空间较小这些方法可以利用VQGAN和Transformer在真实世界的人脸图像上取得令人惊讶的好结果。然而BFR只是BIR的一个子域。它通常假设固定的输入大小和有限的图像空间因此不能应用于一般图像。由以上分析可知现有的BIR方法无法在(2)一般图像上实现(3)一般退化的同时实现(1)真实图像的重建。因此我们希望一种新的BIR方法来克服这些限制。 
在这项工作中我们提出了DiffBIR将以往工作的优点整合到一个统一的框架中。具体来说DiffBIR 
采用了一种扩展的退化模型可以推广到现实世界的退化利用训练良好的Stable Diffusion作为先验来提高生成能力引入了一个两阶段的pipeline来保证真实和保真。 
我们也做了专门的设计来实现这些策略。首先为了提高泛化能力我们将BSR的多种退化类型和BFR的广泛退化范围结合起来建立了一个更实用的退化模型。这有助于DiffBIR处理各种极端退化情况。其次为了利用Stable Diffusion我们引入了一个injective modulation 子网络——LAControlNet可以针对我们的特定任务进行优化。与ZIR类似预训练的Stable Diffusion在微调期间是固定的以保持其生成能力。第三为了实现真实和逼真的图像重建我们首先应用恢复模块(即SwinIR)来减少大多数退化然后微调生成模块(即LAControlNet)来生成新的纹理。如果没有这个pipeline模型可能会产生过度平滑的结果(删除生成模块)或生成错误的细节(删除恢复模块)。此外为了满足用户多样化的需求我们进一步提出了一个可控模块可以实现第一阶段的恢复结果和第二阶段的生成结果之间的连续过渡效果。这是通过在去噪过程中引入潜在图像引导而无需重新训练来实现的。适用于潜在图像距离的梯度尺度可以调整以权衡真实感和保真度。 
设置了上述组件所提出的DiffBIR在合成和现实数据集上的BSR和BFR任务中都表现出优异的性能。值得注意的是DiffBIR在一般图像恢复方面实现了很大的性能飞跃优于现有的BSR和BFR方法(如BSRGAN[64]、Real-ESRGAN[55]、CodeFormer[68]等)。我们可以观察到这些方法在某些方面的差异。对于复杂的纹理BSR方法往往会产生不真实的细节而DiffBIR方法可以产生视觉上令人愉悦的结果参见图1(第一行)。对于语义区域BSR方法倾向于实现过度平滑的效果而DiffBIR可以重建语义细节参见图1(第二行)。对于微小的条纹BSR方法倾向于删除这些细节而DiffBIR方法仍然可以增强它们的结构参见图1(第三行)。此外DiffBIR能够处理极端的降级并重新生成逼真而生动的语义内容参见图1(最后一行)。这些都表明DiffBIR成功地打破了现有BSR方法的瓶颈。对于盲人面部恢复DiffBIR在处理一些困难的情况下表现出优势例如在被其他物体遮挡的面部区域保持良好的保真度(见图1 (b)第一行)在面部区域之外成功恢复(见图1 (b)第一行。综上所述我们的DiffBIR首次能够在统一的框架内获得具有竞争力的BSR和BFR任务性能。广泛而深入的实验证明了我们提出的DiffBIR优于现有的最先进的BSR和BFR方法。 2 Related Work 
盲图像超分辨率。BSR的最新进展[37]探索了更复杂的退化模型来近似真实世界的退化。特别是BSRGAN[64]旨在基于随机混洗策略合成更实用的退化Real-ESRGAN[55]利用“高阶”退化建模。它们都利用GAN [17;41;49个;31;56]学习复杂退化下的图像重建过程。SwinIR-GAN[36]使用新的主流骨干Swin Transformer[38]来实现更好的图像恢复性能。FeMaSR[6]将SR表述为基于预训练的VQ-GAN的特征匹配问题[15]。尽管BSR方法可以有效地消除现实世界中的退化但它们并不擅长生成真实的细节。此外他们通常假设低质量图像输入被一些特定的尺度(例如×4/× 8)下采样这对于BIR问题是有限的。 
Zero-shot图像恢复。ZIR旨在通过以无监督的方式利用预训练的先验网络来实现图像恢复。早期工作[2;10;40;44]主要集中于在预训练的GAN的潜在空间中搜索潜在编码。该领域的最新进展包括使用去噪扩散概率模型[21;51;52;46;45;48]。DDRM[26]引入了一种基于SVD的方法来有效地处理线性图像恢复任务。同时DDNM[57]从理论上分析了向量的范围-零空间分解并基于零空间设计了采样方案。受分类器引导[12]的启发GDP[16]引入了一种更方便有效的引导方法可以在推理过程中对退化模型进行估计。虽然这些工作促进了zero-shot图像恢复技术的进步但对于现实世界的低质量图像ZIR方法仍然不能达到令人满意的恢复效果。 
盲人脸图像修复。人脸图像作为一般图像的特定子域通常承载着更多的结构和语义信息。早期的尝试利用几何先验(例如面部解析图[5]、面部地标[9;27]面部成分热图[62])或参考先验[34;33;32;13]作为辅助信息来指导面部恢复过程。随着生成网络的快速发展许多BFR方法都采用了强大的生成先验算法来重建高真实感的人脸。基于GAN先验的代表性方法[54;61;19;4]已经证明了他们在实现高质量和高保真的面部重建方面的能力。最先进的工作[68;18;59]引入HQ码本通过利用矢量量化(VQ)字典学习来生成令人惊讶的逼真面部细节[53;15)。 
3 Methodology 
在这项工作中我们的目标是利用强大的生成先验- Stable Diffusion来解决普通图像和人脸图像的盲恢复问题。我们提出的框架采用有效、稳健和灵活的两阶段pipeline。首先我们使用恢复模块来去除损坏例如使用回归损失的噪声或失真伪影。由于丢失的局部纹理和粗/细细节仍然不存在我们然后利用 Stable Diffusion来弥补信息丢失。整个框架如图2所示。具体来说我们首先在大规模数据集上预训练一个SwinIR[36]以实现跨多种退化的初步退化去除(第3.1节)。然后利用生成先验来产生逼真的恢复结果(第3.2节)。此外还引入了一种基于潜在图像引导的可控模块用于在真实感和保真度之间进行权衡(第3.3节)。 3.1 退化去除预训练 
退化模型。BIR旨在从具有未知和复杂退化的低质量(LQ)图像中恢复干净图像。通常模糊噪声压缩伪影和低分辨率经常涉及。为了更好地覆盖LQ图像的退化空间我们采用了考虑多样化退化和高阶退化的综合退化模型。在所有退化中模糊、调整大小和噪声是现实场景中的三个关键因素[64]。我们的多样化退化涉及 
模糊各向同性高斯核和各向异性高斯核 
调整大小区域调整大小双线性插值和双立方调整大小 
噪声加性高斯噪声、泊松噪声和JPEG压缩噪声。 
关于高阶退化我们按照[55]使用二阶退化它重复经典退化模型模糊-调整大小-噪声过程两次。请注意我们的退化模型是为图像恢复而设计的因此所有退化的图像将被重新调整到原始大小。 
恢复模块。为了构建一个鲁棒的生成图像恢复pipeline我们采用了一种保守但可行的解决方案首先去除LQ图像中的大部分退化(特别是噪声和压缩伪像)然后使用随后的生成模块来重现丢失的信息。这种设计将促进潜在扩散模型更多地关注纹理/细节的生成而不受噪声损坏的干扰并且在没有错误细节的情况下获得更真实/清晰的结果(参见4.3节)。我们修改了SwinIR[36]作为我们的恢复模块。具体来说我们利用像素unshuffle[50]操作以8的比例因子对原始低质量输入 I L Q I_{LQ} ILQ进行下采样。然后采用3 × 3卷积层进行浅层特征提取。所有后续的Transformer操作都在低分辨率空间中进行类似于潜在扩散模型。深度特征提取采用多个残差Transformer块(Residual Swin Transformer block, RSTB)每个RSTB有多个SwinTransformer层(STL)。将增加浅层和深层特征以同时维护低频和高频信息。为了将深度特征上采样回原始图像空间我们执行了三次最接近插值每次插值之后是一个卷积层和一个Leaky ReLU激活层。我们通过最小化L2像素损失来优化恢复模块的参数。公式如下  I r e g  SwinIR ( I L Q ) , L r e g  ∣ ∣ I r e g − I H Q ∣ ∣ 2 2 , (1) I_{reg}\text{SwinIR}(I_{LQ}),\mathcal{L}_{reg}||I_{reg}-I_{HQ}||_{2}^{2}, \tag{1} IregSwinIR(ILQ),Lreg∣∣Ireg−IHQ∣∣22,(1) 其中 I H Q I_{HQ} IHQ和 I L Q I_{LQ} ILQ分别表示高质量图像和低质量对应图像。 I r e g I_{reg} Ireg是通过回归学习得到的将用于对潜在扩散模型的微调。 
3.2 利用生成先验进行图像重建 
初步: Stable Diffusion。在本文中我们基于大规模文本到图像的潜在扩散模型——Stable Diffusion来实现我们的方法。扩散模型通过估计数据分布分数的去噪序列来学习生成数据样本。为了获得更好的效率和稳定的训练Stable Diffusion预训练了一个自动编码器[29]该编码器使用编码器 E {\mathcal{E}} E将图像 x x x转换为潜在 z z z并使用解码器 D {\mathcal{D}} D进行重建。这种潜在表示是通过使用VAE[30]、Patch-GAN[23]和LPIPS[67]的混合目标来学习的。扩散和去噪过程在潜在空间中进行。在扩散过程中将时刻 t t t方差 β t ∈ ( 0 , 1 ) β_t \in (0,1) βt∈(0,1)的高斯噪声加入到编码潜在函数 z  E ( x ) z  \mathcal{E}(x) zE(x)中产生噪声潜在特征  z t  α ˉ t z  1 − α ˉ t ϵ , (2) z_{t}\sqrt{\bar{\alpha}_{t}}z\sqrt{1-\bar{\alpha}_{t}}\epsilon, \tag{2} ztαˉt   z1−αˉt   ϵ,(2) 其中 ϵ ∼ N ( 0 , I ) ϵ∼N (0, I) ϵ∼N(0,I) α t  1 − β t \alpha_t  1−\beta_t αt1−βt和 α ˉ t  ∏ s  1 t α s \bar{\alpha}_{t}\prod_{s1}^{t}\alpha_{s} αˉt∏s1tαs。当 t t t足够大时潜在的 z t z_t zt接近于标准高斯分布。 
通过在随机选择的时间步 t t t上预测以 c c c(即文本提示)为条件的噪声 λ λ λ来学习网络 ϵ θ ϵ_θ ϵθ。潜在扩散模型的优化定义如下  L l d m  E z , c , t , ϵ [ ∣ ∣ ϵ − ϵ θ ( z t  α ˉ t z  1 − α ˉ t ϵ , c , t ) ∣ ∣ 2 2 ] (3) \mathcal{L}_{ldm}\mathbb{E}_{z,c,t,\epsilon}[||\epsilon-\epsilon_{\theta}(z_{t}\sqrt{\bar{\alpha}_{t}}z\sqrt{1-\bar{\alpha}_{t}}\epsilon,c,t)||_{2}^{2}]\tag{3} LldmEz,c,t,ϵ[∣∣ϵ−ϵθ(ztαˉt   z1−αˉt   ϵ,c,t)∣∣22](3) 其中 x x x,  c c c从数据集中采样 z  E ( x ) z  \mathcal{E}(x) zE(x) t t t均匀采样 λ λ λ从标准高斯分布中采样。 
LAControlNet。虽然第一阶段可以消除大多数退化但获得的图像通常过于平滑距离高质量自然图像的分布还很远。然后我们利用预训练的Stable Diffusion与我们获得的 I r e g − I H Q I_{reg}-I_{HQ} Ireg−IHQ对进行图像重建。首先我们利用Stable Diffusion预训练的VAE编码器将 I r e g I_{reg} Ireg映射到潜在空间中得到条件潜在 E ( I r e g ) \mathcal{E}(I_{reg}) E(Ireg)。UNet[47]去噪器执行潜在扩散它包含一个编码器、一个中间块和一个解码器。特别是解码器从编码器接收特征并在不同尺度上进行融合。在这里我们创建一个并行模块(在图2中用橙色表示)它包含与UNet去噪器中相同的编码器和中间块。然后我们将条件潜在 E ( I r e g ) \mathcal{E}(I_{reg}) E(Ireg)与随机采样的噪声 z t z_t zt连接起来作为并行模块的输入。由于此串联操作将增加并行模块中第一个卷积层的通道数因此我们将新添加的参数初始化为零其中所有其他权重都从预训练的UNet去噪检查点初始化。并行模块的输出被添加到原始UNet解码器。此外在每个尺度的加法运算之前应用一个1 × 1的卷积层。在微调过程中并行模块和这些1×1卷积层同时进行优化其中提示条件设置为空。我们的目标是尽量减少以下潜在扩散目标  L D i f f  E z t , c , t , ϵ , E ( I r e g ) [ ∣ ∣ ϵ − ϵ θ ( z t , c , t , E ( I r e g ) ) ∣ ∣ 2 2 ] . (4) \mathcal{L}_{Diff}\mathbb{E}_{z_{t},c,t,\epsilon,\mathcal{E}(I_{reg})}[||\epsilon-\epsilon_{\theta}(z_{t},c,t,\mathcal{E}(I_{reg}))||_{2}^{2}]. \tag{4} LDiffEzt,c,t,ϵ,E(Ireg)[∣∣ϵ−ϵθ(zt,c,t,E(Ireg))∣∣22].(4) 这一阶段得到的结果记为 I d i f I_{dif} Idif。总而言之只有UNet去噪器中的跳过连接特征才会针对我们的特定任务进行调整。该策略缓解了小训练数据集的过拟合问题并继承了Stable Diffusion的高质量生成。更重要的是与ControlNet[66]相比我们的条件调节机制对于图像重建任务更直接有效ControlNet使用从头开始训练的附加条件网络来编码条件信息。在我们的LAControlNet中训练有素的VAE编码器能够将条件图像投影到与潜在变量相同的表示空间中。该策略显著减轻了潜在扩散模型中内部知识与外部条件信息对齐的负担。在实验中直接使用ControlNet进行图像重建会导致严重的颜色偏移如消融研究所示(见第4.3节)。 
3.3 保真度-真实性权衡的潜在图像引导 
虽然上述两阶段的方法已经可以获得很好的恢复效果但由于用户的不同偏好仍然需要在真实和保真之间进行权衡。因此我们提出了一个可控的模块可以引导降噪过程在第一阶段获得的 I r e g I_{reg} Ireg从而在真实和平滑结果之间进行调整。分类器引导是由Dhariwal和Nichol[12]提出的它利用在噪声图像上训练的分类器来引导生成到目标类。而在大多数情况下作为指导的预训练模型通常是在干净的图像上训练的。为处理这种情况工作在[1;16]转向引导中间变量 x ~ 0 \tilde{x}_{0} x~0来控制扩散模型的生成过程。具体来说在采样过程中他们通过估计 x t x_t xt中的噪声从噪声图像 x t x_t xt中估计出一个干净的图像 x 0 x_0 x0。在这项工作中扩散和去噪过程是基于潜在空间的。因此我们的目标是得到一个干净的潜在 z 0 z_0 z0通过以下公式  z ~ 0  z t α ˉ t − 1 − α ˉ t ϵ θ ( z t , c , t , E ( I r e g ) ) α ˉ t . (5) \tilde{z}_0\frac{z_t}{\sqrt{\bar{\alpha}_t}}-\frac{\sqrt{1-\bar{\alpha}_t}\epsilon_\theta(z_t,c,t,\mathcal{E}(I_{reg}))}{\sqrt{\bar{\alpha}_t}}. \tag{5} z~0αˉt   zt−αˉt   1−αˉt   ϵθ(zt,c,t,E(Ireg)).(5) 然后将基于潜在的损失 D l a t e n t \mathcal{D}_{latent} Dlatent定义为潜在图像引导 E ( I r e g ) \mathcal{E}(I_{reg}) E(Ireg)与估计的干净潜在之间的 L 2 \mathcal{L}_2 L2距离  D l a t e n t ( x , I r e g )  L ( z ~ 0 , E ( I r e g ) )  ∑ j 1 C j H j W j ∣ ∣ z ~ 0 − E ( I r e g ) ) ∣ ∣ 2 2 . (6) \mathcal{D}_{latent}(x,I_{reg})\mathcal{L}(\tilde{z}_0,\mathcal{E}(I_{reg}))\sum_{j}\frac{1}{C_jH_jW_j}||\tilde{z}_0-\mathcal{E}(I_{reg}))||_2^2. \tag{6} Dlatent(x,Ireg)L(z~0,E(Ireg))j∑CjHjWj1∣∣z~0−E(Ireg))∣∣22.(6) 上述引导可以迭代地强制潜在特征之间的空间对齐和颜色一致性并引导生成的潜在保留参考潜在的内容。因此可以控制从参考图像 I r e g I_{reg} Ireg中保留多少信息(如结构、布局和颜色)从而实现从生成的输出到更平滑的结果的过渡。我们的潜在图像引导的整个算法在算法1中进行了说明。 4 Experiments 
4.1 数据集、实现、度量 
数据集。我们在ImageNet[11]数据集上以512 × 512分辨率训练DiffBIR。对于BFR我们使用FFHQ[25]数据集并将其大小调整为512 × 512。为了合成LQ图像我们在训练过程中利用提出的退化pipeline对HQ图像进行处理(详见附录A)。对于BSR我们使用RealSRSet[3]数据集在现实环境中进行比较。为了在现实场景中进行更彻底的比较我们从互联网上收集了47张图像记为Real47。它包含了各种场景的一般图像如自然户外景观老照片建筑人物从肖像到密集的人群植物动物等。对于BFR任务我们在合成数据集CelebA-Test[39]和三个真实数据集LFW-Test[54]、CelebChild-Test[54]和WIDER-Test[68]上评估了我们的方法。特别是CelebA-Test包含从CelebA-HQ数据集中选择的3,000张图像其中LQ图像是在与我们的训练设置相同的退化范围下合成的。 
实现。恢复模块采用8个残差Swin Transformer block (RSTB)每个RSTB包含6个Swin Transformer Layers (STL)。head数设置为6窗口大小设置为8。我们训练恢复模块批量大小为96迭代150k。我们使用Stable Diffusion 2.1-base 3作为生成先验并对扩散模型进行了微调迭代次数为25k批大小为192。我们使用Adam[28]优化器将学习率设置为10−4。训练过程在512 × 512分辨率下使用8个NVIDIA A100 GPU进行。对于推理我们采用间隔DDPM采样[43]时间步长为50。我们的DiffBIR能够处理大于512 × 512的任意大小的图像。对于边长 512的图像我们首先将它们的短边放大到512然后将它们调整回来。 
度量。对于基于真实值的评价我们采用传统的指标PSNR、SSIM和LPIPS[67]。为了更好地评估BIR任务的真实性我们还包括了几个无参考图像质量评估(IQA)指标MANIQA4[60]和NIQE。对于BFR我们评估了identity preservation-IDS[68]并采用了广泛使用的感知度量FID[20]。我们还部署了一项用户研究以进行更彻底的比较。 
4.2 与最先进方法的比较 
对于BSR我们将DiffBIR与最先进的BSR方法进行了比较Real-ESRGAN[55]、BSRGAN[64]、SwinIR-GAN[36]和FeMaSR[6]。最近最先进的ZIR方法(DDNM[57]和GDP[16])也包括在内。对于BFR任务我们比较了最新的最先进的方法DMDNet[35]、GFP-GAN[54]、GPEN[61]、GCFSR[19]、VQFR[18]、CodeFormer[68]、RestoreFormer[59]。 
真实数据集上的BSR 
我们在表1中提供了对真实数据集的定量比较。可以观察到我们的DiffBIR在广泛使用的RealSRSet[24]和我们收集的Real47上都在MANIQA中获得了最好的分数。而BSRGAN和Real-ESRGAN在两个数据集上都可以在MANIQA中获得前3名的结果。 目视比较结果如图3所示。可以看出DiffBIR能够更自然地还原文本信息而其他方法往往会扭曲字符或产生模糊的输出。另一方面我们的DiffBIR也可以为自然图像生成逼真的纹理细节而其他方法会产生过于光滑的结果。 更多的可视化结果可以在图11和图12中找到太多放后面了。 
为了进一步将DiffBIR与其他最先进的方法进行比较我们对收集的Real47数据集进行了用户研究。本用户研究比较了DiffBIR、SwinIR-GAN、BSRGAN和RealESRGAN。对于每张图像用户被要求对四种方法的结果进行排序并按升序为不同的方法分配1-4点。更准确地说结果越好得分越高。在详细的指导下招募了31名用户进行这项用户研究。各方法得到的分数分布如图4所示。可以看出DiffBIR的中位数得分最高其上四分位数超过3。这表明用户倾向于将DiffBIR的结果排在首位。用户研究结果再次证明DiffBIR的视觉结果优于其他方法这与它在MANIQA上的最高分一致。 合成和真实数据集的BFR 
我们在表2中展示了合成数据集和真实数据集的定量比较。对于合成数据集CelebA-Test[39]我们的DiffBIR达到了最高的FID分数。同时它在PSNR和IDS方面也是前三名。结果表明所提出的DiffBIR能够成功地产生高真实感和高保真度的结果。对于现实世界的数据集DiffBIR在LFW-Test[22] (轻度退化)和WIDER-Test[68] (严重退化)数据集上都获得了最好的结果并且在CelebChild-Test上与最先进的方法获得了可比较的结果。 图5描述了合成数据集上各种方法的可视化比较。第一个例子表明只有DiffBIR能够成功地恢复极度退化的情况而其他方法都失败了。从第二个例子可以看出只有DiffBIR可以成功恢复闭塞的左眼。 图6给出了对真实数据集的可视化比较。从第一个例子可以看出DiffBIR能够准确地还原头发而其他方法将头发误认为是面部区域的一部分。第二个例子表明我们的DiffBIR是唯一可以在非面部区域(即前额的装饰)上生成逼真细节的方法。 更多的可视化结果可以在图9和图10中找到。 4.3 消融研究 
恢复模块的重要性 
在这一部分中我们研究了我们提出的两级pipeline的意义。在这里我们去掉了恢复模块(RM)直接用合成的训练对对扩散模型进行微调。删除恢复模块导致FID/MANIQA在所有真实数据集上的性能明显下降(见表3)。可视化比较如图7(a)所示。从第一个例子可以看出单阶段模型(w/o RM)错误地将退化视为语义信息。这表明恢复模块有助于保持保真度。第二个例子清楚地说明仅微调Stable Diffusion而不应用RM不能完全消除现实世界的噪声/伪影。这表明RM在降解去除中是不可缺少的。 Stable Diffusion微调的必要性 
接下来我们说明了微调潜在扩散模型的必要性。Zero-shot IR方法[57;16]提供了一种有效的方法利用图像空间中的退化图像引导反向扩散过程。根据他们的方法我们使用平滑的结果 I r e g I_{reg} Ireg来指导原始的Stable Diffusion而不需要微调。然而如图7(b)所示这种引导策略往往会产生不现实的内容(例如一只鸟失去了一条腿)。这表明在图像空间中广泛使用的制导可能无法有效地推广到潜在空间因此微调Stable Diffusion对于该图像重建任务至关重要。 
LAControlNet的有效性 
然后我们的目标是强调我们提出的LAControlNet的有效性该网络将 I r e g I_{reg} Ireg编码到潜在空间。这里我们与ControlNet[66]进行比较ControlNet采用从头开始训练的附加条件网络来调节输入信息。如图 7c所示ControlNet 倾向于输出带有颜色偏移的结果因为在训练过程中没有对颜色一致性进行明确的正则化。可以使用非均匀采样来增加早期采样阶段的优化概率实现更好的颜色控制[42]。然而我们的方法更直接充分利用了潜在扩散先验。 
可控模块的灵活性 
考虑到生成式恢复模型可能会产生意想不到的细节这里我们提供了一个可控的模块供用户根据个人喜好进行探索。可视化结果如图8所示。我们的实验表明较大的梯度尺度s倾向于产生接近 I r e g I_{reg} Ireg的高保真平滑结果。从第一行可以看出DiffBIR的输出 I d i f f I_{diff} Idiff在狗的眼睛中有一些蓝色的伪影因此我们将s设置为200或更高以获得更好的结果。此外背景也随着渐变尺度s的增大而变化(趋于更加模糊)。 5 Conclusion and Limitations 
我们提出了一种统一的盲图像恢复框架DiffBIR该框架利用预训练的Stable Diffusion的先验知识获得真实的图像恢复结果。它包括恢复和生成两个阶段保证了画面的保真性和真实感。大量的实验已经验证了DiffBIR在BSR和BFR任务上优于现有的最先进的方法。虽然我们提出的DiffBIR已经显示出有希望的结果但文本驱动图像恢复的潜力并没有被探索。鼓励在图像恢复任务中进一步开发Stable Diffusion。另一方面我们的DiffBIR方法需要50个采样步骤来恢复低质量的图像与其他图像恢复方法相比导致更高的计算资源消耗和更多的推理时间。 
Appendix 
A 退化细节 
本节将介绍用于训练DiffBIR的退化设置。接下来[55]我们采用二阶退化过程来增强恢复模块在真实场景中的鲁棒性。具体来说退化模型在某一阶段包括三个操作模糊、调整大小和噪声。模糊。我们利用各向同性高斯模糊或各向异性高斯模糊具有相同的概率。模糊核的大小遵循7 ~ 21的均匀分布第一次退化过程的模糊σ均匀采样在0.2 ~ 3之间第二次退化过程的模糊σ均匀采样在0.2 ~ 1.5之间。调整大小。我们考虑了多种调整算法包括面积调整、双线性插值和双三次调整。对于第一次降解过程调整尺寸的比例因子遵循0.15至1.5的均匀分布对于第二次降解过程比例因子遵循0.3至1.2的均匀分布。噪音。我们结合了高斯噪声、泊松噪声和JPEG压缩噪声。高斯噪声的尺度在第一次退化过程中均匀采样在1 ~ 30之间在第二次退化过程中均匀采样在1 ~ 25之间。在第一次和第二次退化过程中泊松噪声的尺度分别在0.05 ~ 3和0.05 ~ 2.5之间随机采样。JPEG压缩的质量遵循从30到95的均匀分布。此外我们还结合了盲人脸恢复中所采用的退化设置。具体来说我们考虑一个大的降采样范围[1,12]和一个大的模糊核范围其sigma在[0.1,12]以内。这样可以训练生成模块在大范围内弥补信息丢失。 
B 对BFR进行更多定性比较 
图9、图10 
C 对BSR进行更多的定性比较 
图11、图12      文章转载自: http://www.morning.rdlxh.cn.gov.cn.rdlxh.cn http://www.morning.lywpd.cn.gov.cn.lywpd.cn http://www.morning.wypyl.cn.gov.cn.wypyl.cn http://www.morning.ptwqf.cn.gov.cn.ptwqf.cn http://www.morning.pqnkg.cn.gov.cn.pqnkg.cn http://www.morning.cwqpl.cn.gov.cn.cwqpl.cn http://www.morning.ynryz.cn.gov.cn.ynryz.cn http://www.morning.tsynj.cn.gov.cn.tsynj.cn http://www.morning.txmkx.cn.gov.cn.txmkx.cn http://www.morning.glxdk.cn.gov.cn.glxdk.cn http://www.morning.hhfwj.cn.gov.cn.hhfwj.cn http://www.morning.tqdlk.cn.gov.cn.tqdlk.cn http://www.morning.lktjj.cn.gov.cn.lktjj.cn http://www.morning.llgpk.cn.gov.cn.llgpk.cn http://www.morning.xqzrg.cn.gov.cn.xqzrg.cn http://www.morning.sgfnx.cn.gov.cn.sgfnx.cn http://www.morning.trbxt.cn.gov.cn.trbxt.cn http://www.morning.bsqkt.cn.gov.cn.bsqkt.cn http://www.morning.mkpqr.cn.gov.cn.mkpqr.cn http://www.morning.qtyfb.cn.gov.cn.qtyfb.cn http://www.morning.bnqcm.cn.gov.cn.bnqcm.cn http://www.morning.gtxrw.cn.gov.cn.gtxrw.cn http://www.morning.nsppc.cn.gov.cn.nsppc.cn http://www.morning.tpnxr.cn.gov.cn.tpnxr.cn http://www.morning.zxhhy.cn.gov.cn.zxhhy.cn http://www.morning.bjjrtcsl.com.gov.cn.bjjrtcsl.com http://www.morning.kpwdt.cn.gov.cn.kpwdt.cn http://www.morning.kzslk.cn.gov.cn.kzslk.cn http://www.morning.kwnbd.cn.gov.cn.kwnbd.cn http://www.morning.qwmdx.cn.gov.cn.qwmdx.cn http://www.morning.znnsk.cn.gov.cn.znnsk.cn http://www.morning.qpxrr.cn.gov.cn.qpxrr.cn http://www.morning.rmxgk.cn.gov.cn.rmxgk.cn http://www.morning.trrpb.cn.gov.cn.trrpb.cn http://www.morning.bnlkc.cn.gov.cn.bnlkc.cn http://www.morning.ptlwt.cn.gov.cn.ptlwt.cn http://www.morning.bpmfq.cn.gov.cn.bpmfq.cn http://www.morning.qxwwg.cn.gov.cn.qxwwg.cn http://www.morning.sfgtp.cn.gov.cn.sfgtp.cn http://www.morning.yqtry.cn.gov.cn.yqtry.cn http://www.morning.tklqs.cn.gov.cn.tklqs.cn http://www.morning.zpfr.cn.gov.cn.zpfr.cn http://www.morning.nbwyk.cn.gov.cn.nbwyk.cn http://www.morning.wknj.cn.gov.cn.wknj.cn http://www.morning.tlpgp.cn.gov.cn.tlpgp.cn http://www.morning.ryzgp.cn.gov.cn.ryzgp.cn http://www.morning.stprd.cn.gov.cn.stprd.cn http://www.morning.rgxf.cn.gov.cn.rgxf.cn http://www.morning.tlnkz.cn.gov.cn.tlnkz.cn http://www.morning.zrgx.cn.gov.cn.zrgx.cn http://www.morning.btlsb.cn.gov.cn.btlsb.cn http://www.morning.zfhwm.cn.gov.cn.zfhwm.cn http://www.morning.jwrcz.cn.gov.cn.jwrcz.cn http://www.morning.qlrwf.cn.gov.cn.qlrwf.cn http://www.morning.bzfld.cn.gov.cn.bzfld.cn http://www.morning.qbfs.cn.gov.cn.qbfs.cn http://www.morning.myxps.cn.gov.cn.myxps.cn http://www.morning.wqcz.cn.gov.cn.wqcz.cn http://www.morning.qnzld.cn.gov.cn.qnzld.cn http://www.morning.smfbw.cn.gov.cn.smfbw.cn http://www.morning.cwlxs.cn.gov.cn.cwlxs.cn http://www.morning.kbgzj.cn.gov.cn.kbgzj.cn http://www.morning.mhnd.cn.gov.cn.mhnd.cn http://www.morning.dlgjdg.cn.gov.cn.dlgjdg.cn http://www.morning.prgyd.cn.gov.cn.prgyd.cn http://www.morning.nzzws.cn.gov.cn.nzzws.cn http://www.morning.jxfsm.cn.gov.cn.jxfsm.cn http://www.morning.qpqwb.cn.gov.cn.qpqwb.cn http://www.morning.slqzb.cn.gov.cn.slqzb.cn http://www.morning.qcfgd.cn.gov.cn.qcfgd.cn http://www.morning.xfxqj.cn.gov.cn.xfxqj.cn http://www.morning.bxdlrcz.cn.gov.cn.bxdlrcz.cn http://www.morning.tktcr.cn.gov.cn.tktcr.cn http://www.morning.dgwrz.cn.gov.cn.dgwrz.cn http://www.morning.bzbq.cn.gov.cn.bzbq.cn http://www.morning.dkbsq.cn.gov.cn.dkbsq.cn http://www.morning.ylyzk.cn.gov.cn.ylyzk.cn http://www.morning.xjmyq.com.gov.cn.xjmyq.com http://www.morning.xkgyh.cn.gov.cn.xkgyh.cn http://www.morning.nftzn.cn.gov.cn.nftzn.cn