基于深度学习的水下光学图像超分辨率重建综述

数码桃桃 · 发表于 2023-3-28 17:25:12

一键注册，加入手机圈

您需要登录才可以下载或查看，没有帐号？立即注册

x

【作者简介】文/罗逸豪曹翔张钧陶王天江冯琪，分别来自中国船舶集团有限公司第七一〇研究所、清江创新中心、长沙学院、军事科学院系统工程研究院、华中科技大学。第一作者罗逸豪，1995年出生，男，博士，主要从事深度学习、计算机视觉方向研究。本文为基金项目，装备预先研究项目“机载水下小目标探测技术”（3020706）。文章来自《数字海洋与水下攻防》（2023年第1期），参考文献略，用于学习与交流，版权归作者及出版社共同拥有，转载也请备注由“溪流之海洋人生”微信公众平台编辑与整理。
近年来，随着船舶系统的智能化、无人化发展，无人水下航行器（UUV）和水下机器人在民用、军事领域大量应用。视觉系统是无人化装置获取并感知水下信息的重要途径之一，水下光学图像信息量丰富，比声呐图像更适用于近距离的水下目标探测任务。然而，光学图像本身在获取、压缩和传输过程中容易遭受不可避免的损失，如成像设备限制、相机抖动、有损压缩、传输信号衰减等。在水下环境中，湍流、悬浮物等复杂环境因素还会引起光照散射、衰减与相机散焦等问题，使得水下光学图像质量更低，产生严重的颜色失真、细节缺失、对比度下降与模糊等多种退化问题。这会给后续的图像分类、目标检测等高层任务带来诸多困难，限制了无人设备水下自主识别与探测的性能与应用，尤其是小目标检测精度。因此，通过重建算法获得细节清晰、纹理丰富的高质量、高分辨率（HR）水下光学图像对自主识别、无人探测等应用具有十分重要的价值。
研究者不断探索各种各样的图像增强技术用于改善图像质量，如图像去模糊（Deblurring）、去噪（Denoising）、去雾（Dehazing）、超分辨率（SR）重建等。图像超分辨率重建是计算机视觉和图像处理领域中的一个经典低层任务，旨在从低分辨率（LR）图像中生成包含高频细节的高分辨率图像。相比于设计更加复杂的光学成像设备来提升图像质量，图像SR算法不仅可以大幅降低成本，还能突破成像系统的限制，获得质量更高的HR图像。同一张LR图像可能由不同的HR图像经多种未知退化产生，不确定性SR重建过程充满挑战。
近年来随着人工智能的快速发展，基于深度学习的SR重建算法取得了突破性进展。相较于插值、重构等传统方法，深度学习模型能够从大规模数据集中学习到更丰富的图像特征，自适应地学习LR图像与HR图像之间的映射关系，在自然光学图像场景中取得了更优的重建效果。对于水下光学图像，尽管基于颜色补偿和物理模型等传统方法针对水下光学成像退化特性取得了一定成效，其重构效果和泛化性依然落后于数据驱动的深度学习方法。
目前已有大量文献对基于深度学习的自然光学图像超分辨率重建算法进行了归纳总结。它们从网络结构设计、上采样方式、训练算法等方面对SR研究工作进行分类论述。其中有文献介绍了一些特定领域的应用，比如人脸、深度图、遥感图像、医学图像等，没有提及水下场景。目前尚未有文献对基于深度学习的水下光学图像超分辨率重建进行系统性综述。同时，依据网络结构设计等分类的总结方式注重于方法本身，难以从应用的角度为水下光学图像场景提供指导意义。
因此，本文在第1章对自然图像退化方式和数据集进行分类总结，并结合国内外最新研究现状将基于深度学习的单幅图像超分辨率重建算法分为一般退化、已知（非盲）多种退化、未知（盲）多种退化3种方式进行详细总结，为水下应用场景提供参考；在第2章归纳了水下光学图像退化方式和常见的公开数据集；在第3章按照同样的分类总结并分析了水下光学图像超分辨率重建的最新进展；在第4章总结全文，并对水下光学图像超分辨率重建未来可能的发展趋势进行了展望.
一、基于深度学习的图像超分辨率重建算法
⒈背景
图像超分辨率重建是图像退化过程的逆过程，利用低分辨率图像本身包含的结构、纹理等信息，重建出对应的高分辨率图像，表达式如下：
ILR＝D(IHR) ⑴
IHR＝R(ILR,θ) ⑵
式中：IHR表示高分辨率图像；ILR表示低分辨率图像；D表示退化过程；R和θ表示超分辨率重建模型及其参数。
基于深度学习的SR重建模型早期以卷积神经网络（CNN）为主，随着研究的深入，生成对抗网络（GAN）、注意力机制和Transformer等网络结构也被用于SR模型。这也是许多文献对SR方法分类的依据。主流的SR重建模型通常以单幅LR图像作为输入（SISR），也有一些方法输入多帧图像（MFSR）。
深度学习SR模型不仅从LR图像获取信息，还通过外部数据集构建的大量LR-HR图像对，训练模型以寻找丢失的HR信息。不同退化方式和场景域构成的训练集，会使深度学习模型学习到不同的知识表达。因此数据集对SR重建模型的应用性能起着至关重要的作用。
⒉自然光学图像数据集
目前工业界和学术界已开源多个自然光学图像超分辨率重建数据集用于学术研究，以供不同的算法公平对比。表1总结了目前常用的数据集，“-”表示不包含图像。客观的图像质量评价指标通常使用峰值信噪比（PSNR）、结构相似度（SSIM），由重建的HR图像与测试集的真实HR图像比较计算得出。当不参考真实HR图像时，计算重建图像的感知指数（PerceptionIndex，PI）进行评估。
表1 图像超分辨率重建常用数据集

基于深度学习的水下光学图像超分辨率重建综述-1.jpg

根据样本是否包含LR图像，可以将现有数据集分为2类。第1种是只包含HR图像的数据集，使用高清光学相机采集的真实高质量图像。第2种是包含LR-HR图像对的数据集，使用不同的成像方式对同一场景采集不同分辨率的图像。第2种方式具有更真实的退化过程，适用于真实场景的图像SR重建。但是采集真实的LR-HR图像对具备一定难度，大多数数据集只采集HR图像，研究者们自行采用不同的退化方式合成相应的LR图像，以构成LR-HR图像对进行训练。
图1展示了不同高斯模糊核宽度退化下的低分辨率自然光学图像，它们在细节上存在很大差异，SR重建难度也各自不同。

基于深度学习的水下光学图像超分辨率重建综述-2.jpg

图1 不同模糊核宽度退化下的低分辨率图像
⒊图像退化方式
早期的SR重建方法直接将HR图像下采样得到LR图像，再作为配对的样本输入到网络模型中进行训练。而实际的退化过程复杂且未知，包含模糊、噪声、环境、压缩等因素的影响，难以进行准确的定义。因此，最近的许多SR重建算法考虑了多种退化方式，同时实现了图像增强和超分辨率（SESR）。根据现有数据集构建过程中采取的退化方式，结合式⑴总结了3种退化方式。
⑴下采样退化方式
下采样退化模型通过对HR图像执行下采样操
作得到对应的LR图像，表达式如下：
ILR＝﹙IHR﹚↓s ⑶
式中：↓s表示尺度为s的下采样操作，通常使用双三次（Bicubic）和双线性（Bilinear）插值。
⑵一般退化方式
一般退化模型在下采样模型的基础上考虑了模糊和噪声退化因素，更加接近实际情况，因此被大多数SR重建方法采用，表达式如下：
ILR＝﹙IHR⊕k﹚↓s＋n ⑷
式中：⊕表示卷积操作；k表示模糊核；n表示加性白噪声。
⑶多种退化方式
虽然一般退化模型的有效性得到了验证，但其假设的退化类型依然离真实退化过程存在一定差异。因此，多种退化模型在此基础上新增了更复杂的退化过程，比如多种各向异性的高斯模糊核叠加，以模拟真实图像。其表达式如下所示：
ILR＝Dn（IHR） ⑸
由于现实场景的退化过程复杂且未知，从退化方式的角度对不同方法进行归纳总结，可以为具体的SR重建应用提供指导意义和参考价值。另外，根据退化过程中模糊核是否已知，还可以把SR重建方法分为非盲图像SR和盲图像SR。
因此，本文基于退化方式将基于深度学习的单幅图像超分辨率（SISR）重建算法分为针对一般退化、已知（非盲）多种退化、未知（盲）多种退化3个方面进行详细总结。本文主要探讨SISR，基于多帧、SR重建算法详见有关文献。
⒋单幅图像超分辨率重建算法
⑴针对一般退化方式
早期方法均针对较为理想的下采样退化方式和一般退化方式。DONG等人首次运用一个只有3层卷积层的CNN模型端到端学习插值低分辨率图像与高分辨率图像之间的映射关系，提出了第1个基于CNN的SISR模型SRCNN。KIM等人训练了一个20层的神经网络模型VDSR，引入残差学习和梯度裁剪策略来加快深度模型的收敛速度。DnCNN和IRCNN模型直接对高频残差图像进行预测。MAO等人提出了RED-Net，使用卷积层作为编码器，反卷积层作为解码器。
DRCN、DRRN和MemNet模型使用递归卷积层或递归模块逐步将较难的图像超分辨率重建问题分解成一组容易解决的简单问题，并利用递归学习实现参数共享，大大降低存储成本和计算复杂度。上述方法先将输入的LR图像插值上采样至HR图像的大小然后进行处理，计算复杂度高，且会过度平滑或模糊原始LR图像，丢失部分细节。
为了提高计算效率，研究者们提出了后上采样方式，先在低维空间进行网络运算，然后在模型末端集成可学习的上采样层映射到高维空间，是目前主流的SR模型结构。FSRCNN在模型末端引入转置卷积层上采样到高分辨率图像。ESPCN引入高效亚像素卷积层学习LR-HR图像映射。EDSR优化了常用的残差结构，删除批处理归一化（BN）和ReLU激活函数。CARN模型级联局部和全局信息来改进残差结构。借鉴DenseNet强大的特征提取能力，SRDenseNet和RDN增强了图像SR重建的性能。
由于不同特征对于SR重建效果的重要性是不同的，基于注意力机制的方法选择性关注特定层中的少数特征。RCAN模型基于通道注意力机制，CSNLN和NLSA基于非局部（Non-local）注意力。此外，MAGID等人引入动态高通滤波和矩阵多谱通道注意模块来改善局部和全局特征。虽然后上采样结构大大降低了计算成本，但增加了较大放大倍数（如×4、×8）SR重建的学习难度，且无法满足以一个模型执行多个放大倍数的需求。为了解决这个问题，SCN模拟学习迭代收缩阈值算法网络构建多层神经网络，实现高分辨率图像的逐级重建。LAI等人提出一种渐进式上采样网络模型LapSRN，由3个子网络组成，每个子网络分别预测2倍放大的残差图像，逐步实现8倍放大。LapSRN通过将复杂任务分解为简单任务，极大地降低了高倍SR模型的学习难度。基于此结构MSLapSRN和E-ProSRNet实现了进一步优化。
为了更好地捕捉LR-HR图像对之间的相互依赖关系，渐进式上下采样结构通过迭代反向投影不断改进重建的HR图像细节。DBPN由一系列紧密连接的上下采样结构组成，将多个HR图像进行组合构成最终输出。SRFBN基于循环结构以多个反向投影模块递归优化LR图像。虽然渐进式上下采样结构产生了高质量的重建结果，但反向投影模块的设计标准目前尚不明确。
上述方法均专注于实现更高的峰值信噪比（PSNR），使用均方误差（MSE）损失或L1损失作为损失函数，可能会产生过于模糊的图像。为了提高重建图像的视觉效果，JOHNSON等人使用感知损失测量两幅图像之间的特征空间误差训练模型。LEDIG等人借鉴了对抗损失，提出了第1个基于生成对抗网络的模型SRGAN。
在此基础上，ESRGAN改进了网络架构、对抗性损失和感知损失，删除BN层。SAJJADI等人设计纹理损失函数优化HR图像细节。SRFeat在特征域中额外引入一个判别器，将合成图像与真实图像区分开，鼓励生成器产生高频结构特征而非噪声伪影。SPSR基于梯度引导图像保留高频信息。GAN系列方法的重建效果更具真实感，对不关注细节的整体图像具有较好的应用效果。
⑵针对已知（非盲）多种退化方式
针对下采样退化方式和一般退化方式的方法无法满足现实场景需求。为了应对多种退化方式，直观的思路是构建包含更多退化信息的LR图像，对深度学习模型进行黑箱训练。通常而言构建的多种退化方式已知，属于非盲图像SR重建。
SRMD将LR图像与多种退化信息合并作为模型的统一输入，根据特定退化信息进行特征适配，并在一个模型中覆盖多种退化方式。虽然SRMD将SR重建模型扩展到能处理多种退化类型，但其作用域依旧非常有限，因为对任意退化模糊核进行有效编码并非易事。因此，ZHANG等人基于最大后验概率框架对网络模型进行设计，使其无需对退化模糊核进行编码。其中深度即插即用网络模型DPSR将SR重建网络集成到基于最大后验概率的迭代优化方案中；深度展开网络模型USRNet结合基于学习和基于模型的方法，通过单个模型处理具有不同放大倍数、退化模糊核和噪声水平的图像SR重建任务。UDVD模型使用退化图像作为超分辨率重建任务的额外输入，利用逐像素动态卷积有效处理图像中的变分退化。
此外，SHOCHER等人利用内部图像数据和CNN的强大学习能力，提出一个基于零样本的SR重建模型ZSSR。ZSSR模型先根据输入图像本身提取训练样本，然后将提取到的子图像获得其对应的LR图像。在此基础上，MZSR借助元迁移学习和外部训练样本来优化训练过程，相比于ZSSR需要数千次迭代来适应新任务，MZSR模型仅需要几次迭代就能适应。
⑶针对未知（盲）多种退化方式
虽然上述方法在应对多种退化方式时产生了较好的SR重建结果，但仍基于退化已知假设。现实场景中图像退化情况未知，重建性能可能会显著下降。为解决此问题盲图像SR重建算法应运而生。
最直观的思路就是在非盲图像SR重建基础上增加模糊核估计方法，分为2个子问题解决盲图像SR重建。KernelGAN的生成器从LR图像中估计退化模糊核，以模拟真实的退化过程。HUSSEIN等人在此基础上提出非盲校正滤波进一步优化模糊核估计过程。基于深度图像先验框架DIP，Double-DIP模型在未训练的自编码网络模型的参数空间中，通过最小化低分辨率图像的重建误差，联合优化高分辨率图像和退化模糊核。FKP进一步优化上述方法，学习各向异性高斯核分布与潜在分布之间的可逆映射。此外，LIANG等人还提出了一种用于空间变化模糊核估计的互仿射网络模型MANet，在不增加感受野、模型大小和计算负担的情况下增强特征的表达能力。TAO等人基于LR图像的傅立叶频谱来更准确地重建未知模糊核。
上述方法需要独立训练2个模型，不能进行端到端优化，模糊核估计步骤只能利用LR图像中有限信息，可能与第2步模型不兼容。因此，使用一个模型完成模糊核估计和非盲图像SR更为有效。
GU等人通过迭代的方式修正模糊核估计，使重建图像逐步逼近真实结果。DAN模型迭代优化估计器和恢复器，恢复器基于预测模糊核重建HR图像，估计器借助重建图像对模糊核进行估计。KMSR基于GAN构建逼真的模糊核池，然后构建与HR图像对应的LR图像训练重建模型。
CORNILLERE等人利用SR重建伪影估计模糊核，训练模糊核判别器来估计输出误差，并在推理阶段最小化误差求得最优模糊核。DASR假定退化在同一幅图像中是相同的，而在另一幅图像中不同，利用估计的退化表示生成相应的卷积核和调整系数，使网络能够灵活地适用于不同退化方式。
KIM等人提出的KOALAnet将非迭代框架扩展到空间变化模糊核，使SR重建网络适应特定退化方式。AMNet结合强化学习使用不可微分的感知度量共同优化模糊核估计与重建网络。FAIG基于积分梯度区分退化信息，首先寻找对特定退化重建贡献最大的滤波器，以此预测输入图像的模糊核，然后结合不同网络模型用于多种退化的图像SR重建。
二、水下光学图像超分辨率重建任务
⒈水下光学成像与退化
传统的基于物理模型方法对水下光学成像与退化过程进行建模，将水下光学图像重建视为其逆问题。水下光学成像模型由3部分组成：直射部分、前向散射部分和后向散射部分。直射部分为经过物体反射后直接到达成像设备的光线，可视为清晰图像光线衰减过程。前向散射部分指经过物体反射后经水中粒子散射吸收和水介质吸收后到达成像设备的光线，图像信息产生了偏移，可视为模糊过程。后向散射部分代表从光源出发的光线经水中粒子散射吸收和水介质吸收后被成像设备收集，属于噪声，不包含物体信息，会造成严重的颜色失真、对比度下降问题。
除了光学成像本身造成的模糊和噪声退化，水体流动、鱼类游动和成像设备晃动还会造成图像运动模糊。除此之外，水下复杂环境中的成像设备无法实现理想的聚焦，易发生散焦模糊，将一个理想化的像素点成像为一个圆形斑点。如图2所示，由于红色波在水介质中易被吸收，水下图像可能以蓝色和绿色色调主导，而不同的水深、颗粒数量也会导致不同程度的模糊。

基于深度学习的水下光学图像超分辨率重建综述-3.jpg

图2 水下光学图像示例
通过对比图1和图2也可以直观发现水下采集的光学图像的退化种类与程度比自然光学图像更甚，通常有颜色失真、细节缺失、对比度下降与模糊等多种退化问题。因此，相比于自然光学图像，水下光学图像超分辨率重建更具挑战。
⒉水下光学图像数据集
水下环境具有多样性和复杂性，在不同水域和海域以及在不同时间采集的图像均具有不同的图像质量、退化方式、场景目标。为了应对不同类型的需求，研究者们构建了数量繁多的数据集，并默认使用高清相机在良好光照、水质环境下采集的水下图像为高质量HR图像。
表2总结了目前常用的水下光学图像SR重建和增强数据集，“-”表示不包含图像或未明确划分训练集和测试集。
表2 常见水下光学图像超分辨率重建和增强数据集

基于深度学习的水下光学图像超分辨率重建综述-4.jpg

直至2020年才出现第1个针对水下光学图像SR重建任务的公开数据集USR-248。它使用多种高清相机在海洋探索和野外实验期间采集HR图像，还在FlickrTM、YouTubeTM和其他互联网在线资源中收集了清晰的水下HR图像。数据集包含各种场景下的多种目标，如珊瑚礁、鱼、潜水员、沉船、废墟。HR图像统一调整为640×480分辨率，采用Bicubic下采样生成3组LR图像，分辨率依次为320×240、160×120和80×60。

在此基础上，USR-2K数据集扩充了训练集和测试集的图像数量，采用了与USR-248相似的构建过程。然而它们仅通过Bicubic下采样生成LR图像，本质上属于只包含HR图像的数据集。为了UFO数据集采用了一种广泛使用的域转移技术，利用CycleGAN模拟水下光学畸变特性，处理从不同水类型、多个地点的海洋勘探中收集的HR水下光学图像，然后使用7×7高斯模糊和Bicubic下采样生成LR图像。HR图像统一为640×480分辨率，LR图像分为3组，分辨率依次为320×240、214×160、160×120。由于水下退化过程由CycleGAN模型进行黑箱化模拟，UFO数据集针对未知（盲）多种退化方式。
除此之外，还有许多针对水下图像增强任务的数据集，经过处理或转换之后也可用于SR重建任务的训练或测试。根据发布时间排序如下：
①TURBID数据集在水箱环境中采集30张分辨率为3000×4000的清晰图像，然后往水箱中依次加入全脂牛奶以模拟19种不同程度的浑浊度。
②WaterGAN通过真实水下图像和空气图像训练GAN模型，以学习表达水下图像风格，将大量在空气中采集的自然图像转换为分辨率为640×480的水下图像。
③OceanDark收集了183张1280×720大小的人工光源低照度水下图像，场景中包含溜冰鞋、螃蟹、鱼、海胆、科学仪器等目标。
④U–45使用水下清晰–退化图像对训练CycleGAN，生成了45张256×256大小的水下退化图像，模拟了颜色失真、低对比度、模糊3种退化过程。
⑤UIEB在真实水下环境中采集了950张低质量图像，使用多种传统方法与深度学习方法相结合的方式进行增强，得到了890张肉眼认为清晰的高质量图像。
⑥RUIE构建了3个子集用于评估水下图像可见度恢复、颜色校正、目标检测能力，分别包含3630张、300张、300张图像。
⑦SUID基于水下成像模型和光学传播特性构建物理模型，使用空气中采集的30张清晰图像合成900张退化后的水下图像。
⑧EUVP使用7个不同的摄像头在不同光照强度和地点采集水下清晰图像，并结合互联网视频，使用CycleGAN模拟水下光学退化过程，包含超过1.2万个配对图像和8千个未配对图像。
⑨SQUID采集不同季节、深度、水类型的57张水下图像，并在拍摄场景中放置了防水彩色卡，以进行严格的物理模型颜色校正。
与自然光学图像质量评价指标类似，水下图像增强任务也通常计算重建图像与测试集中的清晰/HR图像之间的峰值信噪比（PSNR）和结构相似度（SSIM）。当测试集中只包含退化图像时，Quevedo等人设计了针对水下图像的退化机理与成像特点无参考评价指标UIQM，在不需要真实值的情况下综合评价重建图像的颜色、清晰度和对比度。
还有许多数据集针对水下光学图像的分类、检测、分割等高层任务，详见相关文献，本文不再赘述。
三、基于深度学习的水下图像超分辨率重建方法
虽然基于颜色补偿和物理模型等传统针对水下光学成像的多种退化方式取得了一定效果，但它们假设的物理模型系数、同向异性高斯模糊、水介质均匀等情况极大降低了算法在众多水下环境中的泛化性。随着水下光学图像SR重建数据集的发展，近年来许多研究者将基于深度学习的图像SR重建算法应用到水下领域，取得了良好效果。
图3概括了目前基于深度学习的水下光学图像SR重建的过程。首先，通过高清相机、互联网等方式收集水下HR图像，然后通过不同的图像退化模型生成LR图像，构建HR-LR图像对作为训练数据。深度学习SR模型不关注图像退化的方式，只根据HR-LR图像对计算SR重建图像与HR图像的损失值，通过反向传播进行模型训练，即数据驱动。根据水下光学图像退化方式的不同，将现有方法分为针对下采样退化方式和针对多种退化方式2类，第1类方法未考虑水下图像特有的颜色失真、模糊等退化问题。

基于深度学习的水下光学图像超分辨率重建综述-5.jpg

图3 基于深度学习的水下光学图像超分辨率重建过程

⒈针对下采样退化方式
早期缺乏公开的水下光学图像SR重建数据集时，陈龙彪、王海等人借鉴EDSR和SRDenseNet设计模型，使用自采的水下图像进行训练，取得了优于传统上采样方法的SR重建效果。为了获得更具真实感的水下图像，程娜改进了SRGAN模型应用于水下捕捞机器人采集的图像，取得了良好的性能。另外，徐永兵等人设计一种双目图像SR重建算法，输入2帧LR图像，借助多重注意力机制挖掘双目图像的视差信息，实现高质量的上采样重建。
基于公开数据集USR-248和USR-2K，AMPCNet充分利用了注意力和图像内部信息，以两条路径交叉连接的方式实现了多尺度特征提取，取得了良好的定量评价和视觉质量。CHEN等人采用了渐进式上采样结构，结合注意力机制改善了水下图像高倍（×4、×8）放大的性能。ISLAM等人借鉴了EDSR和PatchGAN的模型结构，设计了一种针对水下SISR的生成式模型SRDRM-GAN，可应对多种嘈杂视觉条件的水下环境。AlphaSRGAN引入预处理方法，同时优化了生成器网络结构，提升了生成图像的重建质量。
另外，WANG等人提出了一种基于信息蒸馏的轻量级SR重建网络，采用后上采样结构，大幅降低模型参数和计算复杂度以适用于实时水下应用。在此基础上，袁红春等人引入了全局特征融合和空间注意力机制增强模型特征表达能力，提升了轻量化模型的SR重建性能。
⒉针对多种退化方式
由于水下光学图像包含颜色失真、细节缺失、对比度下降与模糊等多种退化问题，传统方法通常针对每一种退化，逐一设计重建模型。因此，在早期缺乏高质量的水下HR图像时，针对多种退化方式的深度学习SR重建方法首先使用物理模型等传统算法对低质量LR图像进行图像增强，即图5所示的预处理步骤；然后再设计基于CNN或GAN模型生成高质量的HR图像。显而易见，此类方法的缺陷是不能联合优化多种退化问题，泛化性不足。
为了端到端优化训练针对多种退化的深度学习SR模型，实现更好的重建效果，陈浩优化了DPSR模型来处理多种模糊核退化，结合迁移学习的方式在自采水下图像中取得了良好效果。
CHEN等人选择了能够有效模拟水下湍流波形和特征的小波基来代替神经元拟合函数，然后改进了DenseNet密集连接块的结构，在TURBID数据集上验证了已知模糊的重建效果。然而实际情况的水下图像多种退化是未知的，非盲SR重建方法效果的通用性不佳。
UFO数据集基于GAN合成了包含多种退化方式的水下图像，适用于盲图像SR重建。ISLAM等人引入密集残差块和注意力机制设计了DeepSESR模型，同时实现了图像增强和超分辨率重建功能。在此基础上，WANG等人以渐进式上采样结构设计SR网络模型，借鉴全局空间注意力和多尺度残差连接，能够更好地补偿多种图像细节。
最近，REN等人借鉴了基于Transformer设计SR模型的思想，将SwinTransformer嵌入到U-Net模型中，以提高捕获全局特征的能力，在客观评价指标PSNR和SSIM上取得了最先进的性能。为了获得更好的主观视觉感受，AGHELAN引入预训练和迁移学习方法，使用USR-248和UFO数据集微调Real-ESRGAN模型。
美中不足的是，UFO数据集包含的多种退化方式基于GAN合成，而非完全真实水下场景的退化。马文齐使用高倍和低倍摄像头对同一水下场景进行拍摄，得到真实的HR-LR图像对，但仅包含了水下浮游生物图像。
表3对比了目前具有代表性的深度学习水下光学图像超分辨率重建方法，评价指标包括PSNR、SSIM和UIQM，超分辨率倍数包括×2、×3、×4、×8，“±”表示得分的均值和浮动方差，加粗部分表示该数据集下此项指标的最高得分。由对比结果可知，同一种深度学习模型对于不同的退化方式、评价指标和放大倍数的性能均具有差异，没有一种模型在所有指标上均取得最高分。因此在具体的应用场景中，需进行针对性的深度学习模型设计。
表3 基于深度学习的水下光学图像超分辨率重建方法定量评分对比

基于深度学习的水下光学图像超分辨率重建综述-6.jpg

四、结束语
现实应用场景中水下光学图像包含颜色失真、细节缺失、对比度下降与模糊等多种退化问题，超分辨率重建难度远高于常规的自然图像。本文根据图像退化方式的不同，对基于深度学习的单幅自然图像超分辨率重建算法进行分类总结，并归纳分析了水下光学图像退化方式、常见公开数据集和水下光学图像超分辨率重建的最新方法。随着深度学习技术的成熟，水下光学图像超分辨率重建研究尽管取得了一定进展，仍存在一些问题，总结如下：

⑴现有的水下超分辨率数据集过少，未充分考虑水下环境导致的多种图像退化问题，以至于许多方法仅针对单一的下采样退化，泛化性差。
⑵有许多包含多种退化情况的水下图像增强数据集，可以用于超分辨率重建任务，然而仅有极少深度学习超分辨率方法使用图像增强数据集训练。
⑶基于深度学习的水下超分辨率重建模型相对落后，大多数方法是将针对常规自然图像的3年前经典模型进行简单应用。
通过上述总结，结合基于深度学习的自然图像超分辨率重建最新研究以及其他应用领域，对水下光学图像超分辨率重建未来可能的发展趋势进行如下展望：
⑴真实水下图像超分辨率重建。现有的水下光学图像数据集通过从高分辨率图像中人工合成低分辨率图像来生成相互匹配的训练数据集。然而，由于训练和测试数据之间的数据分布存在差异，通过人工合成数据集训练的深度学习模型在现实场景中的应用性能会遭受不可避免的损失，最为常见的就是重建图像产生的伪影。获取完全真实的HR-LR图像对的现有方法通过调整数码相机的焦距，拍摄同一场景中不同分辨率大小的对应图像，并根据不同外部环境因素产生真实的退化过程。但这种采集方式的实施过程复杂困难，需要耗费大量的人力与物力。因此，真实图像超分辨率重建是一个极具价值和挑战性的研究方向。
⑵轻量化超分辨率重建网络模型。在实际水下环境的具体应用中，超分辨率重建模型的推理过程常在嵌入式、边缘设备上运行，比如水下机器人、UUV。然而，这些设备对实时性和功耗方面的要求都相对较高，深度学习模型的高计算成本和内存消耗阻碍了算法的部署应用。因此研究精确、实时、节能的轻量化超分辨率重建网络模型具有重要的应用意义。具体而言，可以采用权重共享策略来减少模型参数，或对大模型进行压缩，减少一些不必要的计算单元。在推理过程中，输入图像不同的图像区域有不同的恢复难度，细节缺失主要存在于边缘区域和纹理区域，因此对于平坦区域可以分配较少的计算资源。通过不同规模的网络模型对不同的图像区域进行处理，使整体计算资源消耗更低。
⑶联合水下目标检测的多任务学习。计算机视觉低层任务包括模糊、去噪、去雾、超分辨率重建等图像增强技术用于改善图像质量；高层任务包括图像分类、目标检测、语义分割等识别技术用于场景感知应用。对于目标检测任务，仅将输入图像放大就能直接提升小目标检测精度，结合超分辨率重建、去模糊网络与目标检测模型进行图像、特征层面的多任务学习，可以同时提升重建性能和检测精度。多任务学习利用参数共享等方式对多个任务进行端到端训练，产生隐式训练数据增加的效果并降低过拟合的风险，实现“1+1>2”。由于水下环境采集的图像常面临各种质量降低问题，联合超分辨率重建网络与目标检测模型进行多任务学习，可以更好的适用于水下探测等任务。
⑷基于其他水下传感器的超分辨率重建。在水下目标探测任务中，由于成像环境的限制，光学传感器仅适用于近距离感知，声呐等水声传感器更适用于远距离探测。声呐图像的自主目标识别被广泛应用于民用、军事领域。然而，海水介质的非均匀性会造成声信号的衰减和畸变，同时各种漂浮物和颗粒都会增大声波传输过程中的多径效应，极大影响了声呐图像质量。目前已有一些方法应对侧扫声呐图像和水声通信信道的超分辨率重建，尽管只针对单一的下采样退化。因此，研究基于更多退化方式的水下声呐图像超分辨率重建算法具有极大的应用价值。此外，基于多模态融合和参考图像的超分辨率重建算法可以借助更多信息提升算法性能。随着无人艇以及UUV的进一步发展与应用，对水下光传感器、前视声呐、侧扫声呐、合成孔径声呐采集的图像进行融合分析极具研究前景。

-----------------------------

帐号		自动登录	找回密码
密码			立即注册