Page 132 - 《软件学报》2021年第9期
P. 132
2756 Journal of Software 软件学报 Vol.32, No.9, September 2021
率图像的问题,而图像着色可以看作是将灰度图像映射到相应的彩色图像.这个问题可以在有监督和无监督的
学习环境中进行研究.在无监督学习中,只有两组独立的图像,其中一组图像组成一个域,另一个域包含另一组
图像,但训练图像不匹配,即不是成对的训练集.由于缺乏相应的图像,无监督的图像到图像转换问题更难考虑
也更难实现.在有监督学习中,可在不同的域中训练配对相应的图像 [1,2] ,有监督学习能够使生成图像与输入图
像像素之间的映射关系更加准确,能够避免类似无监督学习中出现的生成图像不可控的现象.
利用卷积神经网络(convolutional neural networks,简称 CNN)进行有监督学习,在生成图像时也需要最小化
损失函数,并作为网络调优的标准.然而,在采取了这种方法时,要求 CNN 尽量减少预测图像与真实图像之间的
欧氏距离,它可能会产生模糊的结果 [3,4] ,其原因是欧式距离通过平均所有像素的输出而导致模糊.因此,要让
CNN 网络针对特定的转换任务就需要制定特定的损失函数,但这是一个棘手的难题.如果可以指定网络只有一
个高层次的目标,比如“使生成图像难辨真伪”,然后自动学习一个损失函数以实现此目标,这种方式也就是生成
对抗网络的思路(generative adversarial nets,简称 GAN) [5−8] .GAN 尝试分类输出图像是真实或者伪造的,同时训
练生成模型,其损失函数可以应用于传统上需要种类差别很大的任务.在这样的背景下,如何利用优化 GAN 网
络进行有监督学习、进行图像的各种转换,都已经渐渐成为研究热点.
图像转换包含多种类型,比如图像的风格转换,将水墨画转换成山水画、将真实图像卡通化;图像的色彩转
换,比如彩色与黑白图像之间;图像的内容转换,比如卫星图像与地图的转换、斑马与马的转换;图像的场景转换,
比如白天到黑夜等等.这些对图像的变换、纹理调整、风格化编辑,在艺术、科研、工程领域均有所应用.然而,
由于时间、地点和相机参数等限制,通过人工方法采集同一景物不同场景的图像有很大的困难;而通过图像处
[9]
理的方法,比如进行超分辨率、锐化、去噪 等方式对图像进行优化,提升图像质量,是一条可行性较高的途径.
作为图像转换领域的代表,图像风格转换相关领域研究趋于成熟.现有的图像风格转换有两类:一类是基于
全局 [10] ,通过匹配像素颜色的均值和方差或其柱状图来实现样式化;另一类是基于局部 [11,12] ,通过利用低层次或
高层次特征内容和风格照片之间的密集对应关系对图像进行风格化.这些方法在实践中很耗时,并且通常是为
特定场景来设定的.Gatys 等人 [13] 提出了艺术风格的神经风格转换算法,其主要步骤是解决从内容图像和风格
图像中提取深层特征与 Gram 矩阵匹配.目前已有了许多方法,在此算法上 [14−16] 进一步提高其性能和速度.然而,
这些方法有时生成的图像不够真实,所以还需要在此基础上进行后处理 [17] ,来匹配输入图像与输出图像的梯度.
高保真的图像风格化与图像到图像的翻译问题 [18−22] 有关,目标是学习将图像从一个域翻译到另一个域.然
而,真实照片图像的风格化并不需要学习翻译功能的内容和风格图像的训练数据集.照片写实图像的风格化,可
以看作是一种特殊的图像到图像的转换,用来把照片翻译成不同的领域(例如从白天到晚上).Luan 等人 [23] 通过
在优化目标中加入一个新的损失函数,提高了风格转换算法计算出的风格化输出的真实感,从而更好地保留图
[1]
像内容中的局部结构.然而,它通常会产生不一致的风格化;此外,该方法的计算成本也很高.Pix2pix 将条件
GAN [24] 用于不同的图像转换,例如将谷歌地图转换为卫星视图等.在没有训练对的情况下,实现图像到图像翻
译的各种方法 [19,21,25] 也陆续被提出.而 Chen 等人 [26] 指出:由于训练的不稳定性和优化问题,条件 GAN 训练难以
生成高分辨率图像.为了避免这种困难,提出了感知损失 [27] .生成的图像是高分辨率的,但往往缺乏细节和现实
的纹理.
基于以上的研究,本文提出了一种新型的基于生成对抗网络的图像场景转换算法,主要有如下 3 点创新.
首先,设计了新的生成器网络结构.主要采用带跨层连接结构的深度卷积,通过跨层连接能够实现底层卷积
与顶层卷积的信息共享,更好地保留了图像的内容结构,最终使输出图像与输入图像的结构和边缘保持一致;
其次,设计了多尺度判决器网络结构,分别对图像的不同尺度进行判决.当判决器的输入图像为大尺度时更
关注图像的细节,小尺度时更关注图像的结构.这样将大小尺度相结合的方式,能够在判决时兼顾图像的细节和
结构;
最后,提出了新的损失函数.基于常用的损失函数 GAN 损失和 L 1 损失,加入了 VGG 损失和 FM(特征匹配)
损失,以利用 VGG 网络和判决器网络来增加对生成对抗网络的控制,最终使生成图像与目标图像更加接近.