Page 209 - 《软件学报》2021年第5期
P. 209
宋杰 等:基于深度学习的数字病理图像分割综述与展望 1433
为了避免过拟合,通常也将随机丢弃(dropout)技术 [55] 应用到网络模型学习.此外,CNN 通过使用数据扩充机制增
加训练样本数量及多样性,进而既避免了过拟合又提升了模型性能.
在分割应用中,CNN 在卷积层之后会接上若干个全连接层,将卷积层产生的特征图映射成一个固定长度的
特征向量,以实现图像级的分割任务 [49] .基于 CNN 的分割方法为了对一个像素分类,通常使用该像素周围的一
个图像块作为 CNN 的输入用于训练和预测.由于只能提取一些局部的特征,从而导致分割的性能受到限制.近
年来,随着网络变得越来越深,CNN 的特征表达能力不断提升,例如 ResNet 和 DenseNet,但其仍然无法避免从固
定输入到固定输出的学习本质.因此,传统基于 CNN 的图像分割方法采取的策略是使用预训练好的 CNN 网络
模型作为编码器用于生成系列特征图,并结合额外的预处理或后处理步骤来完成特定的分割任务,具体细节请
读者参考 CNN 源码链接(https://github.com/weiaicunzai/ pytorch-cifar100).
3.2 全卷积网络
FCN [16] 是 CNN 的变种网络模型,其主要思想是采用卷积神经网络实现从图像像素到像素类别的变换,例如
VGG16、GoogLeNet.与 CNN 不同,FCN 网络使用卷积层代替全连接层,并通过转置卷积(transposed convolution)
层将中间层特征图的高和宽变换回输入图像的尺寸,从而令预测结果与输入图像在空间维上一一对应.因此,在
网络实现中,FCN 可以接受任意尺寸的输入图像,并生成相同尺寸的分割图.图 5 显示了 FCN 网络示例.
Fig.5 Architecture of FCN
图 5 FCN 体系结构
FCN 通过使用跳跃连接结构对网络模型最后层的特征图进行上采样,并与较浅层的特征图进行融合,将高
层语义信息和底层图像信息组合起来,以生成精细的分割结果.目前,FCN 在 PASCAL VOC、NYUDv2 等多个测
试数据集上均取得了较传统方法更优的分割性能.
FCN 为图像分割带来了里程碑式的影响,能够从抽象的特征中恢复出每个像素所属的类别,即从图像级别
的分类进一步延伸到像素级别的分类,从而可实现端到端的模型训练和语义分割结果.然而,FCN 仍存在一些不
足,包括:(1) 实时推理能力有待加强;(2) 没有充分考虑全局上下文信息;(3) 难以推广到三维(3D)及更高维图
像.近年来,基于 FCN 网络模型,很多改进的方法被提出来广泛应用于语义分割中.例如,Liu 等人提出的 ParseNet
模型通过使用一层的平均特征增广每个位置上的特征,以实现补充全局语义信息的目的 [56] .至于其他模型,请读
者参考 FCN 源码链接(https://github.com/tangzhenyu/semanticsegmentation_dl).
3.3 编码器-解码器与自编码器模型
另一类用于图像语义分割的代表性网络是编码器-解码器模型 [57] .编码器-解码器模型利用对称网络结构
将数据点从输入域映射到输出域,其主要思想是:利用编码函数 z=g(x)所定义的编码器(encoder)将输入压缩成
特征空间表示,再利用解码器(decoder)y=f(z)从特征空间表示中预测输出结果.其中,特征表示能够捕获输入潜在
的语义信息,有助于预测输出.编码器-解码器模型是目前比较流行的图像到图像转换以及自然语言处理方法,
ˆ
L yy
如图 6 所示.这类模型通过最小化重构误差损失 (, ) 进行逐层训练,可以实现端到端的学习.其中,y 为人工分
割样本, ˆ y 为预测的分割结果.