Page 210 - 《软件学报》2021年第5期
P. 210
1434 Journal of Software 软件学报 Vol.32, No.5, May 2021
Fig.6 Architecture of a classical encoder-decoder model
图 6 经典编码器-解码器模型体系结构
基于编码器-解码器的分割方法在编码器之后接上解码器,利用对称网络结构进行图像语义解析.例如,
DeconvNet [58] 由 VGG16 网络和反卷积网络构成:前者起到编码器作用,用于提取图像特征;而后者使用特征向量
作为反卷积层和上池化层的输入用于逐像素分类和预测分割掩膜.类似地,SegNet [59] 利用最大池化索引执行非
线性上采样.与 DeconvNet 相比,该学习模型能够避免上采样的学习过程,因而参数规模较小.至于更多基于编码
器-解码器的分割方法,请读者参考源码链接(https://github.com/mrgloom/awesome-semantic-segmentation).
自编码器属于编码器-解码器模型的一个特例,这是一种无监督的特征学习网络,其主要思想是:通过将输
入作为学习目标,对其进行特征表示学习.近年来,基于自编码器,很多改进的模型被提出来广泛应用于数据分
类、模式识别等领域.代表性模型包括栈式去噪自编码器(stacked denoising auto-encoder,简称 SDAE) [60] 和变分
自编码器(variational auto-encoder,简称 VAE) [61] :前者将自编码器进行堆叠用于图像去噪;后者将一个先验分布
引入特征表示,由此从给定数据分布中生成真实样本.
3.4 循环神经网络
如图 7 所示,RNN 及其变种网络 [62,63] 可描述动态时间行为,显式地建模序列数据和多维数据中的复杂依赖
关系,其主要思想是利用独特设计结构:“门”,将输入序列编码为隐藏状态,并通过更新隐藏状态记忆数据中的重
要信息,实现对长期依赖关系的预测.
Fig.7 Schematic diagram of RNN
图 7 RNN 示意图
而隐藏状态的更新策略包括 3 类:双曲正切(tanh) [18] 、长短期记忆(long short-term memory,简称 LSTM) [62]
和门控循环单元(gated recurrent unit,简称 GRU) [63] .其中,LSTM 单元和 GRU 通过设计门内特殊交互机制调节信
息流,有选择地丢弃和添加信息,从而保留重要特征,并保证其在长期传播过程中不会丢失,见图 8.在训练过程
中,门控机制也在一定程度上缓和了传统 RNN 的退化问题,有助于理解模型的决策依据.
基于 RNN 的分割方法通常采用 RNN 作为 CNN 模型的独立层用于建模图像局部和全局上下文信息以提
取像素序列特征,从而可实现精准语义分割.门控 RNN 使用 LSTM 单元和 GRU 代替传统 tanh 模块,虽然提升了
上下文特征学习的能力,但由于单元中序列输入的拓扑结构大多是预定义的 [64] ,只能学习固定的上下文特征,缺
乏对结构化信息的考虑,因而当目标结构变化时,分割结果会有较大差异.为此,人们提出了若干改进方法,例如
梁小丹等人结合图论改进输入拓扑以引导门控 RNN 自适应地学习节点间的语义相关性 [65,66] .至于其他方法,可
参考 RNN 源码链接(https://github.com/element-research/rnn).