Page 210 - 《软件学报》2021年第5期
P. 210

1434                                     Journal of Software  软件学报 Vol.32, No.5,  May 2021












                                       Fig.6    Architecture of a classical encoder-decoder model
                                            图 6   经典编码器-解码器模型体系结构

                    基于编码器-解码器的分割方法在编码器之后接上解码器,利用对称网络结构进行图像语义解析.例如,
                 DeconvNet [58] 由 VGG16 网络和反卷积网络构成:前者起到编码器作用,用于提取图像特征;而后者使用特征向量
                 作为反卷积层和上池化层的输入用于逐像素分类和预测分割掩膜.类似地,SegNet                         [59] 利用最大池化索引执行非
                 线性上采样.与 DeconvNet 相比,该学习模型能够避免上采样的学习过程,因而参数规模较小.至于更多基于编码
                 器-解码器的分割方法,请读者参考源码链接(https://github.com/mrgloom/awesome-semantic-segmentation).
                    自编码器属于编码器-解码器模型的一个特例,这是一种无监督的特征学习网络,其主要思想是:通过将输
                 入作为学习目标,对其进行特征表示学习.近年来,基于自编码器,很多改进的模型被提出来广泛应用于数据分
                 类、模式识别等领域.代表性模型包括栈式去噪自编码器(stacked denoising auto-encoder,简称 SDAE)              [60] 和变分
                 自编码器(variational auto-encoder,简称 VAE) [61] :前者将自编码器进行堆叠用于图像去噪;后者将一个先验分布
                 引入特征表示,由此从给定数据分布中生成真实样本.
                 3.4   循环神经网络
                    如图 7 所示,RNN 及其变种网络        [62,63] 可描述动态时间行为,显式地建模序列数据和多维数据中的复杂依赖
                 关系,其主要思想是利用独特设计结构:“门”,将输入序列编码为隐藏状态,并通过更新隐藏状态记忆数据中的重
                 要信息,实现对长期依赖关系的预测.








                                               Fig.7    Schematic diagram of RNN
                                                     图 7   RNN 示意图
                    而隐藏状态的更新策略包括 3 类:双曲正切(tanh)            [18] 、长短期记忆(long short-term memory,简称 LSTM) [62]
                 和门控循环单元(gated recurrent unit,简称 GRU) [63] .其中,LSTM 单元和 GRU 通过设计门内特殊交互机制调节信
                 息流,有选择地丢弃和添加信息,从而保留重要特征,并保证其在长期传播过程中不会丢失,见图 8.在训练过程
                 中,门控机制也在一定程度上缓和了传统 RNN 的退化问题,有助于理解模型的决策依据.
                    基于 RNN 的分割方法通常采用 RNN 作为 CNN 模型的独立层用于建模图像局部和全局上下文信息以提
                 取像素序列特征,从而可实现精准语义分割.门控 RNN 使用 LSTM 单元和 GRU 代替传统 tanh 模块,虽然提升了
                 上下文特征学习的能力,但由于单元中序列输入的拓扑结构大多是预定义的                           [64] ,只能学习固定的上下文特征,缺
                 乏对结构化信息的考虑,因而当目标结构变化时,分割结果会有较大差异.为此,人们提出了若干改进方法,例如
                 梁小丹等人结合图论改进输入拓扑以引导门控 RNN 自适应地学习节点间的语义相关性                             [65,66] .至于其他方法,可
                 参考 RNN 源码链接(https://github.com/element-research/rnn).
   205   206   207   208   209   210   211   212   213   214   215