Page 111 - 《武汉大学学报(信息科学版)》2025年第9期
P. 111

第 50 卷第 9 期            虞   欣等:遥感影像场景识别的贝叶斯共轭批次归一化方法                                  1839


                    遥感影像分析与理解一直是遥感领域中研                          (batch size, BS)比 较 敏 感 。 在 BS 较 小 的 条 件
                究的热点和难点        [1-2] 。在 2012 年之前,随机森林           下,其性能常被打破         [12-14] ,这是因为此时带有一定
                法、贝叶斯网络、马尔可夫链、支持向量机等传统                          的噪声,使得估计的该批次的样本均值和样本方
                的机器学习方法受到学者们较多关注                  [3-4] 。由于     差 缺 乏 一 定 的 鲁 棒 性 ,导 致 性 能 急 剧 下 降 。 此
                这些方法都是事先人工设计特征,且特征提取与                           外 ,深 度 学 习 因 其 模 型 的 复 杂 度 需 要 大 量 的 计
                分类过程是相对独立的两个部分,通常又被称为                           算,通常需要利用 GPU 或 CPU 进行并行计算来
                浅学习。在 2012 年 ImageNet 大规模视觉识别挑                  加快模型的学习        [13] 。考虑到硬件方面(主要是显
                战赛中,深度学习方法比浅学习方法高出约 10%                         存)的限制,在利用 GPU 进行并行计算时,每个批
                的分类精度,成为计算机视觉领域中的里程碑事                           次的 BS 受到显存大小的限制            [14] 。因而,每个批
                件 [5-6] 。之后国内外掀起了深度学习的研究热潮,                     次的 BS 较小会阻碍 BN 在耗费显存任务中的应
                逐渐成为遥感领域学者们的关注热点。目前,第                           用,如目标检测       [15] 、语义分割 [16] 和动作识别   [17] 等。
                三代人工智能技术的兴起为遥感影像智能解译                                针对每个批次 BS 较小的问题,学者们提出
                提 供 了 方 向 ,即 将 知 识 推 理 和 数 据 学 习 结 合 起          了从批次样本大小以外的其他维度,如通道、层、
                来,建立一个以数据自主学习为核心、以领域先                           时间等来间接弥补这个缺陷的一系列改良方法,
                验 知 识 推 理 为 引 导 的 新 一 代 遥 感 影 像 解 译             如 IN [18] 、LN [19] 、GN [14] 、可切换归一化(switchable
                    [7]
                范式 。                                            normalization,SN) [20] 、位 置 归 一 化(positional
                    归一化方法是一种简化计算的方式,将有量                         normalization,PN) [21] 、交 叉 迭 代 批 量 归 一 化
                                                                                                     [22]
                纲的表达式进行变换,化为无量纲的表达式,成                           (cross-iteration batch normalization,CBN) 和 滤
                为 标 量 。 常 见 的 方 法 有 批 次 归 一 化(batch nor⁃        波 器 响 应 归 一 化(filter  response  normalization,
                                                                     [23]
                malization,BN)、层 归 一 化(layer  normalization,    FRN) 等。深度学习因其模型的复杂度,往往
                LN)、组归一化(group normalization, GN)和实例            需要借助大量的训练样本进行模型的学习。一
                归一化(instance normalization,IN)等。无论是在            方面,这些方法忽略了整个训练样本集 BS 较大
                浅学习,还是在当今流行的深度学习中,归一化                           的优势,另一方面,因其他维度信息与样本容量
                                                   [8]
                方法在特征预处理的过程中都至关重要 。2012                         信息在物理属性等方面存在明显的差异,所以用
                年,Google 在 AlexNet 中提出局部响应归一化方                  其他维度来间接弥补每个批次的 BS 较小的方法
                法 [9] ,其 创 意 受 到 认 知 神 经 科 学 中 的 侧 抑 制 现        只是一种近似方法,所估计的样本均值和样本方
                象 [10-11] 的启发,即由于相邻神经元的活动导致某                    差与总体均值和总体方差必然存在一定的差距。
                个神经元活动的降低。在浅学习中,对输入的特                           因而,ICS 还存在进一步改善的空间。本文基于
                征进行标准化处理可有效提高模型的精度。受                            整个训练集具有大 BS 的优势,借助贝叶斯统计
                此启发,既然在网络的输入层可以加入归一化,                           理论,充分发挥训练样本集中大样本的总体信息
                那么在网络的隐层为何不可以加入标准化处理                            和先验信息,直接弥补 BS 较小的不足。所提方
                呢?于是,笔者对每层进行归一化(包括加权和                           法既避免了 BS 所携带的统计信息与其他维度所
                标准化),然后通过缩放平移来适度还原,做到了                          携带统计信息在物理属性等方面的差异,又可以
                既不过分破坏输入信息,又抑制了各批次之间位                           更加准确地估计 BS 较小条件下的样本均值和方
                置点像素分布的剧烈变化带来的学习难度。实                            差,使得在贝叶斯准则下最大限度地接近样本的
                际上,在深度学习中,各卷积层中的权重和偏置                           总体均值和总体方差,从而在原有 BN 的基础上
                的更新会导致网络输出数据的分布发生变化,随                           进一步减少 ICS,使得深度学习模型能更好地表
                着模型深度的增加,依据链式法则,数据分布的                           征 原 始 特 征 空 间 ,进 而 可 以 获 得 更 高 的 模 型
                偏移现象会随着层数的增加而逐渐被放大,这种                           精度。
                现象被称为内部协方差偏移(internal covariance                    随着深度学习模型的发展,模型的规模越来
                shift, ICS)。于是,BN   [12] 因其能够有效提升网络             越大,模型的深度越来越深,这使得训练深度神
                训练效率而获得广泛应用与持续研究,成为目前                           经网络也变得越来越复杂,从而更加凸显归一化
                主流的一种归一化方法,为深度学习模型的训练                           方法的作用和地位         [24-25] 。BN 的缺陷如下:(1)依
                提供了一种有效的解决方案。                                   赖于每个 BS 大小,当批次的 BS 较小时,估计的
                    然 而 ,BN 方 法 对 每 个 批 次 的 样 本 容 量             样本均值和样本方差与总体均值和总体方差会
   106   107   108   109   110   111   112   113   114   115   116