Page 111 - 《武汉大学学报（信息科学版）》2025年第9期

P. 111

第 50 卷第 9 期虞欣等：遥感影像场景识别的贝叶斯共轭批次归一化方法 1839

遥感影像分析与理解一直是遥感领域中研（batch size， BS）比较敏感。在 BS 较小的条件
究的热点和难点［1-2］。在 2012 年之前，随机森林下，其性能常被打破［12-14］，这是因为此时带有一定
法、贝叶斯网络、马尔可夫链、支持向量机等传统的噪声，使得估计的该批次的样本均值和样本方
的机器学习方法受到学者们较多关注［3-4］。由于差缺乏一定的鲁棒性，导致性能急剧下降。此
这些方法都是事先人工设计特征，且特征提取与外，深度学习因其模型的复杂度需要大量的计
分类过程是相对独立的两个部分，通常又被称为算，通常需要利用 GPU 或 CPU 进行并行计算来
浅学习。在 2012 年 ImageNet 大规模视觉识别挑加快模型的学习［13］。考虑到硬件方面（主要是显
战赛中，深度学习方法比浅学习方法高出约 10% 存）的限制，在利用 GPU 进行并行计算时，每个批
的分类精度，成为计算机视觉领域中的里程碑事次的 BS 受到显存大小的限制［14］。因而，每个批
件［5-6］。之后国内外掀起了深度学习的研究热潮，次的 BS 较小会阻碍 BN 在耗费显存任务中的应
逐渐成为遥感领域学者们的关注热点。目前，第用，如目标检测［15］、语义分割［16］和动作识别［17］等。
三代人工智能技术的兴起为遥感影像智能解译针对每个批次 BS 较小的问题，学者们提出
提供了方向，即将知识推理和数据学习结合起了从批次样本大小以外的其他维度，如通道、层、
来，建立一个以数据自主学习为核心、以领域先时间等来间接弥补这个缺陷的一系列改良方法，
验知识推理为引导的新一代遥感影像解译如 IN ［18］、LN ［19］、GN ［14］、可切换归一化（switchable
［7］
范式。 normalization，SN）［20］、位置归一化（positional
归一化方法是一种简化计算的方式，将有量 normalization，PN）［21］、交叉迭代批量归一化
［22］
纲的表达式进行变换，化为无量纲的表达式，成（cross-iteration batch normalization，CBN）和滤
为标量。常见的方法有批次归一化（batch nor⁃ 波器响应归一化（filter response normalization，
［23］
malization，BN）、层归一化（layer normalization， FRN）等。深度学习因其模型的复杂度，往往
LN）、组归一化（group normalization， GN）和实例需要借助大量的训练样本进行模型的学习。一
归一化（instance normalization，IN）等。无论是在方面，这些方法忽略了整个训练样本集 BS 较大
浅学习，还是在当今流行的深度学习中，归一化的优势，另一方面，因其他维度信息与样本容量
［8］
方法在特征预处理的过程中都至关重要。2012 信息在物理属性等方面存在明显的差异，所以用
年，Google 在 AlexNet 中提出局部响应归一化方其他维度来间接弥补每个批次的 BS 较小的方法
法［9］，其创意受到认知神经科学中的侧抑制现只是一种近似方法，所估计的样本均值和样本方
象［10-11］的启发，即由于相邻神经元的活动导致某差与总体均值和总体方差必然存在一定的差距。
个神经元活动的降低。在浅学习中，对输入的特因而，ICS 还存在进一步改善的空间。本文基于
征进行标准化处理可有效提高模型的精度。受整个训练集具有大 BS 的优势，借助贝叶斯统计
此启发，既然在网络的输入层可以加入归一化，理论，充分发挥训练样本集中大样本的总体信息
那么在网络的隐层为何不可以加入标准化处理和先验信息，直接弥补 BS 较小的不足。所提方
呢？于是，笔者对每层进行归一化（包括加权和法既避免了 BS 所携带的统计信息与其他维度所
标准化），然后通过缩放平移来适度还原，做到了携带统计信息在物理属性等方面的差异，又可以
既不过分破坏输入信息，又抑制了各批次之间位更加准确地估计 BS 较小条件下的样本均值和方
置点像素分布的剧烈变化带来的学习难度。实差，使得在贝叶斯准则下最大限度地接近样本的
际上，在深度学习中，各卷积层中的权重和偏置总体均值和总体方差，从而在原有 BN 的基础上
的更新会导致网络输出数据的分布发生变化，随进一步减少 ICS，使得深度学习模型能更好地表
着模型深度的增加，依据链式法则，数据分布的征原始特征空间，进而可以获得更高的模型
偏移现象会随着层数的增加而逐渐被放大，这种精度。
现象被称为内部协方差偏移（internal covariance 随着深度学习模型的发展，模型的规模越来
shift， ICS）。于是，BN ［12］因其能够有效提升网络越大，模型的深度越来越深，这使得训练深度神
训练效率而获得广泛应用与持续研究，成为目前经网络也变得越来越复杂，从而更加凸显归一化
主流的一种归一化方法，为深度学习模型的训练方法的作用和地位［24-25］。BN 的缺陷如下：（1）依
提供了一种有效的解决方案。赖于每个 BS 大小，当批次的 BS 较小时，估计的
然而，BN 方法对每个批次的样本容量样本均值和样本方差与总体均值和总体方差会

106 107 108 109 110 111 112 113 114 115 116