Page 113 - 《武汉大学学报（信息科学版）》2025年第9期

P. 113

第 50 卷第 9 期虞欣等：遥感影像场景识别的贝叶斯共轭批次归一化方法 1841

S i 表示在计算样本均值和标准差时的像素集合；参数 θ 的概率分布假设； p( x|θ )表示在已知 θ 的条
m 表示该集合的势。对于不同类型的归一化方件下关于 x 的条件概率密度函数，即似然函数，描
法，其主要差异在于计算样本均值和标准差的述了在不同参数 θ 下观测到数据 x 的概率密度；
集合。 h ( x，θ ) 则是 θ 和 x 的联合概率密度函数，综合了
对于 BN 方法［12］，集合 S i 定义为：先验和似然的信息。然而在样本 x 给定的条件
S i = { k|i C = k C } （4）下， θ 的条件分布被称为 θ 的后验分布，记作
式中， i C 和 k C 分别表示沿着 C 轴的索引 i 和 k 在波 π ( θ|x )，它集中体现了总体、样本和先验 3 种信息
段维度上的下标索引，以下表示类似。对具有相中与 θ 相关的所有内容，排除了无关信息，是进行
同波段索引的像素进行归一化，即 BN 方法对每统计推断的重要依据，基于此分布进行推断通常
个波段计算样本均值和方差 ( N × H × W )。更为有效且合理。
对于 LN 方法［19］，集合 S i 定义为：在实际应用中，尤其是深度学习领域，训练
S i = { k|k N = i N } （5）样本的规模往往较大，通常达到上万甚至更多。
即 LN 方法是对每个样本计算样本均值和样本方假设样本的特征服从正态分布，在正态方差已知
差 ( C × H × W )，与批次维度 N 无关。的条件下，其正态均值的共轭分布也是正态分
对于 IN 方法［18］，集合 S i 定义为：布。假设现有一个完整的训练集，样本的每个特
2
2
S i = { k|k N = i N,k C = i C } （6）征服从正态分布 N（μ 0， σ 0），其中 μ 0 和 σ 0 为总体均
即 IN 方法对每个样本和每个波段计算样本均值值和方差。另有一个批次的样本，BS 为 m，样本
和方差 ( H × W )。均值和方差分别为 μ s 和 σ s ， μ 1 和 σ 1 为根据总体信
2
2
BN、LN 和 IN 均学习了一个逐波段的线性变息、样本信息和先验信息综合估计得到的最终的
换，以补偿特征表示时可能的信息损失。线性变样本均值和方差，即后验均值和后验方差。按照
换为 y i = γx ̂ + β，其中 γ 和 β 是可训练的尺度和贝叶斯方法对 μ 1 和 σ 1 进行估算，具体的推导过程
2
i
平移方面的参数。参见文献［42］，二者的计算式分别为：
对于 GN 方法［14］，集合 S i 定义为： μ s σ s + μ 0 σ 0 -2 σ 0 -2
-2
μ 1 = = μ 0 +
ì ê ê ê k C ú ú ú ê ê ê i C ú ú ü ú σ 0 + σ s -2 σ 0 + σ s -2
-2
-2
S i = í k|k N = i N, êê ú ú = êê ý ú ú （7）
î ë C/G û ë C/G þ û σ s -2
μ s （9）
-2
式中， G 表示分组数量，是预定义的超参数； C/G σ 0 + σ s -2
2 2
表示每个组内的波段数； ë û 为取单精度浮点数操 2 σ 0 σ s
σ 1 = （10）
2 2
σ 0 + σ s
ê ê ê k C ú ú ú ê ê ê i C ú ú ú
作； êê ú ú = êê ú ú 表示索引 i 和 k 是相同的波实际上，方差的倒数发挥着重要作用，通常
ë C/G û ë C/G û
称其为精度。从式（9）来看， μ 1 可以看作总体均
段分组。GN 方法对每个组内的 C/G 个波段数计
算样本均值和方差 (( C/G )× H × W )。值 μ 0 和样本均值 μ s 的加权平均，并根据总体方差
1.2 贝叶斯共轭方法和样本方差的大小进行科学合理的融合。如果
前文提及的 BN、LN、IN 和 GN 方法估计样方差相对较大，方差的倒数就相对较小，所以其
本均值和方差的主要差别在于所采用的样本空均值在最终估计中的权重较小，反之亦然。这表
间不同，适用于不同的任务。从贝叶斯角度来明后验均值是在先验均值与样本均值之间采取
看，这些方法的共同缺陷在于仅采用了样本信了一种科学、合理的折衷方案。从式（10）来看，
息，而忽略了总体信息和先验信息，从而使得估后验分布的精度是样本均值分布的精度与先验
计的样本均值和方差不够准确、鲁棒，进而在一分布精度之和，增加 BS 或减少先验分布方差都
定程度上制约了归一化的实际效果。有利于提高后验分布的精度。这便从理论上说
采用密度函数形式，贝叶斯方法的计算式为：明当 BS 较小时，如何充分利用总体信息和先验
信息来弥补 BS 较小时所携带样本信息的不足。
h ( x,θ ) p( x|θ ) π ( θ )
π ( θ|x )= = （8） 1.3 BABN 方法
m ( x )
∫ p( x|θ ) π ( θ ) dθ
实际上，现有的 BN 方法在估算样本均值和
式中， m ( x ) 表示 x 的边缘密度函数； π ( θ ) 表示参方差时，其精度还存在一定的改善空间，特别是
数 θ 的先验密度函数，反映了在观测数据之前对当批次的 BS 较小时，其估计值的精度明显降低。

108 109 110 111 112 113 114 115 116 117 118