Page 113 - 《武汉大学学报(信息科学版)》2025年第9期
P. 113
第 50 卷第 9 期 虞 欣等:遥感影像场景识别的贝叶斯共轭批次归一化方法 1841
S i 表示在计算样本均值和标准差时的像素集合; 参数 θ 的概率分布假设; p( x|θ )表示在已知 θ 的条
m 表示该集合的势。对于不同类型的归一化方 件下关于 x 的条件概率密度函数,即似然函数,描
法 ,其 主 要 差 异 在 于 计 算 样 本 均 值 和 标 准 差 的 述了在不同参数 θ 下观测到数据 x 的概率密度;
集合。 h ( x,θ ) 则是 θ 和 x 的联合概率密度函数,综合了
对于 BN 方法 [12] ,集合 S i 定义为: 先验和似然的信息。然而在样本 x 给定的条件
S i = { k|i C = k C } (4) 下 , θ 的 条 件 分 布 被 称 为 θ 的 后 验 分 布 ,记 作
式中, i C 和 k C 分别表示沿着 C 轴的索引 i 和 k 在波 π ( θ|x ),它集中体现了总体、样本和先验 3 种信息
段维度上的下标索引,以下表示类似。对具有相 中与 θ 相关的所有内容,排除了无关信息,是进行
同波段索引的像素进行归一化,即 BN 方法对每 统计推断的重要依据,基于此分布进行推断通常
个波段计算样本均值和方差 ( N × H × W )。 更为有效且合理。
对于 LN 方法 [19] ,集合 S i 定义为: 在实际应用中,尤其是深度学习领域,训练
S i = { k|k N = i N } (5) 样本的规模往往较大,通常达到上万甚至更多。
即 LN 方法是对每个样本计算样本均值和样本方 假设样本的特征服从正态分布,在正态方差已知
差 ( C × H × W ),与批次维度 N 无关。 的 条 件 下 ,其 正 态 均 值 的 共 轭 分 布 也 是 正 态 分
对于 IN 方法 [18] ,集合 S i 定义为: 布。假设现有一个完整的训练集,样本的每个特
2
2
S i = { k|k N = i N,k C = i C } (6) 征服从正态分布 N(μ 0, σ 0),其中 μ 0 和 σ 0 为总体均
即 IN 方法对每个样本和每个波段计算样本均值 值和方差。另有一个批次的样本,BS 为 m,样本
和方差 ( H × W )。 均值和方差分别为 μ s 和 σ s , μ 1 和 σ 1 为根据总体信
2
2
BN、LN 和 IN 均学习了一个逐波段的线性变 息、样本信息和先验信息综合估计得到的最终的
换,以补偿特征表示时可能的信息损失。线性变 样本均值和方差,即后验均值和后验方差。按照
换为 y i = γx ̂ + β,其中 γ 和 β 是可训练的尺度和 贝叶斯方法对 μ 1 和 σ 1 进行估算,具体的推导过程
2
i
平移方面的参数。 参见文献[42],二者的计算式分别为:
对于 GN 方法 [14] ,集合 S i 定义为: μ s σ s + μ 0 σ 0 -2 σ 0 -2
-2
μ 1 = = μ 0 +
ì ê ê ê k C ú ú ú ê ê ê i C ú ú ü ú σ 0 + σ s -2 σ 0 + σ s -2
-2
-2
S i = í k|k N = i N, êê ú ú = êê ý ú ú (7)
î ë C/G û ë C/G þ û σ s -2
μ s (9)
-2
式中, G 表示分组数量,是预定义的超参数; C/G σ 0 + σ s -2
2 2
表示每个组内的波段数; ë û 为取单精度浮点数操 2 σ 0 σ s
σ 1 = (10)
2 2
σ 0 + σ s
ê ê ê k C ú ú ú ê ê ê i C ú ú ú
作 ; êê ú ú = êê ú ú 表 示 索 引 i 和 k 是 相 同 的 波 实际上,方差的倒数发挥着重要作用,通常
ë C/G û ë C/G û
称其为精度。从式(9)来看, μ 1 可以看作总体均
段分组。GN 方法对每个组内的 C/G 个波段数计
算样本均值和方差 (( C/G )× H × W )。 值 μ 0 和样本均值 μ s 的加权平均,并根据总体方差
1.2 贝叶斯共轭方法 和样本方差的大小进行科学合理的融合。如果
前 文 提 及 的 BN、LN、IN 和 GN 方 法 估 计 样 方差相对较大,方差的倒数就相对较小,所以其
本均值和方差的主要差别在于所采用的样本空 均值在最终估计中的权重较小,反之亦然。这表
间 不 同 ,适 用 于 不 同 的 任 务 。 从 贝 叶 斯 角 度 来 明后验均值是在先验均值与样本均值之间采取
看 ,这 些 方 法 的 共 同 缺 陷 在 于 仅 采 用 了 样 本 信 了一种科学、合理的折衷方案。从式(10)来看,
息,而忽略了总体信息和先验信息,从而使得估 后验分布的精度是样本均值分布的精度与先验
计的样本均值和方差不够准确、鲁棒,进而在一 分布精度之和,增加 BS 或减少先验分布方差都
定程度上制约了归一化的实际效果。 有利于提高后验分布的精度。这便从理论上说
采用密度函数形式,贝叶斯方法的计算式为: 明当 BS 较小时,如何充分利用总体信息和先验
信息来弥补 BS 较小时所携带样本信息的不足。
h ( x,θ ) p( x|θ ) π ( θ )
π ( θ|x )= = (8) 1.3 BABN 方法
m ( x )
∫ p( x|θ ) π ( θ ) dθ
实际上,现有的 BN 方法在估算样本均值和
式中, m ( x ) 表示 x 的边缘密度函数; π ( θ ) 表示参 方差时,其精度还存在一定的改善空间,特别是
数 θ 的先验密度函数,反映了在观测数据之前对 当批次的 BS 较小时,其估计值的精度明显降低。

