Page 113 - 《武汉大学学报(信息科学版)》2025年第9期
P. 113

第 50 卷第 9 期            虞   欣等:遥感影像场景识别的贝叶斯共轭批次归一化方法                                  1841


                S i 表示在计算样本均值和标准差时的像素集合;                        参数 θ 的概率分布假设; p( x|θ )表示在已知 θ 的条
                m 表示该集合的势。对于不同类型的归一化方                           件下关于 x 的条件概率密度函数,即似然函数,描
                法 ,其 主 要 差 异 在 于 计 算 样 本 均 值 和 标 准 差 的          述了在不同参数 θ 下观测到数据 x 的概率密度;
                集合。                                             h ( x,θ ) 则是 θ 和 x 的联合概率密度函数,综合了
                    对于 BN 方法    [12] ,集合 S i 定义为:               先验和似然的信息。然而在样本 x 给定的条件
                               S i = { k|i C = k C }    (4)     下 , θ 的 条 件 分 布 被 称 为 θ 的 后 验 分 布 ,记 作
                式中, i C 和 k C 分别表示沿着 C 轴的索引 i 和 k 在波            π ( θ|x ),它集中体现了总体、样本和先验 3 种信息
                段维度上的下标索引,以下表示类似。对具有相                           中与 θ 相关的所有内容,排除了无关信息,是进行
                同波段索引的像素进行归一化,即 BN 方法对每                         统计推断的重要依据,基于此分布进行推断通常
                个波段计算样本均值和方差 ( N × H × W )。                     更为有效且合理。
                    对于 LN 方法   [19] ,集合 S i 定义为:                    在实际应用中,尤其是深度学习领域,训练
                               S i = { k|k N = i N }    (5)     样本的规模往往较大,通常达到上万甚至更多。
                即 LN 方法是对每个样本计算样本均值和样本方                         假设样本的特征服从正态分布,在正态方差已知
                差 ( C × H × W ),与批次维度 N 无关。                     的 条 件 下 ,其 正 态 均 值 的 共 轭 分 布 也 是 正 态 分
                    对于 IN 方法   [18] ,集合 S i 定义为:                布。假设现有一个完整的训练集,样本的每个特
                                                                                                   2
                                                                                      2
                           S i = { k|k N = i N,k C = i C }  (6)  征服从正态分布 N(μ 0, σ 0),其中 μ 0 和 σ 0 为总体均
                即 IN 方法对每个样本和每个波段计算样本均值                         值和方差。另有一个批次的样本,BS 为 m,样本
                和方差 ( H × W )。                                  均值和方差分别为 μ s 和 σ s , μ 1 和 σ 1 为根据总体信
                                                                                               2
                                                                                       2
                    BN、LN 和 IN 均学习了一个逐波段的线性变                    息、样本信息和先验信息综合估计得到的最终的
                换,以补偿特征表示时可能的信息损失。线性变                           样本均值和方差,即后验均值和后验方差。按照
                换为 y i = γx ̂ + β,其中 γ 和 β 是可训练的尺度和             贝叶斯方法对 μ 1 和 σ 1 进行估算,具体的推导过程
                                                                                   2
                           i
                平移方面的参数。                                        参见文献[42],二者的计算式分别为:
                    对于 GN 方法    [14] ,集合 S i 定义为:                         μ s σ s + μ 0 σ 0 -2  σ 0 -2
                                                                             -2
                                                                      μ 1 =            =           μ 0 +
                           ì         ê ê ê  k C  ú ú ú  ê ê ê  i C  ú ú ü ú  σ 0 + σ s -2  σ 0 + σ s -2
                                                                                           -2
                                                                             -2
                       S i = í k|k N = i N, êê  ú ú = êê  ý ú ú  (7)
                           î         ë C/G  û  ë C/G  þ û                           σ s -2
                                                                                          μ s           (9)
                                                                                  -2
                式中, G 表示分组数量,是预定义的超参数; C/G                                       σ 0 + σ s -2
                                                                                        2  2
                表示每个组内的波段数; ë û 为取单精度浮点数操                                         2    σ 0 σ s
                                                                                 σ 1 =                 (10)
                                                                                       2   2
                                                                                     σ 0 + σ s
                   ê ê ê  k C  ú ú ú  ê ê ê  i C  ú ú ú
                作 ; êê   ú ú = êê  ú ú 表 示 索 引 i 和 k 是 相 同 的 波      实际上,方差的倒数发挥着重要作用,通常
                   ë C/G  û  ë C/G  û
                                                                称其为精度。从式(9)来看, μ 1 可以看作总体均
                段分组。GN 方法对每个组内的 C/G 个波段数计
                算样本均值和方差 (( C/G )× H × W )。                     值 μ 0 和样本均值 μ s 的加权平均,并根据总体方差
                1.2 贝叶斯共轭方法                                     和样本方差的大小进行科学合理的融合。如果
                    前 文 提 及 的 BN、LN、IN 和 GN 方 法 估 计 样           方差相对较大,方差的倒数就相对较小,所以其
                本均值和方差的主要差别在于所采用的样本空                            均值在最终估计中的权重较小,反之亦然。这表
                间 不 同 ,适 用 于 不 同 的 任 务 。 从 贝 叶 斯 角 度 来          明后验均值是在先验均值与样本均值之间采取
                看 ,这 些 方 法 的 共 同 缺 陷 在 于 仅 采 用 了 样 本 信          了一种科学、合理的折衷方案。从式(10)来看,
                息,而忽略了总体信息和先验信息,从而使得估                           后验分布的精度是样本均值分布的精度与先验
                计的样本均值和方差不够准确、鲁棒,进而在一                           分布精度之和,增加 BS 或减少先验分布方差都
                定程度上制约了归一化的实际效果。                                有利于提高后验分布的精度。这便从理论上说
                    采用密度函数形式,贝叶斯方法的计算式为:                        明当 BS 较小时,如何充分利用总体信息和先验
                                                                信息来弥补 BS 较小时所携带样本信息的不足。
                              h ( x,θ )   p( x|θ ) π ( θ )
                      π ( θ|x )=     =                  (8)     1.3 BABN 方法
                               m ( x )
                                        ∫ p( x|θ ) π ( θ ) dθ
                                                                    实际上,现有的 BN 方法在估算样本均值和
                式中, m ( x ) 表示 x 的边缘密度函数; π ( θ ) 表示参           方差时,其精度还存在一定的改善空间,特别是
                数 θ 的先验密度函数,反映了在观测数据之前对                         当批次的 BS 较小时,其估计值的精度明显降低。
   108   109   110   111   112   113   114   115   116   117   118