Page 112 - 《武汉大学学报(信息科学版)》2025年第9期
P. 112

1840                            武 汉 大 学 学 报  (信 息 科 学 版)                        2025 年 9 月

                存在较大的偏差 ;(2)对于循环神经网络(recur⁃                      碍整个网络训练。该方法在 BN 的基础上加入分
                rent neural network, RNN),其动态效果不明显,              类的条件信息,对 BN 后的每个特征层通过多层
                且当推理序列长度超过训练样本的长度时更容                             感知机进行仿射变换。不同于 BN,其变换因子
                易出现问题;(3)当批次中的样本不满足独立分                           是由输入特征决定的,由训练样本学习得到。
                布时,其性能会显著下降。为了改善 BS 较小时                              总体而言,BN 方法通常可以在 BS 较大时取
                的统计估计问题,国内外学者们针对不同任务提                            得良好的性能。然而在 BS 较小时的性能会急剧
                出了一系列改良的思路和方法               [26-41] 。LN 方法 [19]  下降。GN 方法在不同的 BS 下具有较大的稳定
                的思想与 BN 类似,只是 BN 在每个神经元对一个                       性,而 GN 在 BS 较大时性能略差于 BN。不同的
                批次的样本进行归一化,而 LN 则在每一层对单                          归一化方法适用于不同的任务。如 IN 方法在图
                个 样 本 的 所 有 神 经 元 节 点 进 行 归 一 化 ,即 在 通           像风格迁移中表现较好,LN 方法在 RNN 中表现
                道、宽度和高度这 3 个维度求均值和方差,并进行                         较好,PN 方法在生成网络中表现较好,跨批次归
                归一化,而与批次中 BS 大小无关。LN 方法更适                        一化方法在目标检测任务中较好,但上述方法在
                合处理不定长序列数据的神经网(如 RNN),且可                         其他视觉任务中泛化性能较差。
                以更快、更好地帮助模型达到最优效果。针对图                                深度学习模型通常需要大量的训练样本对
                像风格化任务,IN 方法         [18] 考虑到生成的风格结果             模型进行学习,而上述方法都忽略了整个训练样
                主要依赖于某个图像实例本身,而与整个批次中                            本集具有大 BS 的优势。此外,上述方法都是从
                的其他样本图像无关,所以在这个任务中 BN 是                          独立于 BS 的其他维度,如通道、层、时间等来间
                不合适的,仅在图像的宽度和高度两个维度进行                            接弥补 BS 较小的不足。然而,不同维度所携带
                归一化。LN 虽然不依赖 BS,但是在图像领域里                         的信息在物理属性方面存在着差异,将 BS 维度
                使用的卷积神经网络中,直接对当前层所有通道                            和其他维度的信息融合起来估计样本均值和方
                                                                 差,势必存在不同维度之间信息不一致的问题。
                数据进行归一化并不合适,这是因为各个通道获
                                                                 虽然从数量角度来看,其他维度的信息在一定程
                取的信息实际上是不同的电磁波段所获取的信
                                                                 度上弥补了 BS 的不足,但是两个不同维度信息
                息,它们之间存在物理属性上的根本差异,不同
                                                                 的不一致性也在一定程度上影响了样本均值和
                的通道之间也就必然存在物理信息的不一致性。
                                                                 样本方差估计的鲁棒性,本文通过贝叶斯共轭批
                而 GN 方法   [14] 先将通道分为许多组,再对每一组
                                                                 次归一化方法(Bayes adjoint batch normalization,
                做归一化。这实际上是在物理信息不一致性与
                                                                 BABN)在一定程度上缓解这一问题。
                批次 BS 之间的一种平衡选择,弱化了 LN 中物理
                信息不一致性产生的影响,同时也弥补了 BS 过                          1 BABN 基本原理
                小的不足。PN 方法        [21] 是一种跨通道的归一化方
                法,认为 BN、IN 和 GN 等方法在空间层面归一化                      1.1 归一化基本原理
                信息的同时丢弃了重要的统计信息,如果有效利                                目前,常见的归一化方法的计算式为:
                用统计信息,可以提高生成式对抗网络(genera⁃                                           1
                                                                                x ̂ =  ( x i - μ i )     (1)
                                                                                 i
                tive adversarial network, GAN)和 分 类 网 络 的 性                         σ i
                能。CBN 方法     [22] 从时间维度对批次的 BS 进行弥               式中, x 表示某一层中的特征; i 为下标索引; μ 和 σ
                补,即通过上一批次中估计的样本均值和方差来                            分别表示样本的均值和标准差。对于二维的图
                计算更新当前批次的样本均值和方差,从而实现                            像 , i = i N × i C × i H × i W,用 来 表 示 在 N × C ×
                间接扩大 BS(即弥补小 BS 的不足),进而改善网                       H × W 中的一个特征索引,其中 N 表示批次样本
                络性能。由于梯度迭代的属性,网络权重在多轮                            的维度, C 表示通道(或波段)的维度, H 和 W 分
                的批次计算过程中缓慢改变,所以根据泰勒展开                            别表示图像空间的高度维度和宽度维度。
                式可以近似估计出相邻批次的样本均值和方差。                                样本均值和标准差的计算式分别为:
                2021 年德克萨斯大学提出的夹心归一化方法考                                               1
                                                                                 μ i =  ∑  x k           (2)
                虑到训练数据集通常较大,且每个类别变化也很                                                 m  k ∈ S i
                大 ,不 同 类 别 的 特 征 理 应 对 应 不 同 的 均 值 和 方                           1
                                                                                              2
                                                                           σ i =   ∑  ( x k - μ i ) + ε  (3)
                差,其归一化、缩放、偏置也应该不同,若单独拆                                           m  k ∈ S i
                分特征层,会导致训练不平衡,降低收敛速度,阻                           式中, ε表示一个很小的常数,通常设置为 1×10 ;
                                                                                                          −5
   107   108   109   110   111   112   113   114   115   116   117