Page 112 - 《武汉大学学报（信息科学版）》2025年第9期

P. 112

1840 武汉大学学报（信息科学版） 2025 年 9 月

存在较大的偏差；（2）对于循环神经网络（recur⁃ 碍整个网络训练。该方法在 BN 的基础上加入分
rent neural network， RNN），其动态效果不明显，类的条件信息，对 BN 后的每个特征层通过多层
且当推理序列长度超过训练样本的长度时更容感知机进行仿射变换。不同于 BN，其变换因子
易出现问题；（3）当批次中的样本不满足独立分是由输入特征决定的，由训练样本学习得到。
布时，其性能会显著下降。为了改善 BS 较小时总体而言，BN 方法通常可以在 BS 较大时取
的统计估计问题，国内外学者们针对不同任务提得良好的性能。然而在 BS 较小时的性能会急剧
出了一系列改良的思路和方法［26-41］。LN 方法［19］下降。GN 方法在不同的 BS 下具有较大的稳定
的思想与 BN 类似，只是 BN 在每个神经元对一个性，而 GN 在 BS 较大时性能略差于 BN。不同的
批次的样本进行归一化，而 LN 则在每一层对单归一化方法适用于不同的任务。如 IN 方法在图
个样本的所有神经元节点进行归一化，即在通像风格迁移中表现较好，LN 方法在 RNN 中表现
道、宽度和高度这 3 个维度求均值和方差，并进行较好，PN 方法在生成网络中表现较好，跨批次归
归一化，而与批次中 BS 大小无关。LN 方法更适一化方法在目标检测任务中较好，但上述方法在
合处理不定长序列数据的神经网（如 RNN），且可其他视觉任务中泛化性能较差。
以更快、更好地帮助模型达到最优效果。针对图深度学习模型通常需要大量的训练样本对
像风格化任务，IN 方法［18］考虑到生成的风格结果模型进行学习，而上述方法都忽略了整个训练样
主要依赖于某个图像实例本身，而与整个批次中本集具有大 BS 的优势。此外，上述方法都是从
的其他样本图像无关，所以在这个任务中 BN 是独立于 BS 的其他维度，如通道、层、时间等来间
不合适的，仅在图像的宽度和高度两个维度进行接弥补 BS 较小的不足。然而，不同维度所携带
归一化。LN 虽然不依赖 BS，但是在图像领域里的信息在物理属性方面存在着差异，将 BS 维度
使用的卷积神经网络中，直接对当前层所有通道和其他维度的信息融合起来估计样本均值和方
差，势必存在不同维度之间信息不一致的问题。
数据进行归一化并不合适，这是因为各个通道获
虽然从数量角度来看，其他维度的信息在一定程
取的信息实际上是不同的电磁波段所获取的信
度上弥补了 BS 的不足，但是两个不同维度信息
息，它们之间存在物理属性上的根本差异，不同
的不一致性也在一定程度上影响了样本均值和
的通道之间也就必然存在物理信息的不一致性。
样本方差估计的鲁棒性，本文通过贝叶斯共轭批
而 GN 方法［14］先将通道分为许多组，再对每一组
次归一化方法（Bayes adjoint batch normalization，
做归一化。这实际上是在物理信息不一致性与
BABN）在一定程度上缓解这一问题。
批次 BS 之间的一种平衡选择，弱化了 LN 中物理
信息不一致性产生的影响，同时也弥补了 BS 过 1 BABN 基本原理
小的不足。PN 方法［21］是一种跨通道的归一化方
法，认为 BN、IN 和 GN 等方法在空间层面归一化 1.1 归一化基本原理
信息的同时丢弃了重要的统计信息，如果有效利目前，常见的归一化方法的计算式为：
用统计信息，可以提高生成式对抗网络（genera⁃ 1
x ̂ = ( x i - μ i ) （1）
i
tive adversarial network， GAN）和分类网络的性 σ i
能。CBN 方法［22］从时间维度对批次的 BS 进行弥式中， x 表示某一层中的特征； i 为下标索引； μ 和 σ
补，即通过上一批次中估计的样本均值和方差来分别表示样本的均值和标准差。对于二维的图
计算更新当前批次的样本均值和方差，从而实现像， i = i N × i C × i H × i W，用来表示在 N × C ×
间接扩大 BS（即弥补小 BS 的不足），进而改善网 H × W 中的一个特征索引，其中 N 表示批次样本
络性能。由于梯度迭代的属性，网络权重在多轮的维度， C 表示通道（或波段）的维度， H 和 W 分
的批次计算过程中缓慢改变，所以根据泰勒展开别表示图像空间的高度维度和宽度维度。
式可以近似估计出相邻批次的样本均值和方差。样本均值和标准差的计算式分别为：
2021 年德克萨斯大学提出的夹心归一化方法考 1
μ i = ∑ x k （2）
虑到训练数据集通常较大，且每个类别变化也很 m k ∈ S i
大，不同类别的特征理应对应不同的均值和方 1
2
σ i = ∑ ( x k - μ i ) + ε （3）
差，其归一化、缩放、偏置也应该不同，若单独拆 m k ∈ S i
分特征层，会导致训练不平衡，降低收敛速度，阻式中， ε表示一个很小的常数，通常设置为 1×10 ；
−5

107 108 109 110 111 112 113 114 115 116 117