Page 112 - 《武汉大学学报(信息科学版)》2025年第9期
P. 112
1840 武 汉 大 学 学 报 (信 息 科 学 版) 2025 年 9 月
存在较大的偏差 ;(2)对于循环神经网络(recur⁃ 碍整个网络训练。该方法在 BN 的基础上加入分
rent neural network, RNN),其动态效果不明显, 类的条件信息,对 BN 后的每个特征层通过多层
且当推理序列长度超过训练样本的长度时更容 感知机进行仿射变换。不同于 BN,其变换因子
易出现问题;(3)当批次中的样本不满足独立分 是由输入特征决定的,由训练样本学习得到。
布时,其性能会显著下降。为了改善 BS 较小时 总体而言,BN 方法通常可以在 BS 较大时取
的统计估计问题,国内外学者们针对不同任务提 得良好的性能。然而在 BS 较小时的性能会急剧
出了一系列改良的思路和方法 [26-41] 。LN 方法 [19] 下降。GN 方法在不同的 BS 下具有较大的稳定
的思想与 BN 类似,只是 BN 在每个神经元对一个 性,而 GN 在 BS 较大时性能略差于 BN。不同的
批次的样本进行归一化,而 LN 则在每一层对单 归一化方法适用于不同的任务。如 IN 方法在图
个 样 本 的 所 有 神 经 元 节 点 进 行 归 一 化 ,即 在 通 像风格迁移中表现较好,LN 方法在 RNN 中表现
道、宽度和高度这 3 个维度求均值和方差,并进行 较好,PN 方法在生成网络中表现较好,跨批次归
归一化,而与批次中 BS 大小无关。LN 方法更适 一化方法在目标检测任务中较好,但上述方法在
合处理不定长序列数据的神经网(如 RNN),且可 其他视觉任务中泛化性能较差。
以更快、更好地帮助模型达到最优效果。针对图 深度学习模型通常需要大量的训练样本对
像风格化任务,IN 方法 [18] 考虑到生成的风格结果 模型进行学习,而上述方法都忽略了整个训练样
主要依赖于某个图像实例本身,而与整个批次中 本集具有大 BS 的优势。此外,上述方法都是从
的其他样本图像无关,所以在这个任务中 BN 是 独立于 BS 的其他维度,如通道、层、时间等来间
不合适的,仅在图像的宽度和高度两个维度进行 接弥补 BS 较小的不足。然而,不同维度所携带
归一化。LN 虽然不依赖 BS,但是在图像领域里 的信息在物理属性方面存在着差异,将 BS 维度
使用的卷积神经网络中,直接对当前层所有通道 和其他维度的信息融合起来估计样本均值和方
差,势必存在不同维度之间信息不一致的问题。
数据进行归一化并不合适,这是因为各个通道获
虽然从数量角度来看,其他维度的信息在一定程
取的信息实际上是不同的电磁波段所获取的信
度上弥补了 BS 的不足,但是两个不同维度信息
息,它们之间存在物理属性上的根本差异,不同
的不一致性也在一定程度上影响了样本均值和
的通道之间也就必然存在物理信息的不一致性。
样本方差估计的鲁棒性,本文通过贝叶斯共轭批
而 GN 方法 [14] 先将通道分为许多组,再对每一组
次归一化方法(Bayes adjoint batch normalization,
做归一化。这实际上是在物理信息不一致性与
BABN)在一定程度上缓解这一问题。
批次 BS 之间的一种平衡选择,弱化了 LN 中物理
信息不一致性产生的影响,同时也弥补了 BS 过 1 BABN 基本原理
小的不足。PN 方法 [21] 是一种跨通道的归一化方
法,认为 BN、IN 和 GN 等方法在空间层面归一化 1.1 归一化基本原理
信息的同时丢弃了重要的统计信息,如果有效利 目前,常见的归一化方法的计算式为:
用统计信息,可以提高生成式对抗网络(genera⁃ 1
x ̂ = ( x i - μ i ) (1)
i
tive adversarial network, GAN)和 分 类 网 络 的 性 σ i
能。CBN 方法 [22] 从时间维度对批次的 BS 进行弥 式中, x 表示某一层中的特征; i 为下标索引; μ 和 σ
补,即通过上一批次中估计的样本均值和方差来 分别表示样本的均值和标准差。对于二维的图
计算更新当前批次的样本均值和方差,从而实现 像 , i = i N × i C × i H × i W,用 来 表 示 在 N × C ×
间接扩大 BS(即弥补小 BS 的不足),进而改善网 H × W 中的一个特征索引,其中 N 表示批次样本
络性能。由于梯度迭代的属性,网络权重在多轮 的维度, C 表示通道(或波段)的维度, H 和 W 分
的批次计算过程中缓慢改变,所以根据泰勒展开 别表示图像空间的高度维度和宽度维度。
式可以近似估计出相邻批次的样本均值和方差。 样本均值和标准差的计算式分别为:
2021 年德克萨斯大学提出的夹心归一化方法考 1
μ i = ∑ x k (2)
虑到训练数据集通常较大,且每个类别变化也很 m k ∈ S i
大 ,不 同 类 别 的 特 征 理 应 对 应 不 同 的 均 值 和 方 1
2
σ i = ∑ ( x k - μ i ) + ε (3)
差,其归一化、缩放、偏置也应该不同,若单独拆 m k ∈ S i
分特征层,会导致训练不平衡,降低收敛速度,阻 式中, ε表示一个很小的常数,通常设置为 1×10 ;
−5

