Page 219 - 《软件学报》2025年第5期
P. 219
王益民 等: 面向卷积神经网络泛化性和健壮性权衡的标签筛选方法 2119
将被用于与所提方法进行比较.
2 标签筛选权重参数分析
在该部分中我们首先对卷积神经网络模型预测过程进行解释, 并以详细的公式推导展示这一过程, 之后对模
型的泛化性和健壮性进一步分析, 在此基础上通过理论证明标签筛选权重参数方法的合理性.
在 CNN 的卷积操作中, 卷积核在图像上滑动并对覆盖区域的像素值加权求和, 其本质上可以看作是对输入向
量的一次矩阵变换, 以图 2 中 32×32 的输入图像和 2×2 的卷积核为例, 卷积核将进行 900 次滑动, 每次滑动时卷积
参数 c 1 –c 4 与覆盖图像部分的像素值加权求和, 最后输出 30×30 的特征图, 整个过程可视为 1 024 维输入向量 x 经
过 900×1024 的稀疏矩阵 C 变换为一个 900 维的向量 z , 该操作用数学形式表达如下:
0 ... 0 ... 0 0
c 1 c 2 c 3 c 4 0 x 1
0 ... 0 ... 0 0
c 1 c 2 c 3 c 4 0 x 2
.
. . .
T . . . .
z = Cx = . . . . (12)
0 0 0 ... 0 ...
c 1 c 2 c 3 c 4 0 x d−1
0 0 0 ... 0 c 1 c 2 ... 0 c 3 c 4 x d
其中, 稀疏矩阵 C 由 2×2 卷积核参数 c 1 –c 4 生成 (池化层的操作同样可被视为矩阵变换), 因此卷积操作仍为线性
变换. 为使得输出关于输入非线性, CNN 在每层卷积后引入激活函数 σ(·) 对结果进行非线性变换, 本文所有模型
训练过程中皆采用分段线性激活函数 ReLU, 即 σ(·) = ReLU(·) = max(·; 0) . 若定义判断函数 1(·) , 当括号内条件成
立则为 1, 反之为 0, 激活过程 σ(z) 可表示为一个对角矩阵 D 变换, 其具体表达形式如下:
T
σ(z) = diag(1(z 1 > 0),1(z 2 > 0),...,1(z 900 > 0)) z = Dz T (13)
定义 1. θ s =D s C s 为第 s 层的卷积激活参数矩阵, 同时假设输入 x 经过模型 l 层卷积, t 层全连接后得到输出
F(x;θ) W =W t ...W 1 为 t 层全连接矩阵的乘积, 则由公式 (12) 和公式 (13) 可将输出 F(x;θ) 表示为:
,
F(x;θ) = Softmax((W t ···W 1 )(D l C 1 )(D l−1 C l−1 )...(D 1 C 1 x)) = Softmax(Wθ l θ l−1 ...θ 1 x) (14)
W ∈ R k×h l ,...,θ s ∈ R h s ×h s−1 ,...,θ 1 ∈ R h 1 ×d . 进一步矩阵相乘可
其中, 每一个矩阵的列数与后一个矩阵的行数一致, 即
知, CNN 模型的映射函数可被视为将 d 维输入转为 k 维输出的矩阵变换, 即:
T
F(x; θ) = Softmax(V x) (15)
T ∂F(x;θ)/∂x .
其中, V =[v 1 ,v 2 ,...,v k ] 为模型的权重参数矩阵, 也是输出关于输入的雅可比矩阵
对于分类任务中的第 n 类, 在权重参数矩阵 V 中, v n ∈ R 为该类别对应的权重参数向量, v ·x 则为输入图像
T
d
n
经过模型后的该类别的预测值, 因此可将式 (1) 改写为:
/
k ∑
v T
f n (x) = e v T ·x e i ·x (16)
n
i=1
由于每个类别的输出值经过 Softmax 层归一化后的分母项一致, 最终的输出 F(x;θ) 中样本为正确类 ˆ n 的预测
v ˆn 决定. 因此优化分类对应权重参数来改变干净样本或对抗样本的预测
概率值仅由其分子项中的权重参数向量
结果是一种在模型泛化性和健壮性之间进行权衡的可行策略.
2.1 干净样本标签筛选权重参数正则化
假设一个具有高泛化性的 CNN 模型, 对于数据集中任意样本 x, 该模型映射函数的结果都满足 argmaxF(x) =
F(x;θ) 中, 对于任意非正确类 n f ˆn (x) > f n (x) , 根据公式 (16) 可得:
ˆ n , 即在样本输出结果 都满足
/ /
k ∑ k ∑
v T
v T
v T
e ˆn ·x e i ·x > e v T ·x e i ·x (17)
n
i=1 i=1
由于以自然常数 e 为底的指数函数单调递增且恒为正值, 该不等式两边的分母项相等, 同时约去分母项并对
分子项进行简化可得到: