Page 366 - 《软件学报》2024年第6期
P. 366
2942 软件学报 2024 年第 35 卷第 6 期
3 所提训练方法——谛听
在介绍谛听的训练目标之前, 本节首先介绍谛听中为分布外样本标注伪标签的方法以及所使用的用于区分
ID 样本和 OOD 样本的打分函数.
3.1 伪标签标注及打分函数
在检测干净 OOD 样本任务上, SSL [11] 证明使用额外的多个拒绝类来表示 OOD 样本比使用均匀分布更具优
势. 本文旨在同时检测干净 OOD 样本和对抗 OOD 样本, 这表明谛听所要应对的分布外样本更具多样性的特点.
鉴于此, 本文同样考虑为 DNN 分类器的最后一层添加多个拒绝类来表示分布外样本. 形式化地, 本文所考虑的带
多个拒绝类的伪标签标注方法如下:
( ) ( )
argmaxf θ x clean , 如果argmaxf θ x clean > K
o
y = (6)
random[K,K +V], 否则
其中, x clean 表示干净 ID 样本或干净 OOD 样本, K 表示原 ID 训练集中真实类别的数量, V 表示额外拒绝类的数量,
OOD
random[K,K +V] 表示取 [K, K+V] 内的随机整数 (此处假设类别索引从 1 开始编号, 由于谛听中辅助样本的伪标
签是训练过程中自动标注的, 所以严格来讲谛听是一种自监督的对抗训练方法 (框架)). 对于对抗 ID 样本和对抗
OOD 样本, 我们使用它们的原干净 ID 样本和干净 OOD 样本来构建它们的伪标签. 使用干净 OOD 样本来为对抗
OOD 样本构造伪标签相当于鼓励 DNN 在 OOD 样本上习得对对抗扰动的不变性; 而为对抗 ID 样本标注不同于
其原干净 ID 样本的伪标签则有利于 DNN 学习干净 ID 样本与其对抗 ID 样本的差异. 在第 4.4.3 节, 我们将实验
性地验证使用多拒绝类来表示分布样本有利于增加攻击的难度.
关于检测/打分函数, 本文遵循文献 [6,15], 使用基于最大 Softmax 概率 (MSP) 的打分函数. 假设训练集包含样
本的真实类别为 K, 则本文的 MSP 打分函数为:
( )
ID, 如果max f θ (x) [1:K] > τ
(7)
D(x) :
OOD,否则
其中, f θ (x) [1:K] 表示 f θ (x) 前 K 维的真实类别内的最大 Softmax 预测概率, τ 是测试阶段指定的分数阈值. 对于 ID
样本的预测结果, 只需取前 K 类内最大 Softmax 预测概率的类别即可, 即 argmaxf θ (x ) [1:K] . 此外, 其他更先进的打
in
分函数也可以应用于本文所训练的模型上以获得更好的性能.
3.2 训练目标
在第 2.2 节, 我们的实验结果验证了训练辅助的对抗 ID 样本作为 OOD 样本对提升分布内边界鲁棒性的有效
性. 在谛听中, 我们考虑同时训练辅助的对抗 ID 样本、干净 OOD 样本以及对抗 OOD 样本:
1 ∑ N [ ( ) ( ) ] 1 [∑ M ( ) ( ) ]
o
o
in
o
o
o
in
in
argmin ℓ(f x ,y )+ℓ(f x +δ in∗ ,y ) +β· ℓ(f x ,y )+ℓ(f x +δ o∗ ,y ) (8)
j
θ
i
j
j
j
i
i
θ
j
i
i
θ
θ
θ 2N i=1 M j=1
其中, N 表示原 ID 训练集样本的总数量, M 表示辅助 OOD 样本的数量, β 用于控制原 ID 训练数据 (即干净 ID 样
本及其对抗 ID 样本) 和辅助 OOD 数据 (即干净 样本和对抗 OOD o y 都是根据公
o
y 和
样本) 的均衡, 伪标签
i j
式 (6) 构建的, 其他符号的含义与公式 (4) 和公式 (5) 中的一致.
公式 (8) 中的第 1 项为对抗 ID 样本 x +δ in∗ 标注了不同于 x in 的伪标签 y , 用以使 DNN 学习干净 ID 样本与
o
in
i i i i
其对抗 ID 样本之间的差异; 第 2 项中, 使用干净 OOD 样本来为对抗 OOD 样本的构建伪标签并把它们同时输入
DNN, 使得 DNN 在 OOD 样本上更好地习得对对抗扰动的不变性; 同时, 干净 OOD 样本和对抗 OOD 样本的伪标
签使得 DNN 在它们上习得相对于 ID 数据的不同. 结合公式 (8) 的第 1 项和第 2 项可以看到, 其最终使 DNN 对分
布外的样本 (即对抗 ID 样本、干净 OOD 样本和对抗 OOD 样本) 习得不同于干净 ID 样本的统一的“认知”. 与公
式 (3) 中的常规对抗训练相比, 公式 (8) 中 x +δ in∗ 的伪标签 y 并不会强迫 DNN 完全忽略那些与真实标签弱相关
in
o
i i i
的特征, 即与 δ in∗ “类似”的、难以察觉的特征来做决策. 因此, 公式 (8) 并不会导致 DNN 在干净 ID 样本上的分类