Page 363 - 《软件学报》2024年第6期
P. 363
周志阳 等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法 2939
击算法.
(4) 实验结果表明, 在检测由更强的攻击生成的对抗 OOD 样本上, 谛听比已有方法具备显著的性能优势, 同时
在分类干净 ID 样本和检测干净 OOD 样本上保持先进的性能.
本文第 1 节介绍对抗攻击、对抗训练和分布外样本检测等相关工作. 第 2 节实证仅训练辅助的对抗 OOD 样
本的不足以及训练对抗 ID 样本对提升 OOD 检测器鲁棒性的影响. 第 3 节对本文所提的半监督对抗训练方法——
谛听及其实现进行介绍. 第 4 节通过实验验证了所提谛听在保证 OOD 检测器鲁棒性方面的有效性. 最后对本文
进行总结与展望.
1 相关工作
1.1 对抗攻击
当 DNN 在各个领域都取得了前所未有的性能, 已有工作 [17] 表明 DNN 容易受到对抗扰动的影响. 随后, 研究人
员提出了各种对抗性攻击方法 [17−19,29−35] . FGSM (fast gradient sign method) [18] 使用有关于输入的损失梯度的符号值
1
sign(·) ) 来高效地制作对抗样本. R+FGSM [36] 引入了一个随机扰动步骤到 FGSM 以增加攻击成功率. 多步迭代的
(即
BIM [20,32,37] 进一步考虑使用多步梯度迭代. 这些攻击可以归类为术语为 K-步的 projected gradient descent (PGD-K).
( ( ( ( ) )))
k
δ k+1 = Proj ||x ′ −x|| p ⩽ϵ δ +α· sign ∇ δ kℓ f θ x+δ ,y (1)
k
δ 表示第 ( ( k ) ) x+δ 及其标签 上的对抗损失 (例如, 交叉熵
k
k
y
其中, k 步的扰动, ℓ f θ x+δ ,y 表示受害模型 f θ 在输入
k 表示投影搜索到的对抗
损失 ℓ CE ), ∇ δ k 表示关于 δ 的梯度, α 表示攻击步长, ||·|| p 表示 L p Norm 约束, Proj ||x ′ −x|| p ⩽ϵ
ϵ
0
′ 0 δ ⩽ ϵ . 此外, 如果把公式 y 换成其他非正确
样本 x 到干净样本 x 的 -ball 上. 初始的随机扰动 δ 满足 (1) 中的
p
ℓ 的符号, 则公式 (1) 将变成有目标的攻击. 为了识别虚假的防御 [38] 如蒸馏防御 [39] , CW [40]
类别的标签并反转损失
攻击直接攻击 DNN 的 logits 层输出 (即最后一层施加 Softmax 激活函数之前).
ℓ CW = −(z θ (x+δ) y −max(z θ (x+δ) i )) (2)
i,y
其中, z θ (x+δ) y 表示与标签 y 对应的 logit, max i,y (z θ (x+δ) i ) 表示除 z θ (x+δ) y 外最大 logit. 为了进一步提升攻击能力,
文献 [41] 提出了多目标 (multi-targeted) 的 PGD 攻击, 其轮流使用其他非正确的类作为攻击目标来执行攻击. 最近
的文献 [28] 提出了 Auto-PGD, 其集成了“动量更新”“攻击重启动”和“攻击步长自动调整”到 PGD 中; Auto-PGD 攻
击可以更有效地使搜索避免陷入局部最优点, 在鲁棒性研究领域被广泛地应用于评估 DNN 分类器的鲁棒性. 此
外, 检测-感知的自适应攻击 (adaptive attack) 及其变种 [27,36] 广泛地用于检测对抗 (ID) 样本的评估. 在本文中, 我们
结合自适应攻击和 Auto-PGD 开发更强的攻击来评估 OOD 检测器的鲁棒性, 以避免对 OOD 检测器的过高估计.
1.2 对抗训练
为了防御对抗攻击, 研究者们提出了多种防御方法 [18,20,23,24,29,39] . 然而, 此中大多数的防御被证明都只是呈现了
如梯度混淆 [38] 的虚假安全, 并被后来更强的攻击击败, 几乎只有经验性的对抗训练 (adversarial training, AT) [18,20] 可
以有效地保证 DNN 的真正鲁棒性 [38,42] . AT 将对抗样本视为干净 ID 样本的一种数据增强来训练 DNN. AT 的 min-
max 框架如下.
∑ N
argmin maxℓ(f (x i +δ i ),y i ) (3)
θ
θ N i=1||δ|| p ⩽ϵ
其中, N 是训练样本的数量, x i 表示第 i 个干净样本, ℓ 一般指交叉熵损失. 在公式 (3) 的内部 max 中, PGD-K 攻击
∗
常用于近似地搜索最优扰动 δ . AT 使 DNN 习得对抗性扰动的不变性. 然而, 正如文献 [22] 所指出的, AT 强制
i
DNN 忽略那些与标签弱相关的特征 (即那些易受扰动干扰的、难以察觉的特征) 来进行预测, 导致 DNN 在干净
样本上的准确率显著下降.
1.3 分布外样本检测
随着 DNN 可靠性受到越来越多的关注, 研究者们提出了大量的方法来检测 OOD 样本的 [4] . 检测 OOD 样本