Page 365 - 《软件学报》2024年第6期

P. 365

周志阳等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法 2941

是否能有效地使 OOD 检测对对抗扰动鲁棒? 我们使用 Auto-PGD 系列的强攻击来攻击训练过程中使用过的对抗
OOD 样本所对应的干净 OOD 样本以生成验证的对抗 OOD 样本. 这种验证的对抗 OOD 样本生成方法排除掉了
验证的干净 OOD 样本与训练所使用的干净 OOD 样本之间的潜在分布差异的干扰, 降低了检测对抗 OOD 样本的
难度. 如此一来, 如果所训练的检测器不能有效地检测这些验证的对抗 OOD 样本, 则说明仅训练对抗 OOD 样本
对提升 OOD 检测的鲁棒性是不足的.
我们选择在 CIFAR10 [43] 上训练的 WRN-40-4 [44] 模型, 报告其平均 MSP (mean of MSP, MMSP) 分数以及 AUC
o
in
和 TPR-95 度量指标下的检测性能. 表 1 中, MMSP 表示在干净 ID 测试集上的 MMSP 分数, MMSP 表示在 OOD
o
o
样本上的 MMSP 分数, Clean 表示在辅助的干净 OOD 样本上的训练性能, PGD 表示在 (PGD 生成的) 对抗 OOD
o
样本上的训练性能, APGD 和 o ACW 我们基于 Auto-PGD 开发的更强的攻击. 关于训练设置、度量指标以及
o
APGD 和 o ACW 攻击的详细介绍在第 4.1 节给出. 如表 1 所示, ACET 和 ATOM 在 Clean 和 o PGD 上的检测性能
o
都接近完美, 证明当前训练在辅助的干净 OOD 样本和对抗 OOD 样本上已经良好地收敛. 然而, 当使用更强的
APGD 和 o ACW 攻击相同的辅助 OOD 样本后, ACET 和 ATOM 的性能都出现了大幅度的下降, 甚至接近被完全
o
攻破. 攻击后的更大的 MMSP 分数几乎无法用以区分干净 ID 样本和这些验证 OOD 样本. 该实验表明, 仅训练辅
o
助的对抗 OOD 样本并不能足够有效地使分布内边界对对抗扰动鲁棒, 即无法有效地阻止攻击者变异 OOD 样本
在 (原分布内) 某类别上获取高的 Softmax 预测信心来再次绕过检测. 在测试阶段, 对抗 OOD 样本一般是从与辅
助的 OOD 样本存在潜在的分布差异的测试 OOD 样本上生成的, 检测这些未见过的恶意 OOD 样本将更具挑战性.

表 1 训练辅助的对抗 OOD 样本对检测验证的对抗 OOD 样本的性能 (↓表示越小越好, ↑表示越大越好)

Clean o PGD o APGD o ACW o
方法 MMSP in AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95
o
o
o
o
MMSP (↓) MMSP (↓) MMSP (↓) MMSP (↓)
(%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑)
ACET 0.957 0 0.106 3 99.56 99.88 0.104 6 99.28 99.98 0.909 0 14.77 10.70 0.810 0 29.17 22.47
ATOM 0.959 9 0.000 4 99.51 100.0 0.000 2 99.57 100.0 0.999 9 2.06 0 0.999 9 2.06 0

2.2 训练“近 OOD”样本——对抗 ID 样本 (5) 所训练的模型在
从干净 ID 样本的邻域内创建的对抗 ID 样本与干净 ID 样本享有近乎一样的语义信息, 是一种离分布内区域
更“近”的 OOD 样本. 本节使用辅助的对抗 ID 样本而不使用任何辅助的对抗 OOD 样本来训练 DNN, 以调查其对
提升 OOD 检测鲁棒性的作用.
1 ∑ N [ ( ) ( ) ] 1 ∑ M ( )
in
o
o
in
in
o
argmin ℓ(f x ,y )+ℓ(f x +δ in∗ ,y ) + ℓ(f x ,y ) (5)
i
θ
i
θ
j
i
i
j
θ
i
θ 2N i=1 M j=1
in
其中, N 和 M 分别表示干净 ID 样本和干净 OOD 样本的数量, x +δ in∗ 表示从第 i 个 ID 样本创建的对抗 ID 样本,
i i
x 表示第 j 干净 OOD 样本, y o 是带多个额外的拒绝类 [11] 的伪标签. δ in∗ 的求解与公式 (3) 类似. 公式 (5) 为
o
j i
o
in
x +δ in∗ 标注了与 x in 不同的伪标签 y , 这使得 DNN 能够更好地学习干净 ID 样本与其对抗 ID 样本的差异, 对扰
i i i i
in
动 δ in∗ 建模. 需要注意的是公式 (5) 中对抗 ID 样本 x +δ in∗ 也是在 DNN 每次的参数迭代步骤中依据当前阶段的
i
i
i
DNN 模型而实时生成的, 能更好地“覆盖”分布内每一类别的决策边界.
与表 1 中的结果相比, 表 2 中使用公式 APGD 和 o ACW 强攻击下具备显著的性能优势,
o
即便其从未使用任何辅助的对抗 OOD 样本来训练 DNN. 该实验说明了训练对抗 ID 样本对提升分布内决策边界
鲁棒性的作用同样是至关重要的, 在构建鲁棒的 OOD 检测器中不应被忽略.

表 2 训练对抗 ID 样本对检测 OOD 样本的影响

o o o o
Clean PGD APGD ACW
in
MMSP AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95
o
o
o
o
MMSP (↓) MMSP (↓) MMSP (↓) MMSP (↓)
(%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑) (%) (↑)
0.900 1 0.027 2 99.20 97.53 0.002 2 99.98 99.99 0.529 9 71.82 40.89 0.534 3 71.55 40.46

360 361 362 363 364 365 366 367 368 369 370