Page 371 - 《软件学报》2024年第6期

P. 371

周志阳等: 谛听: 面向鲁棒分布外样本检测的半监督对抗训练方法 2947

4.3.1 额外拒绝类的数量
多个额外的拒绝类表达了分布外空间的多样性, 本节固定其他所有的设置, 调查不同的 V 的设置对 OOD 检
测器鲁棒性的影响. 实验结果如表 6 所示 (比较参数均越大越好), 当 V 为 10 时, OOD 检测器取得最好的鲁棒性
能, 过小或过大的 V 都不能取得最优的鲁棒性能. SSL 声称适当多的拒绝类对提升检测干净 OOD 样本的性能有
利, 本实验进一步证实适当多的拒绝类对提升 OOD 检测的鲁棒性同样有利.

表 6 变动拒绝类数量对检测对抗 OOD 样本的影响 (%)

Clean o PGD o CW o APGD o ACW o APGD t ACW t
V
AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95
5 98.81 97.01 97.63 97.01 97.62 97.01 84.84 64.84 87.16 69.16 86.09 61.10 87.83 65.60
10 98.89 96.62 97.81 96.62 97.81 96.62 96.89 95.13 97.17 95.46 94.18 78.84 95.07 84.15
15 98.88 96.23 98.12 96.23 98.13 96.22 85.25 71.50 87.98 75.64 87.78 69.51 90.77 78.23

4.3.2 取消训练对抗 ID 样本或对抗 OOD 样本
本节首先取消训练对抗 OOD 样本, 保持其他设置不变, 以验证训练辅助的对抗 ID 样本作为 OOD 样本对提
升分布内决策边界的鲁棒性的作用. 然后, 我们只取消训练对抗 ID 样本, 保持其他设置不变, 以验证仅训练辅助的
对抗 OOD 样本对带有多拒绝类的检测器鲁棒性的影响.
实验结果如表 7 所示 (比较参数均越大越好), 其中, Org.指谛听, “－ADV OOD”表示在谛听的基础上取消训
练对抗 OOD 样本, “－ADV ID”指在谛听的基础上取消训练 ID 样本. 当取消训练对抗 OOD 样本后, “－ADV
OOD”在 Auto-PGD 攻击下的检测性能虽然出现较明显的下降, 但是依然未被完全攻破, 这证明了训练对抗 ID 样
本作为辅助的 OOD 样本对提升分布内边界鲁棒性的有效性. 取消训练对抗 ID 样本后, 谛听的训练目标变得与
ACET 和 ATOM 类似, 所不同的是它的伪标签是带多个拒绝类的伪标签. 对比“－ADV ID”与表 3 中的 ACET 和 ATOM,
“－ADV ID”在 Auto-PGD 系列攻击下的性能依然显著好于它们, 这证明了使用多个拒绝边界比使用单个拒绝边
界 (例如 ATOM) 或者为分布外样本分配均匀分布 (例如 ACET) 对提升分布内边界的鲁棒性更有效.
PGD
表 7 取消训练对抗 ID 样本或对抗 OOD 样本对 OOD 检测鲁棒性的影响 (%)

Clean o PGD o CW o APGD o ACW o APGD t ACW t
Method
AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95 AUC TPR-95
Org. 98.89 96.62 97.81 96.62 97.81 96.62 96.89 95.13 97.17 95.46 94.18 78.84 95.07 84.15
－ADV OOD 98.92 96.15 98.91 96.09 98.90 96.05 62.54 29.82 63.97 43.38 47.96 14.6 59.2 25.0
－ADV ID 99.16 97.02 99.11 96.97 99.11 96.97 58.30 42.24 58.53 42.16 47.42 27.14 48.27 29.71

4.3.3 变更对抗 OOD 样本搜索策略
在谛听训练过程中, 我们通过最小化多个额外的拒绝类的最大 Softmax 预测概率来创建对抗 OOD 样本. 在本
节中, 我们最大化 OOD 样本在前 K 类内的最大 Softmax 预测概率 (MSP 分数) 来搜索对抗扰动, 以研究其对
( ( ))
( )
o
OOD 检测鲁棒性的影响. 具体而言, 我们通过使用攻击优化 δ = argmax ||δ j || ⩽ϵ log max f θ x +δ o j 来搜
o∗
o
j
j
p [1:K]
( )
o
o
o
索对抗扰动, 其中 f θ x +δ o j [1:K] 表示 x +δ 在前 K 类内的最大 Softmax 预测信心.
j
j
j
实验结果如表 8 所示 (比较参数均越大越好), 其中 Max-MSP 表示最大化 MSP 分数搜索对抗扰动. 在无目标
的 Auto-PGD 系列攻击下, Max-MSP 与原谛听的检测性能差距不是很大; 但当使用多目标的 APGD 和 t ACW 攻
t
击后, Max-MSP 的检测性能出现了明显下降. 直接最大化 OOD 的 MSP 分数可以视为一种有目标的攻击, 其攻击
o
目标是当前 OOD 样本在前 K 类内具有最大预测信心的类别. 训练此类扰动可以有效阻止无目标的 APGD 和
ACW 攻击, 因为它们同样是基于当前 OOD 样本的前 K 类内具有最大 Softmax 预测概率的类别来发起攻击的. 然
o
t
而, 当使用 APGD 和 t ACW 攻击时, 它们的攻击目标轮流设置为其他非最大 Softmax 预测概率的类别, Max-MSP
的性能会出现显著下降.

366 367 368 369 370 371 372 373 374 375 376