Page 364 - 《软件学报》2024年第6期
P. 364
2940 软件学报 2024 年第 35 卷第 6 期
是一个二分类问题, 即把输入样本分类为“分布内”类或“分布外”类. 本文将这些方法分为两大类. 第 1 类侧重于设
计一些基于阈值的打分函数. 其中, 基于统计的打分函数是比较高效或有效的且与本文最相关的. 基于统计的打分
函数 [7,8,24,25] 通常利用 DNN 的隐层或/和输出层所蕴含的信息作为输入来判断样本是否是 OOD 样本. 常见的基于
统计的打分函数如基于最大 Softmax 概率 (maximum Softmax probability, MSP) [5,9] 和基于马氏距离 [8] 的打分函数
等. 第 2 类方法侧重于重新训练 DNN 以习得更加可分离的表示. Lee 等人 [9] 发现使用围绕在分布内区域附近的辅
助 OOD 样本对压缩分布内区域更有效; 他们同时训练分类器和 GAN [10] , 使分类器在 GAN 生成的“边界”数据上
[6]
输出均匀分布帮助该校验该分类器的预测信心. 半监督的 OE 使用大量的、真实世界的辅助 OOD 数据集来训
练 DNN; OE 强迫 DNN 在辅助 OOD 数据上数据较低置信度来帮助提升其不确定性估计, 并首次大幅度地提升了
检测 OOD 样本的性能. 紧随 OE, 半监督的 SSL [36] 使用额外的多个“拒绝”类别来专门表示 OOD 样本, 并取得了更
优的性能. 总的来讲, 检测 (干净) OOD 样本已得到了较多的研究且得到了较好解决.
然而, 由于 DNN 自身的脆弱性, 已有工作 [14,15,36] 发现多数先进的 OOD 检测方法对对抗扰动敏感, 易被注入了
恶意扰动的对抗 OOD 样本再次绕过. 为了方便后续描述, 本文将有无注入恶意攻击的 OOD 样本分别称为对抗
OOD 样本和干净 OOD 样本. ACET [10] 分析了为什么使用 ReLU 激活函数的 DNN 易对远离分布内的 OOD 样本产
生高置信度, 并在辅助的 OOD 样本上引入对抗训练 (AT) 来帮助缓解此问题. ATOM [36] 根据干净 OOD 样本在
DNN 上的置信度, 进一步提出了一种 OOD 样本挖掘策略以提升 OOD 检测的鲁棒性. ACET 和 ATOM 的训练目
标可以统一表示如下:
1 ∑ N ( ) 1 [∑ M C ( ) ∑ M ( ) ]
o
o
in
in
o
o
argmin ℓ(f x ,y )+β· ℓ(f x ,y )+ ℓ(f x +δ o∗ ,y ) (4)
θ
θ
θ
i
i
k
j
k
k
j
θ N i=1 M j=1 k=M C +1
N 表示 (干净) ID in in 的第 i 个 ID 样本 (对应于公式 M 表示辅助 OOD
其中, 样本的总数, x i 表示标签为 y i (3) 的 x i ),
M C 表示干净样本的数量 M − M C 表示对抗 OOD x 表示第 j 个干净 OOD o
o
样本的总数量, ( 样本的数量), j 样本, y j
ϵ
o
o
o x +δ o∗ 表示从干净 OOD x 的 -ball 邻域内搜索到的对抗 OOD 样本. 在 ACET y 是
o
表示 x 的伪标签, k k 样本 k 中,
j
一个 K 维的均匀分布 (假设 ID 训练集包含 K 种类别); 而在 ATOM 中, y 则表示第 K+1 拒绝类. 与常规 AT 一样, 公式
o
(
(5) 使用 PGD-K 来最大化训练数据及其标签上的负数据似然以近似求解最优扰动 δ = argmax ℓ(f x +δ ,y ) .
)
o
o
o
o∗
k ||δ o ||⩽ϵ θ k k k
k
样本上引入了
样本和干净
AT, 但由于
虽然 ACET 和 ATOM 都在 OOD 分类器的任务中, 常规的对抗训练
样本的分布差异, 训练干净
OOD
ID
OOD 样本邻域内的对抗 OOD 样本无法有效地使分布内边界对对抗扰动足够鲁棒. 此外, ALOE [12] 和 RATIO [13] 在
ID 样本和辅助的干净 OOD 样本上都引入公式 (3) 中的常规 AT 以尝试提升 OOD 检测器的鲁棒性. 然而, 常规的
AT 将导致 DNN 在原主任务性能 (即在干净 ID 样本上的分类准确率) 的显著降低, 同样是一种次优的解决方案.
本文将 ALOE 和 RATIO 的方法标记为 AT in out , 并在第 4.2 节对该类方法展开进一步地实验对比和分析.
2 研究动机
本文首先实证研究训练辅助的对抗 OOD 样本能否有效地使分布内决策边界对对抗扰动真正鲁棒; 然后, 本
文验证训练对抗 ID 样本作为辅助的 OOD 样本对分布内边界鲁棒性的影响.
2.1 训练辅助的对抗 OOD 样本
在常规的训练鲁棒的 DNN (AT) 训练由 PGD 攻击生成的对抗扰动可以良
好地泛化到其他攻击生成的扰动上, 从而使 DNN 不同类别间的分类边界变得对对抗扰动不敏感. 常规 AT 有效保
证了 DNN 对 ID 样本邻域内的对抗扰动的鲁棒性, 但是无法保证在 (与 ID 样本具有语义差别的) OOD 样本上的
鲁棒性. 受常规 AT 的启发, 在构建鲁棒的 OOD 检测任务上, 已有方法 [10,36] 训练辅助的对抗 OOD 样本来提升分布
内边界对对抗扰动的鲁棒性. 然而, 由于辅助的 OOD 训练集与原 ID 训练集的分布差异, 仅训练干净 OOD 样本邻
域内的对抗 OOD 样本并不能足够有效地使分布内边界对对抗扰动鲁棒, 即无法有效地阻止攻击者变异未见过的
OOD 样本在某分布内的类别上获取高的 Softmax 预测信心而再次绕过检测. 为了验证的这一关键见解, 我们采用
公式 (4) 中的训练目标重新训练 DNN 并使用更强的由 Auto-PGD 优化的攻击来验证: 训练辅助的对抗 OOD 样本