Page 97 - 《软件学报》2024年第4期
P. 97
周植 等: 面向开集识别的稳健测试时适应方法 1675
• RQ1: OTA 方法是否对协变量分布偏移稳健, 并给出优于既有方法的性能表现?
• RQ2: OTA 方法提出的自适应熵损失与开集熵损失是否分别有效地提升了已见类别的分类性能与未
见类别的识别性能?
4.1 实验数据集
我们选取两个测试时适应数据集 CIFAR10-C 与 CIFAR100-C [41] , 用于评估各种开集识别方法、测试时适
应方法与所提 OTA 方法在不同协变量偏移程度下的性能表现. 对于所有的实验, 我们将在不存在协变量分布
偏移的 CIFAR10 与 CIFAR100 数据集上训练源模型, 然后将源模型部署于存在协变量偏移的环境中进行测试.
其中, CIFAR10 数据集包含 10 个类别, 每个类别包含 5 000 张 32×32 的训练样本. 在本文实验中, 我们将
CIFAR10 中的 6 个动物类别作为已见类别, 其他 4 个类别作为未见类别. CIFAR100 数据集包含 100 个类别, 每
个类别包含 500 张 32×32 的训练样本. 在本文实验中, 我们将 CIFAR100 中随机的 80 个类别作为已见类别, 其
他 20 个类别作为未见类别. CIFAR10-C 是 CIFAR10 数据集包含协变量偏移的版本, 包含与 CIFAR10 相同的
10 个类别. CIFAR10-C 中包含 15 种不同的协变量偏移场景, 每种场景中又存在 5 种不同等级的偏移程度. 其
中, 协变量偏移程度等级由加入样本中的自然噪声强度决定, 由弱至强分别对应 1 至 5 共 5 个等级. 类似地,
CIFAR100-C 是 CIFAR100 数据集包含协变量偏移的版本. 本文选取偏移程度为 3 与 5 这两种情况分别进行实
验. 在实验中, 所测试的模型将会依次预测 15 种不同的协变量偏移场景, 并评估其已见类别的分类性能与未
见类别的检测性能.
4.2 对比方法
为了证明本文所提 OTA 方法的先进性, 我们选取了代表性的开集识别方法、代表性的测试时适应方法作
为对比方法.
• MLS [13] : Max Logit Score 是一类经典的开集识别方法, 其利用模型输出的 Logit 最大值来判断样本是
否属于已见类别. MLS 是一个后处理方法, 具有较强的通用性, 可以应用于任意深度学习模型. 既有
工作 [13] 证明, MLS 方法相比经典的 MSP 方法 [42] 具有更好的开集识别性能. 因此, 在本文在实验中,
选取 MLS 方法作为对比方法. 在本文中, 我们也将 MLS 称为基线方法, 也称为 Baseline;
• APRL [43] : APRL 方法在所学习的特征空间中定义“互补点”的概念. 样本属于某个类别的概率正比于
其与所学互补点的距离. 未见类样本由于与所有已见类别均不同, 其距离所有互补点的距离更大.
基于这个假设, APRL 用测试样本距离互补点的最大距离来度量其属于未见类的程度;
• ARPL+cs [16] : APRL+cs 方法在 APRL方法的基础上, 利用生成对抗网络在训练过程中生成虚拟的未见
类样本, 从而帮助模型学得一个更容易区分已见类别与未见类别的特征表示空间;
• Proser [15] : Proser 方法在训练过程中利用 MixUP 技术基于已见类别生成虚拟的未见类别样本, 在学习
的过程中, 利用虚拟的未见类别样本使得已见类别的决策边界更加紧致, 从而使模型获得更优的开
集识别性能;
• SC-OSG [32] : SC-OSG 方法是第一个考虑开集识别模型可能在测试阶段中遭遇协变量偏移问题的工作,
其结合因果学习技术, 利用域不变特征完成开集识别任务, 提升了模型对协变量偏移的稳健性.然而,
SC-OSG 由于无法在连续演变的测试环境中不断更新模型, 因此, 在实际情况中性能仍有提升空间;
• BN Stats [35] : BN Stats 是经典的测试时适应方法, 其在测试环境中依旧动态更新批标准化层中的统计
信息, 来适应测试环境中的协变量偏移问题;
• Tent [21] : Tent 是利用熵最小化损失更新模型参数的测试时适应方法, 其在 BN Stats 更新批标准化层统
计信息的基础上, 利用熵最小化损失同时更新批标准化层中的可学习参数, 使模型进一步适应测试
数据中的协变量偏移;
• EATA [22] : EATA 是一种高效的测试时适应方法, EATA 方法在 Tent 方法的基础上引入了自适应的样本
选择技术, 剔除测试数据中对更新存在负面影响的样本. 同时, 其结合防止灾难性遗忘的技术, 缓解