Page 98 - 《软件学报》2024年第4期

P. 98

1676 软件学报 2024 年第 35 卷第 4 期

模型在测试环境中逐渐遗忘源模型知识的问题. 在本文的实验中, 我们通过对比 EATA 方法来验证
既有的自适应样本选择技术是否能够有效地消除未见类样本带来的负面影响;
• LAME [25] : LAME 是一个无需更新模型参数的测试时适应方法. LAME 方法使用半监督学习中标记传
播算法的目标式, 直接对模型输出概率进行优化. 由于无需更新模型参数, LAME 方法解决了既有测
试时适应方法在测试环境中连续更新导致性能退化的问题;
• CoTTA [24] : CoTTA 考虑模型在测试环境中连续适应到不同协变量分布的情形, 结合模型指数集成技
术、伪标记修正技术与防止灾难性遗忘的技术. 目前, CoTTA 在测试时适应领域取得了稳健且先进的
性能表现.
4.3 实验细节

本文采用残差神经网络(residual network, ResNet) [44] 作为分类器的主干网络, 网络的深度设置为 50. 对于
所有的算法, 我们均采用原始论文中推荐的超参数对模型进行训练与测试. 测试时适应方法所使用的源模型,
使用传统监督学习训练 200 轮次得到. 在训练过程中, 图像批大小设置为 256, 神经网络的学习率设置为 0.1
并在学习的过程中使用余弦退火的方式动态调整. 针对实验中使用的测试时适应方法与本文提出的 OTA 方
法, 我们均使用后处理 MLS 方法识别未见类别. 本文的所有实验均使用{0,1,2,3,4}这 5 个随机种子重复运行 5
次, 并汇报性能的均值与标准差. 我们使用 Close-set Accuracy, AUROC 分别来评估模型分类已见类别的能力、
区分已见类别与未见类别的能力. 进一步, 我们还汇报了使用 OSCR(open-set classification rate) [45] 指标评估的
结果, 综合性地权衡了模型分类已见类别与识别未见类别的能力.
4.4 实验结果与分析

• RQ1: OTA 方法是否对协变量分布偏移稳健, 并给出优于既有方法的性能表现?
为了回答这个问题, 我们在协变量偏移等级为 3 和 5 的 CIFAR10 与 CIFAR100 数据集上进行实验, 并汇
报了本文所提 OTA 方法与对比方法的性能表现. CIFAR10 数据集上的结果如表 1 所示, CIFAR100 数据集上的
结果见表 2(最优的结果加粗标注, 对比基线 MLS 方法性能退化的结果用下划线标注). 表格中第 1 行展示了使
用监督学习在无偏数据集上训练得到的深度学习模型, 再结合 MLS 基线方法的性能表现. 由于 MLS 方法的
在训练过程中并未主动考虑未见类别并在测试过程中也未主动适应偏移的协变量分布, 因此, MLS 方法可以
作为本文研究问题的基线方法. 然而, 实验结果表明: 当测试数据存在协变量分布偏移的情况下, 既有开集
识别方法与测试时适应方法在多数情况下都劣于基线 MLS 方法. 这说明既有的开集识别方法与测试时适应
方法均无法有效地处理协变量分布偏移的问题, 导致性能显著退化并不如基线方法. 表 1 与表 2 中的结果表
明, 本文提出的 OTA 方法在所有情形下都显著优于基线 MLS 方法. 这说明 OTA 方法能不断地适应于变化的
协变量分布, 有效地解决了测试数据中协变量分布偏移的问题, 同时, OTA 方法的性能也显著优于全部的对
比方法. 这证明了本文所提方法的优越性并有力地回答了 RQ1.
此外, 我们在图 4 中展示了本文所提 OTA 方法与对比方法在协变量分布偏移程度为 3 的 CIFAR10 数据
集上的详细性能表现. 图 4 左侧展示了 OTA 方法与既有开集识别方法在 15 种偏移上的性能表现, 结果表明,
OTA 方法在绝大多数情况下都好于基线 MLS 方法与其他开集识别方法. 图 4 右侧展示了 OTA 方法与既有测
试时适应方法在 15 种偏移上的性能表现. 不更新模型参数的 BN Stats 与 LAME 方法虽然性能仍比不过基线
MLS 方法, 但是未出现严重的性能退化情况. 更新模型参数的 Tent 方法与 CoTTA 方法性能严重下降, 这说明
既有测试时适应方法在开集识别问题设定下无法有效地更新模型参数. EATA 方法通过样本选择技术, 一定程
度上缓解了性能退化问题, 但其性能仍比不过基线 MLS 方案. 这说明样本选择技术有利于剔除未见类样本在
参数更新过程中的负面影响, 但在开集识别问题设定下, EATA 的选择技术仍有极大的优化空间. OTA 方法性
能优于全部的测试时适应方法, 证明了本文所提方法的先进性.

93 94 95 96 97 98 99 100 101 102 103