Page 91 - 《软件学报》2024年第4期
P. 91
周植 等: 面向开集识别的稳健测试时适应方法 1669
测结果 [24,25] 两种类别. 近期, 研究人员开始考虑真实场景下的测试时适应, 例如测试数据同时存在混合协变
量偏移 [26] 、测试数据的标记分布存在偏移 [27] 等. 这些工作均假设训练数据与测试数据的类别空间完全相同,
然而, 当测试时适应直接应用于类别空间存在变化的开放世界时, 既有方法将受到未见类别样本的影响, 导
致模型性能显著退化. 因此, 本文设计了一种针对开放世界适应问题的测试时适应方法, 称为开放测试时适
应(open-set test-time adaptation, OTA). 首先, OTA 方法利用自适应熵损失消除了未见类样本在模型更新中的
负面影响, 有效地维持了开集识别模型对已见类别的判别能力. 进一步, OTA 结合轻量级的未见类别检测模
块与开集熵损失, 有效地利用了未见类样本, 进一步提升开集识别模型区分已见类别与未见类别的能力; 最
终, OTA 方法引入参数正则化损失, 防止模型在持续更新的过程中出现灾难性遗忘问题. 本文在包含不同程
度协变量分布偏移的基线数据集上进行实验, 实验结果表明了本文所提 OTA 方法的有效性.
综上所述, 本文的贡献有如下 3 点.
(1) 研究了一个新颖的开放世界适应问题设置 AOW, 即开集识别模型在测试阶段面临协变量分布偏移
的问题. 开集识别模型需要不断适应于变化的协变量分布, 以保证其稳健地分类已见类别样本并识
别未见类别样本;
(2) 提出了一种针对开放世界适应问题的测试时适应方法 OTA. 在 OTA 方法中, 我们提出自适应熵损
失与开集熵损失, 一方面消除更新过程中未见类样本的负面影响, 有效地维持了模型分类已见类别
的能力; 另一方面, 充分地利用未见类样本, 进一步提升模型识别未见类别样本的能力;
(3) 本文在包含多种协变量分布偏移的基准数据集上测试了所提的 OTA 方法, 实验结果证明, OTA 方法
能稳健地适应于变化的协变量分布. 其不仅击败了最先进的开集识别方法, 同时, 也显著优于对分
布偏移稳健的开集识别方法、组合开集识别与测试时适应的混合方法.
本文第 1 节介绍开放世界适应问题的相关工作. 第 2 节介绍本文所提的开放世界适应问题, 并对此问题
展开分析. 第 3 节介绍本文提出的开放测试时适应方法 OTA. 第 4 节通过对比实验验证所提方法的有效性. 最
后总结全文.
1 开放世界适应问题的相关工作
1.1 开集识别
开集识别研究训练数据与测试数据的类别空间存在差异的问题, 旨在准确分类训练数据中的已见类别,
同时识别并拒绝训练数据中从未见过的类别. 现有开集识别方法可以分为统计方法与深度方法两种类别. 针
对统计开集识别方法, Scheirer 等人 [28] 首先形式化了开集识别问题, 并提出一种基于 SVM 模型的开集识别方
法. 进而, Jain 等人 [29] 将极值理论(extreme value theory)应用于开集识别 SVM 模型中并获得了更好的性能. 近
期, 基于深度模型的开集识别方法发展迅速, 其又可以分为判别式方法与生成式方法两类. Bendale 等人 [14] 提
出了第一个基于深度学习模型的开集识别方法, 将深度神经网络中的 SoftMax 模块替换为 OpenMax 模块. 继
[5]
而, Ge 等人 [30] 将生成对抗网络与 OpenMax 模块相结合, 提出了 G-OpenMax 模块. Neal 等人 首先利用数据增
广技术生成虚拟的未见类样本, 从而使已见类别与未见类别之间的决策边界更准确. Oza 等人 [31] 则利用条件
自编码器来解决开集识别问题, 通过利用极值理论建模样本的重建误差来区分已见类别与未见类别. 此外,
Shao 等人 [32] 首先考虑了开集识别问题中训练数据与测试数据间可能存在协变量偏移, 并基于因果理论提出
了一种利用不变表征的稳健开集识别方法. 然而, 既有方法要么未考虑到协变量分布偏移问题, 要么依赖于
严苛的假设难以在实际场景中奏效. 当这些方法被用于协变量分布连续变化的真实测试环境中时, 往往性能
会严重退化, 甚至不如开集识别基线方法.
1.2 测试时适应
测试时适应旨在仅利用无标注测试数据, 使源模型不断适应于测试阶段变化的数据分布. Sun 等人 [33] 首
先提出可以在测试阶段更新模型来解决数据分布偏移的问题. 早期测试时训练工作 [23,34] 需要同时介入模型的