Page 94 - 《软件学报》2024年第4期
P. 94
1672 软件学报 2024 年第 35 卷第 4 期
2.2.2 未见类样本影响
然而, 既有测试时适应方法与开集识别问题不适配. 图 3 分别在无分布偏移、分布偏移程度为 3 与分布
偏移程度为 5 的 CIFAR10 数据集上进行实验, 将基线开集识别方法 Baseline、将测试时适应方法与开集识别
方法相结合的方案 Tent、CoTTA 与 LAME 和本文所提方法 OTA(在图中标注为 Proposal)进行了对比. 其
中, 图 3(a)展示了模型分类已见类别的准确率, 图 3(b)展示了模型识别了未见类样本的 AUROC. 实验结果证
明, 将测试时适应方法直接应用于现有开集识别模型反而会导致模型性能退化. 一方面, 由于测试数据中存
在未见类样本, t−1 时刻的测试数据分布为 λ t () (1X + − ) λ� t OS ()X . 其中, λ是未知常数, 表示数据分布的混合
比例. t−1 时刻的测试数据分布无法近似 t 时刻已见类的数据分布 t (X),这使得基于公式(2)动态估计 µ c , σ 2 c 的
方式错误地将未见类别数据分布信息引入模型的批标准化层中, 导致模型对已见类别的分类能力显著下降.
另一方面, 公式(3)中的熵最小化损失没有考虑测试阶段可能出现的未见类别. 当模型使用熵最小化损失更新
参数γ, β时, 会错误地将未见类别样本归类于某个已见类别并更新模型, 这将导致模型区分已见类与未见类样
本的能力下降. 基于上述分析, 本文发现: 开集识别问题中的未见类样本将导致测试时适应技术中动态估计
的统计信息 µ c , σ c 2 有偏、动态更新的可学习参数γ, β错误, 分别损害开集识别模型分类已见类别、识别并拒绝
未见类别的能力. 因此, 亟待开发适用于开集识别问题的测试时适应技术, 解决上述两个关键难点, 从而解决
本文所提的开放世界适应问题.
数据分布偏移 数据分布偏移
(a) 模型分类已见类别的准确率 (b) 模型识别了未见类样本的 AUROC
图 3 协变量分布偏移时, 测试时适应方法与本文方法分类已见类与识别未见类的性能表现
3 开放测试时适应方法 OTA
本节针对开放世界适应问题中未见类样本的两个难点: (1) 将导致测试时适应技术中动态估计的统计信
息 µ c , σ c 2 有偏; (2) 动态更新的可学习参数γ, β错误, 提出了一种新颖的开放测试时适应方法 OTA, 有效地提
升了开集识别算法在协变量偏移情形下分类已见类别、识别并拒绝未见类别的性能表现. 具体来说, 我们提
出一种自适应熵损失, 在动态估计 µ c , σ c 2 与更新γ, β的过程中消除未见类样本对已见类分类的不利影响. 进一
步, 我们结合轻量级的开集识别模块, 提出了一种开集熵损失更新γ, β, 帮助模型在测试阶段更准确地识别未
见类样本. 最终, 我们利用模型参数正则化损失, 防止模型在更新过程中出现灾难性遗忘现象. 接下来, 本文
将分别介绍 OTA 算法中的 3 个关键技术.
3.1 自适应熵损失
开放世界适应问题中, 测试阶段出现的未见类样本是导致测试时适应技术无法有效估计批标准化层中统
计信息 µ c , σ c 2 并正确更新批标准化层中可学习参数γ, β的核心原因. 因此, 如何有效地找出测试数据中的已见
类样本并将它们合理地用于模型更新, 是解决开放世界适应问题的关键. 基于此动机, 我们提出了一种自适
应熵损失. 首先, OTA 方法结合测试时增广技术与不确定性度量, 从任意时刻 t 的测试数据 D t 中筛选出较高置
信度的已见类样本 D t Kn ; 然后, OTA 方法使用高置信度的已见类样本集合 D t Kn 对统计信息 µ c , σ c 2 与可学习参