Page 92 - 《软件学报》2024年第4期
P. 92

1670                                                       软件学报  2024 年第 35 卷第 4 期

         训练与测试过程.  这些工作在训练阶段将额外优化一个自监督学习目标,  并在测试阶段继续优化这个目标来
         更新模型参数.  Nado 等人     [35] 发现:  在测试阶段动态更新批标准化层中的统计信息,  有利于提升模型对于数据
         分布偏移的稳健性.  在此基础上,  Wang 等人          [21] 提出了测试时适应方法,  将熵最小化损失作为测试阶段模型的
         优化目标更新模型参数.  Niu 等人         [22] 提出了一种基于样本选择的测试时适应方法,  旨在提升测试时适应方法
         的计算效率.  此外,  Wang 等人     [24] 首次考虑了测试时适应算法持续地在测试环境中更新模型,  导致模型性能退
         化的问题,  并提出了一种能够持续更新模型的稳健算法.  Gong 等人                  [27] 考虑了真实场景下测试时适应算法面对
         非独立同分布的测试数据可能遇到的稳健性问题,  提出了一种基于缓冲区的稳健测试时适应算法.  然而,  既
         有方法均假设训练数据与测试数据的类别空间相同,  一旦测试数据中出现训练数据从未见过类别的样本,  这
         些方法将无法有效地使模型适应于变化的测试分布.

         2    问题与分析

             首先介绍本文研究的开放世界适应问题的形式化;  然后,  针对开集识别问题在协变量分布偏移场景下应
         用所遇到的问题进行深入分析.
         2.1   问题形式化

                              d
                                                K
             考虑输入空间为∈ ,  标记空间为={0,1} 的多分类开集识别问题.  其中,  d 是一个向量表示输入空间
         的维度,  K 表示类别的数量.  X,  Y 分别表示样本与标记的随机变量,                  t (), ()X    t OS  X 分别表示在 t 时刻下的
         已见类样本与未见类样本的协变量分布.  在开集识别问题中,  模型不仅要准确分类已见类样本,  同时还要识
         别并拒绝未见类样本.  因此,  开集识别模型 f(x;θ):→[0,1]         K+1  的输出空间比标记空间略大,  其中,  前 K 个维度
         代表已见类别,  第 K+1 个维度代表未见类别.
             本文研究的开放世界适应问题分为训练与测试两个阶段.  在训练阶段,  我们给定算法一个包含 N 个有标
                                                                                      K
                            {, }y
         注数据的训练集 D      train  = x i  i  i= N 1 ,  其中,  x i ∈表示从分布 0 (X)中采样得到的训练样本,  y i ∈{0,  1} 表示训练标
         注.  开放世界适应算法需要利用有标注数据集 D train 训练一个具有开集识别能力的模型 f(x;θ 0 ),  使其能正确分
         类已见类别,  同时准确识别未见类别.  在测试阶段,  测试样本的协变量分布 t (X)在不同时刻 t 间连续变化.  开
         放世界适应算法需要在线地执行开集识别任务,  并利用无标注测试样本不断更新模型,  使其适应于当前的数
         据分布.  具体来说,  在任意时刻 t 均有一批包含 N t 个测试样本的集合 D = x              i  i= t N 1
                                                                   {} 到达,  其中, x i 采样于已见类别
                                                                 t
                              ()X ∪ 
         与未见类别的组合分布 �              t OS ()X .  开放世界适应算法需要首先给出测试样本集合 D t 的开集预测结果,
                              t
         然后利用 D t 将模型参数θ t−1 更新为θ t ,  使其适应于当前协变量数据分布 t (X),  以便模型 f(x;θ t )在后续时刻能给
         出更准确的预测结果.
         2.2   问题分析

             本节详细分析了解决开放世界适应问题所遇到的关键问题:
             (1)  协变量分布偏移导致模型性能退化;
             (2)  测试时更新模型又受到未见类样本的影响.
             具体来说,  第 2.2.1 节分析了既有开集识别方法面对协变量分布偏移时性能下降的问题,  并介绍了能够在
         测试时更新模型使其适应于协变量分布偏移的测试时适应方法;  第 2.2.2 节分析了测试时适应方法受到未见
         类样本影响,  性能依旧退化的问题.
         2.2.1    协变量分布偏移
             图 2 分别在无分布偏移、分布偏移程度为 3 与分布偏移程度为 5 的 CIFAR10 数据集上进行实验,  将基线
         开集识别方法  Baseline、两种先进的开集识别方法 ARPL 与 Proser、具有较强域泛化能力的开集识别方法
         SC_OSG 和本文所提方法  OTA(在图中标注为  Proposal)进行了对比.其中,  图 2(a)展示了模型分类已见类别的
         性能,  图 2(b)展示了模型识别未见类别的性能.  实验结果证明了在开放世界适应问题中,  一旦协变量分布偏
   87   88   89   90   91   92   93   94   95   96   97