Page 77 - 《软件学报》2024年第4期
P. 77

王帆  等:  局部一致性主动学习的源域无关开集域自适应                                                     1655


         确定性或多样性方法挑选的样本难以实现以上目的.  基于不确定性的方式仅能促进相似且不确定性高的公共
         类和开放类分离,  不确定性低的且相似的公共类和开放类样本难以被探索到.  基于多样性的方法探索的样本
         数量较少,  难以探索到全面的相似样本来促进开放类和公共类分离.  为此,  我们设计了局部多样性选择,  利用
         样本局部区域标签一致的特点,  从样本选择转向区域选择,  从而选择更全面的样本,  尽量覆盖阈值模糊样本
         区域,  来促进相似的公共类样本和开放类样本分离.  在利用主动标注样本时,  本文还设计了不同的损失函数
         对这进一步促进开放类和公共类分离.
         2    方   法

             本节主要对本文中涉及到的问题和核心方法进行详细描述,  首先对主动学习的源域无关开集域自适应问
         题进行形式化定义,  然后对局部一致性主动学习算法进行详细阐述.
         2.1   基本定义

             本文研究的重点是:  如何通过源域模型挑选和利用有价值的主动样本,  从而有效地促进公共类和开放类
         分离的同时,  保证公共类样本的辨别能力.  对所要解决的问题进行形式化定义:  在主动学习的源域无关开集
                                                           s
         域自适应任务中,  我们可以获得一个已经利用源域数据 D =                  {,  i s } i= s n  1  经过普通训练得到的源域模型 h s 和由 n t
                                                          xy
                                                           i
                                                       s
                                    x
                                     t
         个无标签数据组成的目标域 D =          {}  t n  1 . D s 和 D t 来自两个相似但不同的分布,  且 D s 在目标域适应时不可利用.
                                 t
                                     ii=
              s
                      t
          C ∋  y 和 C ∋  y 分别表示源域和目标域的标签集.  在开集域自适应中, C s 是 C t 的子集, C s 中包含的类别称为公
                      i
           s
                  t
              i
                                                         \
         共类, C t 中存在但是 C s 中没有的类别称为开放类,  即 C =         CC .  本文将少部分需要标注的有价值的样本定义
                                                    t
                                                        t
                                                           s
                           t
                    l
                        t
         为主动样本 D =     {, }xy ii= l n  1  ,  其中, n l =βn t 表示主动样本的数量, β表示主动样本的比例.  剩下的大量的无标签目
                    t
                        i
                          U
         标域样本被定义为 D .  源域模型包含普通的两阶段结构:  一个特征提取器和一个分类器.  在少量的主动样本
                          t
           L
          D 的帮助下,  主动学习的源域无关开集域自适应的目标是:  对公共类类别 C s 中样本进行细分且将所有开放
           t
         类别 C 的样本识别为‘未知’,  即同时实现公共类辨别和开放类检测.
              t
         2.2   局部一致性主动学习算法
             局部一致性主动学习算法主要关注和解决以下两个问题:  (1)  探索哪些样本对于促进公共类和开放类的
         分离是重要的?  (2)  利用(1)中挑选的重要的主动标注样本,  在促进公共类和开放类的分离的同时保证公共类
         的辨别能力.  在探索主动样本中,  我们首先发现挑选阈值模糊样本是重要的.  然后,  设计局部多样性选择算法
         来探索这些阈值模糊样本.  在利用主动样本中,  本文引入开集损失和信息最大化损失来促进公共类和开放类
         样本进一步分离,  引入交叉熵损失来保证公共类样本内部的辨别效果.
         2.2.1  探索主动样本点(见算法 1 第 2−8 行)
             由于给定的源域模型仅仅是通过普通训练得到的,  其不具备区分公共类别和开放类别的能力.  参考现有
         的开集域自适应的工作         [15,38] ,  基于模型输出的不确定性(比如信息熵),  本文首先可以设定阈值来评估样本属
         于公共类别还是开放类别.  由于源域模型是由和目标域相似的公共类样本训练得到的,  所以公共类样本的信
         息熵值普遍会比开放类别的信息熵值小.  具体来说,  基于每一个样本通过模型输出得到的信息熵值 H 和提前
         设定的阈值 w 0 ,  所有样本可以被分为两部分:  潜在的公共类集合 D pc ={x i |H(x i )<w 0 }和潜在的开放类集合 D pp =
         {x i |H(x i )≥w 0 }(如图 3 所示).  但是由于域差异和开放类样本的存在,  模型输出的不确定性会由于未经校准和处
         理而变得不可信      [39] ,  从而导致这两部分集合中往往存在较大的噪声,  即公共类集合中 D pc 包含很多信息熵值
         小的开放类样本.  同样,  开放类集合 D pp 中也会包含很多信息熵值大的公共类样本.  所以,  基于阈值划分的方
         式难以有效地分离熵值小的开放类样本和熵值大的公共类样本.
   72   73   74   75   76   77   78   79   80   81   82