Page 152 - 《软件学报》2020年第12期
P. 152

3818                                Journal of Software  软件学报 Vol.31, No.12, December 2020

             通常,在分类任务中,算法对β值在 10~30 之间的选择不敏感;在聚类任务中,算法对β值在 40~90 的选择不敏
         感.在实验中,我们发现选择更少或更多候选集是没有好处的.实验观察到:分类和聚类算法随着β值的不同选择
         而变化,其中,分类的最佳性能为β=40,而聚类的最佳性能为β=20.该结果突出了候选集大小选择的重要性,并为
         分类和聚类实验提供了一些指导.

         4    相关工作

             近年来,学者们已经研究了各种类型的主动学习方法并用于分类和聚类任务中.其中,许多主动分类和聚类
                                                                         [4]
         算法已经被成功应用到图像分类            [28] 、文档聚类 [29] 和计量生物学   [30] .例如:Xu 等人 利用了未标记样本的聚类信
                                [9]
         息和分类边界;Donmez 等人 建立在聚类方法             [15] 之上,并通过样本的不确定性和密度动态平衡查询选择;Wang
             [7]
         等人 使用批抽样主动学习方法,选择与未标记数据具有区别性和相似分布的样本;Cai等人                              [23] 利用模型变化最
         大化的思想来查询最有影响的样本.此外,还有些方法引入了方差最大化准则                           [31,32] 和基于损失效率的主动学习
         方法  [33,34] .另外,学者们还提出了一些将多实例或多标签学习与主动学习相结合的方法                       [31,35,36] ,并开发了半监督
         主动学习模型     [17,37] .对于聚类任务,这些方法    [25,38,39] 对样本对的约束使用主动学习来进行聚类.Xiong 等人           [27] 提
         出了一种在线框架,用于主动半监督谱聚类.该方法基于模型不确定性降低原理,在聚类进行时选择成对约束.
         Yu 等人  [40] 通过低秩矩阵提出一种有效的三向聚类(three-way clustering)方法,该方法可以提高多视图高维数据
         的聚类性能.Eriksson 等人    [41] 提出一种基于少量样本相似约束对的主动层次聚类算法.此外,主动学习方法还被
         应用到基于密度的聚类算法           [42] 中.然而,一些方法通过单一查询标准选择样本,其并未利用未标记数据的结
         构 [3−5] 或没有考虑未标记数据的分布        [4,6−8] ,使得模型的学习性能较差;另外,传统的一些方法很难在图像数据中
         获得较好的效果.
             在主动学习方法中,学者们已经开发了很多批抽样的主动学习算法                        [28,43] .通常,批抽样主动学习方法的关键
         思想是减少批抽样中所选样本之间的冗余.例如:Hoi 等人                  [28] 选择一批具有最小 Fisher 信息的样本来减少冗余;
         Guo 等人  [43] 提出了一种判别式的批抽样主动学习方法,该算法将批抽样选择形式化为连续优化问题;在文献
                                                              [6]
         [5,44]中,他们通过 SVM 的超平面选择批样本;Chattopadhyay 等人 通过最小化训练数据和未标记数据之间的
         数据分布差异来选择样本;Chakraboty 等人          [45] 提出一种新的动态批抽样主动学习框架,它通过将批量大小和选
         择标准集成到单个优化函数中来自适应地确定批量大小.此外,期望模型变化策略                             [46] 被用于批抽样主动学习方
         法中.基于深度相似性的方法            [14] 和子模函数  [21] 也被用于批抽样主动学习方法中.另外,元学习算法(meta-
         learning) [47] 也被用于学习主动学习算法中,该算法选择最佳的未标记样本集来标记.综上所述,主动学习方法是
         机器学习领域不可或缺的一部分.
             现有批抽样主动学习方法的性能很大程度上依赖于样本之间的相似性度量的准确性,例如预定义函数或
         差异性衡量.这在一些图像和医学影像应用中具有局限性.此外,噪声标签问题一直是批抽样主动学习算法的障
         碍.本文提出的方法使用深度神经网络来学习标记和未标记样本特征表示,同时考虑了样本的信息性和代表性.
         在批模式主动学习中,使用的子模函数确保了选择样本集合具有多样性.而且,提出方法的标签循环机制对噪声
         标签具有鲁棒性.更重要的是:自适应的方法可以动态地调节样本的不确定性和代表性的权重,使得抽样的样本
         保持动态的信息度.

         5    总   结

             本文提出了一种自适应的主动学习方法.从深度神经网络生成的特征表示中学习关联和访问概率损失,使
         提出的方法同时考虑样本不确定性和影响性.批抽样中子模函数的设计,为算法提供了一些指导.自适应参数的
         优化,使得主动学习算法可以自动平衡样本的信息性和代表性.此外,本文提出了一个框架,将主动学习引入到
         半监督分类和半监督聚类中.所提出的算法是一种可以嵌入现有方法的通用算法.针对不同任务,即分类和聚
         类,算法在多种基准数据集上进行了广泛的实验,实验结果证明,提出的方法全面优于现有相关的方法.在未来
         的工作中,我们希望将终身强化学习和 AutoML(automatic machine  learning)        [48,49] 推广到提出的方法中.另外,我
   147   148   149   150   151   152   153   154   155   156   157