Page 143 - 《软件学报》2020年第12期
P. 143
李延超 等:自适应主动半监督学习方法 3809
balance of informative and representative examples. Specifically, batch mode active scheme is incorporated into the classification
approaches, in which the generalization ability is improved. For semi-supervised clustering, the proposed active scheme for constraints is
used to facilitate fast convergence and perform better than unsupervised clustering. To validate the effectiveness of the proposed
algorithms, extensive experiments are conducted on diversity benchmark datasets for different tasks, and the experimental results
demonstrate consistent and substantial improvements over the state-of-the-art approaches.
Key words: active learning; semi-supervised learning; classification; clustering
儿童在成人的指导下,能够快速学习并认识新的物体.例如:当孩子看过一只猫之后,或许就能够通过头或
尾巴的特征识别其他猫.在得到成人更多的指导下,并且看到越来越多的猫后,他们能够更加自信地认出猫.为
了在机器上模拟孩子完成类似的任务,系统应该能够获得人工的监督和指导.由于在许多实际应用中,例如图像
分类、文档聚类和语音识别中获取大量未标记数据是相当容易的,但是带标签的数据却是相当“昂贵”,因为它们
需要人工花大量的时间标注.此外,在计算机辅助医学诊断中,通常可以从常规检查中获得大量的胸部 X 射线图
像,但是要求医生在所有图像中标记所有的病灶是费时和困难的.另外一个例子:在人类姿势估计测试中,通常
[1]
需要很好的训练数据,因为这需要注释者点击每个人的 14 个关节.所以,人体姿势评估方法 建议每分钟一个姿
势的合理注释数据.本文的主要目标是:通过“聪明”地选择未标记的样本来标记,而不是随机的选择样本,则需要
更少的标记数据去训练模型,从而节省专家宝贵的时间.
[2]
主动学习(active learning) 范式在现代许多机器学习问题中发挥了积极作用,其关键组成部分是选择最具
信息性或代表性的样本进行标记:信息性衡量样本减少统计模型不确定性的能力,而代表性衡量样本是否能够
很好地代表未标记数据的总体输入模式.现有的大多数主动学习方法 [3−5] 通过单一查询标准选择未标记样本,
这可能会降低模型的学习性能.具体而言,这些方法在选择最具信息性的样本时并未利用未标记数据的结构,导
致严重的样本偏倚;而一些方法 [4,6−8] 选择最具代表性的样本时并没有考虑未标记数据的分布,导致模型效果不
好.此外,一些方法对数据进行假设,但是这种方法很难在图像数据中获得好的效果.另外,学者们也提出了一些
结合两种查询选择准则(样本的不确定性和代表性)的主动学习算法 [9−12] ,但是这些方法缺乏自适应动态平衡两
种准则的机制.
值得注意的是:算法每次选择单个样本进行查询,容易导致模型局部最优.此外,如果基于深度神经网络方
法的模型,这会使得算法性能低下并且导致严重的过拟合.为了解决这些问题,学者们已经提出了批抽样主动学
习(batch mode active learning)方法 [7,13,14] ,该方法在每次迭代时选择一组样本.但是,许多启发式方法未能考虑样
本之间的相互作用,导致选择的样本集具有较高冗余度.例如:基于集群的方法 [15,16] 通过将未标记的样本分组到
不同的集群中来减少冗余;基于间隔的方法 [4,17] 通过采用优化策略来选择 k 个最小间隔样本.此外,基于相似性
函数或优化信息度的方法也同样会导致次优的性能,并产生冗余样本.
受关联学习 [18] 的启发,图 1 描述了关联学习:如果样本属于同一类,则训练网络产生高相似性的样本表示;
从标记的样本表示到未标记的样本表示,并返回可区分的关联循环.
Fig.1 Associative learning
图 1 关联学习
本文提出了主动学习方法,通过深度神经网络生成标记和未标记样本的学习表示和标签循环模式,使得标
记样本与未标记样本建立联系再回到相同标签的标记样本,这样同时考虑了样本的信息性(关联概率)和代表性
(影响概率).在提出的批抽样主动学习方法中,使用子模函数(submodular function)确保选择的样本集合具有多
样性.本文将提出的主动学习方法应用到不同的任务中,即半监督分类和半监督聚类.在分类方法中,将主动学