Page 144 - 《软件学报》2020年第12期
P. 144
3810 Journal of Software 软件学报 Vol.31, No.12, December 2020
习方法嵌入到半监督学习算法中,它对准确率驱动型应用任务非常有用 [19] ,如计算机辅助医学诊断,并且适用于
[1]
复杂任务,例如人体姿势估计 .对于聚类方法,采用样本约束对的主动监督,实现聚类算法的快速收敛,并取得
比无监督聚类更好的性能.此外,应用聚类可以发现数据中一些人工发现不了的类别结构.
许多分类模型需要通过获取大量标注的样本数据来训练模型,以取得强泛化性能.例如:标记肺部疾病通常
需要专家,但是让医生在所有图像中标记所有病灶是“昂贵”和困难的.这些应用是以性能为驱动的,其目的是提
高模型的准确性,并最大限度地减少获取标记数据的成本.根据模型在实际应用中获得的经验,导致模型性能下
降主要有 3 个原因:首先,标签数据不足意味着训练的模型不能反映真实的数据分布和产生强泛化性能;其次,标
记的数据有噪音,例如 MNIST 演化数据集;第三,描述标记数据的特征不足以作出所需的判别,例如人的身高特
征无助于诊断哪种类型的肺部疾病.此外,基于决策边界方法的错误假设会导致模型选择的样本不具有信息性
和代表性.另外,现有批量抽样的主动学习方法选取的样本带有高度冗余性,这些激励我们自适应选择多样化的
样本数据.
本文提出的主动学习算法使用深度神经网络方法,学习标记和未标记样本特征表示,进而查询选择具有信
息性和代表性的样本,以最小化获得标记数据的成本.而且,提出方法的标签循环机制对噪音标签具有鲁棒性.
此外,本文将提出的方法嵌入到不同的任务中,并且性能都得到提升.本文的贡献总结如下.
(1) 提出了一种结合半监督学习的主动学习方法.采用标签循环模式,使得标记样本与未标记样本建立联
系再回到相同标签的标记样本,这样同时考虑了样本的信息性和代表性,并且算法对噪声标签具有鲁
棒性;
(2) 提出了自适应参数的主动学习方法,使得算法自主学习数据的不确定性和代表性权重.此外,子模函
数的嵌入确保批抽样所选样本集合的多样性;
(3) 分别在分类和聚类任务中设计了两种算法,算法实验结果表明:设计的批抽样主动学习方法是有效
的,并且算法能够快速收敛;
(4) 针对不同应用任务,即分类和聚类,算法在基准数据集进行了大量实验.结果表明,提出的方法优于目
前先进的算法.
1 主动监督
本节介绍提出的主动学习方法,它同时考虑了样本的不确定性和代表性.此外,本节分析主动学习算法中批
处理样本多样性和自适应选择方法,为后面设计的算法提供指导.
1.1 主动选择
主动学习背后的关键思想:如果允许选择模型训练的数据,则机器学习算法可以使用较少的标记训练样本,
实现模型更高的准确性.受关联学习的启发,本节对其进行修改并提出了主动学习方法.主动学习方法选择最具
信息性(不确定性)和代表性(影响力)的监督实例,交给专家标记.在每次主动学习迭代 t∈{0,…,T}中,根据下面定
义的监督损失主动选择批量 S t 中的样本,并添加到已有的标记数据中:L t =S t ∪L t-1 .提出的主动监督方法同时考虑
样本影响和不确定因素,具体而言,不确定性衡量标记和未标记样本之间的相似性.为了防止算法仅在“简单”的
例子中进行标记,主动选择考虑了样本的影响力因素,这可以更好地泛化到其他样本,并“传播”更有价值的信息.
所以,主动选择的贡献在于样本不确定性和影响力的结合.
• 不确定性
给定一批标记和未标记的样本,将这些样本输入到深度学习模型,例如卷积神经网络(CNN),得到特征向量
表示,即 A 和 B.如前所述的关联概率,本文希望最大化相同标签从 A 到 B 并返回 A 的概率.这种特性衡量了样本
的不确定信息.
定义 1. 样本表示 A 和 B 的相似性可以定义为
M ij =A i ⋅B j .
其中,A 和 B 表示批数据的矩阵;行表示样本的索引;点积也可以采用其他相似性度量,例如欧式距离.