Page 147 - 《软件学报》2020年第12期
P. 147
李延超 等:自适应主动半监督学习方法 3813
t
7. L=L∪L .
8. until t>T.
2 自适应的主动半监督学习
2.1 半监督分类
通过主动而不是随机地选择样本,将需要较少的标记样本训练模型,从而节省标记专家宝贵的时间.在准确
性驱动的研究项目中,人们可以通过积极和迭代地与领域专家合作,更好地节省他们的时间,提高机器学习系统
的性能.本文将提出的主动学习方法应用到先进的半监督学习 MT 模型 [22] 和 kNN 模型上.以下是主动学习应用
到半监督分类的伪代码:
算法 2. 半监督分类.
U
L
输入:v 时刻选择的最佳子集,超参数β,模型 M,无标记样本池的大小 N ,初始训练集 N ;
输出:训练好的模型 M.
1. repeat
L
U
2. V←AdaActive(N ,v,N ,β);
L
L
3. N ←N ∪V;
U
U
4. N ←N \V;
L
5. M←M(N );
6. until 达到预算.
注意到,MT 和 kNN 模型的选择并不重要,因为提出的方法可以与任何监督和半监督学习算法一起使用.在
每次迭代中,算法选择最佳子集样本进行主动查询,然后作为训练集进行模型训练.总之,所选样本具有以下 3 种
属性:(1) 样本具有信息性和代表性;(2) 所选批次集具有低冗余度;(3) 批量集具有高度多样性.显然,这 3 个属
性是提出批抽样主动学习的理想属性.我们在第 3.2 小节中给出实验分析算法的性能.
2.2 半监督聚类
半监督聚类(semi-supervised clustering,简称 SSC)旨在借助用户提供的辅助信息,提高聚类模型的性能.学
者们提出了很多种不同的监督方式,其中最有影响力的策略是确定样本对的关系.我们定义了每一个“必须链
接”(must-link)对(x i ,x j )∈M,表示 x i 和 x j 在同一个簇中.相似地,每一个“无法链接”(cannot-link)对(x i ,x j )∈C 表示 x i
和 x j 不在同一个簇中.例如:对于文档聚类,获取“必须链接”和“无法链接”约束需要用户扫描相关文档,并确定它
们之间的关系,这是可行的,但是时间成本很高.我们研究的问题是:如何有效地选择成对查询,进而提高聚类模
型的性能.
我们对链接约束使用主动学习方法,以实现快速收敛,并且取得比无监督聚类更好地效果.这里给出主动学
d
习应用到半监督聚类的形式化定义.给定样本集 D={x 1 ,…,x n },其中每个样本 x i ∈ .假设簇的数目为 c.在主动学
习方法设置中,信息可以通过下面这种查询方式获取:“样本 x i 和 x j 属于同一类吗?”,样本对(x i ,x j )表示为一个查
询,这个查询的答案为 l ij ∈{M,C}.特别地,如果 y i =y j (y i ≠y j ),标签返回“M”(“C”).在每次迭代中,基于数据集 D 和当
前约束集合 C 选择一个或多个查询.“必须链接”和“无法链接”约束满足以下性质.
• (x i ,x j ,M)∧(x i ,x k ,M)⇒(x j ,x k ,M);
• (x i ,x j ,M)∧(x i ,x k ,C)⇒(x j ,x k ,C).
此外,我们使用组(group)的概念来区分不同的类标签.其主要思想:如果确认组中一个样本,那么就可以推
断出组中所有的样本都有成对关系.给定约束集 C,可以确定 k 个组Σ={Σ 1 ,…,Σ k },其中,k≤c,c 是类别的总数.组
Σ i 中的每个样本都包含“必须链接”,并且与其他组有“无法链接”对.如果不存在“无法链接”对,则可以推断出一
个新的组.从另一个视角可以将组看作标记样本,即相同(不同)组中的样本具有相同(不同)的标签.为了使用少
量的查询,获取大量样本之间的约束,采用主动学习策略,以逐步增加组中的样本,减少查询样本比对的过程.