Page 147 - 《软件学报》2020年第12期
P. 147

李延超  等:自适应主动半监督学习方法                                                              3813


                      t
             7.   L=L∪L .
             8.   until t>T.
         2    自适应的主动半监督学习


         2.1   半监督分类
             通过主动而不是随机地选择样本,将需要较少的标记样本训练模型,从而节省标记专家宝贵的时间.在准确
         性驱动的研究项目中,人们可以通过积极和迭代地与领域专家合作,更好地节省他们的时间,提高机器学习系统
         的性能.本文将提出的主动学习方法应用到先进的半监督学习 MT 模型                       [22] 和 kNN 模型上.以下是主动学习应用
         到半监督分类的伪代码:
             算法 2.  半监督分类.
                                                                   U
                                                                                L
             输入:v 时刻选择的最佳子集,超参数β,模型 M,无标记样本池的大小 N ,初始训练集 N ;
             输出:训练好的模型 M.
             1.   repeat
                                 L
                             U
             2.   V←AdaActive(N ,v,N ,β);
                 L
                     L
             3.   N ←N ∪V;
                     U
                 U
             4.   N ←N \V;
                       L
             5.   M←M(N );
             6.   until  达到预算.
             注意到,MT 和 kNN 模型的选择并不重要,因为提出的方法可以与任何监督和半监督学习算法一起使用.在
         每次迭代中,算法选择最佳子集样本进行主动查询,然后作为训练集进行模型训练.总之,所选样本具有以下 3 种
         属性:(1)  样本具有信息性和代表性;(2)  所选批次集具有低冗余度;(3)  批量集具有高度多样性.显然,这 3 个属
         性是提出批抽样主动学习的理想属性.我们在第 3.2 小节中给出实验分析算法的性能.
         2.2   半监督聚类
             半监督聚类(semi-supervised clustering,简称 SSC)旨在借助用户提供的辅助信息,提高聚类模型的性能.学
         者们提出了很多种不同的监督方式,其中最有影响力的策略是确定样本对的关系.我们定义了每一个“必须链
         接”(must-link)对(x i ,x j )∈M,表示 x i 和 x j 在同一个簇中.相似地,每一个“无法链接”(cannot-link)对(x i ,x j )∈C 表示 x i
         和 x j 不在同一个簇中.例如:对于文档聚类,获取“必须链接”和“无法链接”约束需要用户扫描相关文档,并确定它
         们之间的关系,这是可行的,但是时间成本很高.我们研究的问题是:如何有效地选择成对查询,进而提高聚类模
         型的性能.
             我们对链接约束使用主动学习方法,以实现快速收敛,并且取得比无监督聚类更好地效果.这里给出主动学
                                                                         d
         习应用到半监督聚类的形式化定义.给定样本集 D={x 1 ,…,x n },其中每个样本 x i ∈  .假设簇的数目为 c.在主动学
         习方法设置中,信息可以通过下面这种查询方式获取:“样本 x i 和 x j 属于同一类吗?”,样本对(x i ,x j )表示为一个查
         询,这个查询的答案为 l ij ∈{M,C}.特别地,如果 y i =y j (y i ≠y j ),标签返回“M”(“C”).在每次迭代中,基于数据集 D 和当
         前约束集合 C 选择一个或多个查询.“必须链接”和“无法链接”约束满足以下性质.
             •   (x i ,x j ,M)∧(x i ,x k ,M)⇒(x j ,x k ,M);
             •   (x i ,x j ,M)∧(x i ,x k ,C)⇒(x j ,x k ,C).
             此外,我们使用组(group)的概念来区分不同的类标签.其主要思想:如果确认组中一个样本,那么就可以推
         断出组中所有的样本都有成对关系.给定约束集 C,可以确定 k 个组Σ={Σ 1 ,…,Σ k },其中,k≤c,c 是类别的总数.组
         Σ i 中的每个样本都包含“必须链接”,并且与其他组有“无法链接”对.如果不存在“无法链接”对,则可以推断出一
         个新的组.从另一个视角可以将组看作标记样本,即相同(不同)组中的样本具有相同(不同)的标签.为了使用少
         量的查询,获取大量样本之间的约束,采用主动学习策略,以逐步增加组中的样本,减少查询样本比对的过程.
   142   143   144   145   146   147   148   149   150   151   152