Page 78 - 《软件学报》2024年第4期
P. 78
1656 软件学报 2024 年第 35 卷第 4 期
局部多样性选择
专家标注
l 1 …
…
l 2
…
l 3
…
可信的公共类集合 D rc
l u
l u …
l u … 匹配 信息最大化损失
与公共困难类相似的开放类分布 纠正 交叉熵损失
与公共简单类相似的开放类分布
低信息熵
开集损失
基于阈值
潜在的公共类集合 D pc
可信的开放类集合 D rp
公共类
高信息熵 开放类
潜在的开放类集合 D pp
图 3 局部一致性主动学习算法的框架
• 阈值模糊样本
进一步分析, 目标域中所有的公共类样本可以被分为两部分: 类似源域的简单类样本 D e 和远离于源域的
[23,40]
困难类样本 D h . D e 中包含的样本的熵值小, D h 中包含的样本的熵值大. 如图 2 和图 3 所示: 当开放类样本
和 D e 中样本相似时, 这些开放类样本以较大的概率远离分类边界且熵值较小, 基于阈值分离时, 他们很容易
落入公共类集合 D pc ; 当 D h 中样本和开放类别样本相似时, 这些公共类样本以较大的概率靠近分类边界且熵
值较大, 基于阈值分离时, 他们很容易落入开放类集合 D pp . 如上所述, 当开放类样本和公共类样本相似时,
这两部分样本会具备相似的熵值, 从而难以被基于阈值的方式有效分离. 本文将这些相似的样本定义为阈值
模糊样本.
现有的基于不确定性和基于多样性的主动学习方法难以针对性地分离这些阈值模糊样本: 基于不确定性
的方法仅仅关注模型不太确定的样本, 他们可以促进熵值比较大的公共类样本和开放类样本分离, 而难以探
索到熵值较小且相似的公共类样本和开放类样本; 基于多样性的方法可以通过探索全局信息的方式挖掘到所
有类别的相似的公共类和开放类样本, 但是在主动样本数量较少的限制下, 他们也仅能关注到相似的样本中
少量的代表性样本, 难以促进公共类和开放类的有效分离.
本文提出了一种新的主动选择的方式: 局部多样性选择, 利用局部标签一致的特点. 从探索主动样本转
向探索主动样本局部区域, 从而挖掘更全面, 更具代表性的相似的公共类和开放类样本来促进有效的分离.
局部多样性选择基于局部标签一致的发现: 即使模型难以有效地识别样本是属于开放类还是公共类, 但是开
放类和开放类样本在特征层面上依然会形成干净的簇 [41,42] , 如图 4 所示(彩色表示公共类样本, 灰色表示开放
类样本). 本文认为, 在每一个聚类的簇中, 从探索单个样本信息转为探索样本局部区域的信息, 可以获得更
多更全面的样本, 这些样本有更大的几率落入阈值模糊样本区域. 具体来说, 局部多样性选择包含以下几个
步骤.
(1) 在特征层面, 基于普通的 K-means 先将所有的目标域样本聚成 K 个类别;
(2) 取每个类别的中心作为锚点;
(3) 按照锚点的信息熵值进行排序, 从熵值从高到低进行排序, 并让专家从高到低给锚点进行标注. 在
专家标注有限的情况下, 标注的数量可能小于锚点的数量, 排序的操作希望让专家标注信息熵值较
大的锚点所在的聚类;