Page 79 - 《软件学报》2024年第4期
P. 79
王帆 等: 局部一致性主动学习的源域无关开集域自适应 1657
(4) 以锚点为中心, 以 cosine 为距离度量准则, 将距离锚点最近的 N 个邻居看成标签一致的局部区域组,
并将每一个锚点的标签赋给它当前局部组内的所有样本. 这样, 通过少量有限的标注, 可以得到更
L
多更全面的主动样本集合 D .
需要注意的是, 在标注过程中, 对于公共类样本, 专家需要标注具体的类别(l 1 ,...,l n ); 对于开放类样本, 专
家只需要将其标注为未知类别(l u ), 大大降低了专家标注的工作量(见算法 1 第 2−7 行).
图 4 基于源域模型的目标域特征分布
得到专家标注的所有主动样本集合后, 我们对初筛得到的潜在公共类 D pc 和开放类 D pp 样本集合进行匹配
纠正, 得到对应的可信集合. 具体来说, 对任何一个主动样本 x i : (1) 如果其属于潜在的公共类, 同时主动标注
也属于公共类, 则不做任何操作; (2) 如果其属于潜在的公共类, 但主动标注其属于开放类, 则将这个样本从
公共类集合 D pc 移动到 D pp 中; (3) 如果其属于潜在的开放类, 同时主动标注也属于开放类, 则不做任何操作;
(4) 如果其属于潜在的开放类, 但主动标注其属于公共类, 则将这个样本从开放类集合 D pp 移动到公共类集合
D pc 中. 经过匹配纠正之后, 原本潜在的公共类和开放类集合中的大部分阈值模糊样本会被纠正为其所属的正
确集合, 从而可以得到可信的公共类集合 D rc 和可信的开放类集合 D rp (图 3)(算法 1, 第 8 行).
2.2.2 利用主动样本点(见算法 1 第 9−12 行)
在获得可信的公共类集合和开放类集合后, 如何利用这两部分可信样本进一步促进公共类和开放类的分
离和公共类的内部辨别, 是利用主动样本点的目标. 如图 5 所示: 适应前, 阈值模糊样本难以被基于阈值的方
式分开, 但随着适应过程的进行, 本文希望模型分类器对开放类别的样本拥有更大的不确定性, 公共类别的
样本拥有更小的不确定性. 此时, 通过模型输出的熵值可以有效地进行对两类样本进行区分.
适应后
公共类 开放类
图 5 适应前后公共类样本和开放类样本的潜在分布
对于开放类别的所有样本 D rp , 本文希望模型对这部分样本的输出越来越不确定, 即输出的熵值越来越
大. 所以, 本文引入了现有的开集工作中 [13] 常用开集损失来对其进行训练:
1
( )
L unk = − E t x ∈ ∑ k K log px (1)
k
D
t
rp
其中, p k 表示模型经过 softmax 输出的第 k 个元素的向量. 此损失的目的是使得模型对于开放类样本输出的概