Page 77 - 《软件学报》2024年第4期
P. 77
王帆 等: 局部一致性主动学习的源域无关开集域自适应 1655
确定性或多样性方法挑选的样本难以实现以上目的. 基于不确定性的方式仅能促进相似且不确定性高的公共
类和开放类分离, 不确定性低的且相似的公共类和开放类样本难以被探索到. 基于多样性的方法探索的样本
数量较少, 难以探索到全面的相似样本来促进开放类和公共类分离. 为此, 我们设计了局部多样性选择, 利用
样本局部区域标签一致的特点, 从样本选择转向区域选择, 从而选择更全面的样本, 尽量覆盖阈值模糊样本
区域, 来促进相似的公共类样本和开放类样本分离. 在利用主动标注样本时, 本文还设计了不同的损失函数
对这进一步促进开放类和公共类分离.
2 方 法
本节主要对本文中涉及到的问题和核心方法进行详细描述, 首先对主动学习的源域无关开集域自适应问
题进行形式化定义, 然后对局部一致性主动学习算法进行详细阐述.
2.1 基本定义
本文研究的重点是: 如何通过源域模型挑选和利用有价值的主动样本, 从而有效地促进公共类和开放类
分离的同时, 保证公共类样本的辨别能力. 对所要解决的问题进行形式化定义: 在主动学习的源域无关开集
s
域自适应任务中, 我们可以获得一个已经利用源域数据 D = {, i s } i= s n 1 经过普通训练得到的源域模型 h s 和由 n t
xy
i
s
x
t
个无标签数据组成的目标域 D = {} t n 1 . D s 和 D t 来自两个相似但不同的分布, 且 D s 在目标域适应时不可利用.
t
ii=
s
t
C ∋ y 和 C ∋ y 分别表示源域和目标域的标签集. 在开集域自适应中, C s 是 C t 的子集, C s 中包含的类别称为公
i
s
t
i
\
共类, C t 中存在但是 C s 中没有的类别称为开放类, 即 C = CC . 本文将少部分需要标注的有价值的样本定义
t
t
s
t
l
t
为主动样本 D = {, }xy ii= l n 1 , 其中, n l =βn t 表示主动样本的数量, β表示主动样本的比例. 剩下的大量的无标签目
t
i
U
标域样本被定义为 D . 源域模型包含普通的两阶段结构: 一个特征提取器和一个分类器. 在少量的主动样本
t
L
D 的帮助下, 主动学习的源域无关开集域自适应的目标是: 对公共类类别 C s 中样本进行细分且将所有开放
t
类别 C 的样本识别为‘未知’, 即同时实现公共类辨别和开放类检测.
t
2.2 局部一致性主动学习算法
局部一致性主动学习算法主要关注和解决以下两个问题: (1) 探索哪些样本对于促进公共类和开放类的
分离是重要的? (2) 利用(1)中挑选的重要的主动标注样本, 在促进公共类和开放类的分离的同时保证公共类
的辨别能力. 在探索主动样本中, 我们首先发现挑选阈值模糊样本是重要的. 然后, 设计局部多样性选择算法
来探索这些阈值模糊样本. 在利用主动样本中, 本文引入开集损失和信息最大化损失来促进公共类和开放类
样本进一步分离, 引入交叉熵损失来保证公共类样本内部的辨别效果.
2.2.1 探索主动样本点(见算法 1 第 2−8 行)
由于给定的源域模型仅仅是通过普通训练得到的, 其不具备区分公共类别和开放类别的能力. 参考现有
的开集域自适应的工作 [15,38] , 基于模型输出的不确定性(比如信息熵), 本文首先可以设定阈值来评估样本属
于公共类别还是开放类别. 由于源域模型是由和目标域相似的公共类样本训练得到的, 所以公共类样本的信
息熵值普遍会比开放类别的信息熵值小. 具体来说, 基于每一个样本通过模型输出得到的信息熵值 H 和提前
设定的阈值 w 0 , 所有样本可以被分为两部分: 潜在的公共类集合 D pc ={x i |H(x i )<w 0 }和潜在的开放类集合 D pp =
{x i |H(x i )≥w 0 }(如图 3 所示). 但是由于域差异和开放类样本的存在, 模型输出的不确定性会由于未经校准和处
理而变得不可信 [39] , 从而导致这两部分集合中往往存在较大的噪声, 即公共类集合中 D pc 包含很多信息熵值
小的开放类样本. 同样, 开放类集合 D pp 中也会包含很多信息熵值大的公共类样本. 所以, 基于阈值划分的方
式难以有效地分离熵值小的开放类样本和熵值大的公共类样本.