Page 76 - 《软件学报》2024年第4期
P. 76
1654 软件学报 2024 年第 35 卷第 4 期
来促进公共类样本的辨别性能.
本文的主要贡献包括 3 个方面.
1) 本文首次提出了一个更实际的场景: 主动学习的源域无关开集域自适应, 通过普通训练的源域模型
和少量的有价值的目标域样本实现鲁棒的公共类辨别和开放类检测;
2) 本文发现挑选阈值模糊样本对促进开放类和公共类分离是重要的, 且基于目标域局部标签一致性
的特点, 本文设计了局部多样性选择来挑选阈值模糊样本的区域, 从而有效地促进了开放类和公共
类分离;
3) 不同数据集的实验结果表明: 我们提出的局部一致性主动学习算法可以显著提高模型的效果, 在某
些迁移任务上的效果比现有的主动学习方法高 20%.
1 相关工作
1.1 无监督域自适应
无监督域自适应(unsupervised domain adaptation, UDA)的目的是将知识从大量有标注的源域中迁移到无
标注的目标域中. 目前, 主流的 UDA 算法主要侧重于通过度量方法 [27,28] 或对抗训练方法 [29,30] 来对齐源域和目
标域的分布. 但是在开放动态场景下, 目标域中会出现源域中没有的类别, 这些开放类的存在, 可能会造成错
误的对齐, 从而大大降低域自适应的性能. 开集域自适应通过促进公共类和开放类的分离来极大地提高域自
适应的效果 [31−33] . 近年来, 为了显著提升目标域模型的性能, 半监督域自适应学习 [34,35] 和主动域自适应学
习 [36,37] 被陆续提出, 它们都假定目标域中少量带标记的样本在训练时可以被利用. 尽管以上的场景已经获得
了极大的成功, 它们在训练时需要利用所有的源域数据, 这在隐私保护的场景下不实际且难以被满足.
1.2 源域无关开集域自适应
源域无关开集域自适应(source free open-set domain adaptation, SF-ODA)的目的是利用源域模型而不是大
量的源域数据, 在开放类别存在的条件下, 实现鲁棒的域自适应. 现有的 SF-ODA 方法关注于设计可以有效
区分公共类和开放类的源域模型. Inheritune [12] 在源域模型训练阶段, 通过对源域数据进行特征切片来构造灵
活的额外样本, 同时加入了额外的分类器模块来训练这些额外样本. 在适应阶段, Inheritune 将额外分类器模
型置信度较高的样本认为是开放类样本. UMAD [13] 基于最大化分类器差异思想, 构造了双分类器结构的源域
模型. 在源域模型训练阶段, UMAD 期望得到两个在源域上表现都很好但参数较为不同的分类器. 在适应阶
段, UMAD 将两个分类器分歧较大的样本认为是开放类样本. 但是以上两个方法修改了源域数据和源域模型,
这在严格的隐私场景中和资源约束限制下通用性差. 严格来说, 我们仅可以利用一个在源域上训练好的源域
模型, 而不能假定其已经具备了开放类识别的能力. 与我们设置相似的工作是 OSHT-SC [15] , 但是在适应阶段,
OSHT-SC 增加了目标域模型的结构, 加入了额外的内存和训练过程, 其在小设备或低能耗约束的限制下难以
实现. 另外, OSHT-SC 在困难数据上对开放类别的检测性能不佳. 为此, 本文提出了一个新的场景: 主动学习
的源域无关开集域自适应. 利用一个普通训练的源域模型, 在不违背隐私条件、不添加额外内存和训练时间
的前提下, 仅仅在少量主动的有价值样本的代价下, 显著提升目标域模型的性能.
1.3 主动学习
主动学习(active learning, AL)的目的是, 在有限标注代价下学到一个表现性能极佳的模型. 目前, 主流的
AL 方法主要分为以下两类.
(1) 基于不确定性. 主要通过模型的输出, 比如最小置信度 [25] 、信息熵 [24] , 衡量样本的不确定性, 将不
确定性较高的样本看成是模型不太确定的样本. 利用这些不确定样本对于促进明确的分类边界具
有很重要的指导作用;
(2) 基于多样性. 比如 Coreset [26] 期望可以获得一个可以代表整个数据集的样本集合.
但是, 对主动学习的源域无关开集域自适应来说, 有价值的样本需要落入阈值模糊样本的区域, 基于不