Page 74 - 《软件学报》2024年第4期
P. 74
1652 软件学报 2024 年第 35 卷第 4 期
require extra storage space and training overhead, but also are difficult to be implemented in the strict privacy scenarios. This study
proposes a more practical scenario: Active learning source free open-set domain adaptive adaptation (ASF-ODA), based on a common
training source model and a small number of valuable target samples labeled by experts to achieve a robust transfer. A local consistent
active learning (LCAL) algorithm is proposed to achieve this objective. First of all, LCAL includes a new proposed active selection
method, local diversity selection, to select more valuable samples of target domain and promote the separation of threshold fuzzy samples
by taking advantage of the feature local labels in the consistent target domain. Then, based on information entropy, LCAL initially selects
possible common class set and public class set, and corrects these two sets with labeled samples obtained in the first step to obtain two
corresponding reliable sets. Finally, LCAL introduces open set loss and information maximization loss to further promote the separation
of common and public classes, and introduces cross entropy loss to realize the discrimination of common classes. A large number of
experiments on three publicly available benchmark datasets, Office-31, Office-Home, and VisDA-C, show that with the help of a small
number of valuable target samples, LCAL significantly outperforms the existing active learning methods and SF-ODA methods, with over
20% HOS improvements in some transfer tasks.
Key words: research constraint; open-set recognition; source-free domain adaptation; open-set domain adaptation; active learning
近年来, 深度机器学习模型已经在多种类型的任务上取得了突破性进展 [1−3] . 但是, 它们都隐式地假设了
训练集和测试集来自同一分布. 当这种分布一致的假设不满足时, 在训练集上得到的模型难以在测试集上进
行成功的泛化, 即模型在测试集上将会面临性能大幅度下降的风险 [4,5] . 无监督域自适应作为解决训练集(源
[8]
[9]
域)和测试集(目标域)分布不一致的有效手段, 已经在目标检测 [6,7] 、目标识别 、语义分割 等多种任务中取
得了明显的成绩.
目前, 域自适应方法聚焦在资源完备和静态的环境下解决源域和目标域的分布不一致问题. 当这些方法
受到资源限制等低能耗约束或被应用到开放动态任务环境中时, 比如源域数据不可直接被利用或目标域存在
开放类(目标域中出现的新类别)等现实问题, 他们的鲁棒性将面临严峻挑战. 一方面, 当源域数据不可见时,
依赖于大量的源域数据辅助来设计的域自适应方法 [10,11] 难以被直接应用而失效; 另一方面, 当开放类出现时,
现有的域自适应方法会错误地将开放类识别成公共类(源域和目标域中都存在的类别), 此时不仅难以识别出
开放类, 而且公共类的辨别效果也差. 举例说明: 由于成像设备和成像质量的不同, A 医院和 B 医院肺炎 CT
影像存在着明显的差异, 利用普通的域自适应来对齐两个医院的影像数据可以实现成功的迁移. 但是, 在资
源约束和数据安全的限制下, A 医院难以提供所有的带标签的病例数据, 取而代之可以共享一个已经利用 A 医
院病例数据训练好的病例模型. 当将此模型迁移到 B 医院时, 若 B 医院的病例数据中同时出现了新的肺炎病
例类型(如 COVID-19), 基于 A 医院训练的模型不仅由于源域数据的缺失难以适应, 而且难以检测出新出现的
肺炎病例类型.
源域无关开集域自适应(source free open-set domain adaptation, SF-ODA)的目的是利用源域模型而不是源
域数据, 在目标域数据中存在开放类别时, 进行准确的公共类辨别和开放类检测 [12] , 如图 1 所示.
不可获得的源域数据 无标签的目标域数据
自行车
ℎ
背包
电脑
存在分布差异的公共类 开放类 ℎ 源域模型
图 1 源域无关开集域自适应
SF-ODA 的核心问题是: 通过促进公共类和开放类的分离来最小化开放类数据对公共类内部辨别的影响,
从而促进鲁棒的迁移. Kundu 等人 [12] 对操纵源域数据生成类似开放类的样本并利用这些样本对源域模型进行
训练. Liang 等人 [13] 和 Luo 等人 [14] 设计源域模型的结构并对其训练. 他们的目标都是期望获得可以识别目标域