Page 334 - 《软件学报》2025年第7期
P. 334
曹艺 等: 融合扩增技术的无监督域适应方法 3255
本文第 1 节简要介绍无监督域适应和基于半监督学习的数据扩增技术. 第 2 节详细说明本文的主要工作. 第
3 节是实验部分, 通过在多个无监督域适应领域的学习任务, 对本文所提出方法进行比较, 说明方法的有效性. 第
4 节为结论和未来研究趋势.
1 相关工作
1.1 无监督域适应
无监督域适应是一类在训练数据和测试数据来自不同分布条件下的机器学习问题. 其中, 带有标注信息的训
练数据为源域, 缺少标注信息的测试数据为目标域, 学习任务是使得源域上训练得到的分类器能够在目标域上获
得最佳泛化能力 [35] . 在贝叶斯理论框架下, 训练数据和测试数据应具有相同的先验分布, 以保证分类器的泛化能
力. 因此, 现有无监督域适应的研究力图减少训练数据和测试数据之间的这种分布差异. 其方法可大概分为两类:
基于数据域分布距离或度量的最小化方法和基于样本或特征生成的训练方法.
基于数据域分布距离或度量最小化方法的主要思想是设计能够合理度量数据域之间差异的函数, 使用此函数
度量源域和目标域之间的分布距离. 通常情况下, 此分布距离越小, 则源域和目标域之间的差异越小. 在分类器训
练过程中, 将分布距离最小化与损失函数的最小化相结合, 使用优化方法最小化组合后的结果, 从而得到最优的分
类器训练结果. 采用这种思想的无监督域适应方法包括: 最大均值差异 (maximum mean difference, MMD) [10,36] , 基
于多项式核 MMD 的相关对齐 (correlation alignment, CORAL) [15,37] 和 KL 散度距离 [38] 等技术. 在最大均值差异的
基础上, DDC (deep domain confusion) 模型 [10] 引入了此距离, 用于在多层卷积网络中学习混淆域中的不变特征. 多
[9]
核最大均值差异 (multi kernel-maximum mean discrepancies, MK-MMD) 使用多个核对距离进行度量, 拉近数据域
之间的特征分布距离, 以及同时考虑边缘和条件概率分布的联合 MMD 方法 [26] . 除最大均值差异的工作外, 其他
分布距离的方法还有基于欧氏距离的映射相关对齐技术 [39] , 测地线距离 [40] 和无限维协方差矩阵 [40] , 这些工作的特
点是试图找到数据域间的共享特征表示. 而另外一些工作则针对数据域中的个体, 对源域和目标域中的属性进行
建模, 找到有意义的特征表示, 保证数据域不变 [41] . 以及, 使用数据域中的伪标签建立条件分布, 使用此条件分布
对齐的形式代替两个数据域之间语义对齐的问题, 力图解决使用边缘分布无法保证数据域的语义对齐的问题 [17,42] .
基于样本特征生成的训练方法 [3,16−23] 则受到了对抗网络训练的启发, 使用对抗网络生成一组能够使分类器混
淆的样本, 使用这组样本训练分类器, 达到分类性能最大化. 这里, 生成对抗网络 [43] 的训练方法是指利用两个神经
网络进行对抗训练, 尽可能生成使判别网络迷惑的“真”样本, 而分类器则尽可能对包含这些生成样本的数据集进
行判断, 给出准确的预测结果. 例如: 通过最小化分类模型误差, 最大化判别器误差的 ADDA [44] 方法; 通过增加梯
[3]
度翻转层达到对抗效果的 DANN 方法; 使用信息熵计算分类器预测结果的不确定度, 从而增加数据域知识迁移
的 CDAN [17] 方法等. 此外, 也有一些工作间接地利用了对抗-协作的思想来完成域适应任务, 例如: 通过多层卷积网
络的权值共享, 在多个数据域中找到样本的联合分布, 间接完成对抗训练任务 [45] , 基于数据域之间的协作和对抗
策略的域适应任务 [25] 和基于重构编码和共享编码表示的深度重构网络 DRCN [46] 等.
1.2 基于半监督技术的数据扩增
半监督学习 (semi-supervised learning, SSL) 是一种利用少量标注数据和大量未标注数据联合训练分类器的学
习技术 [47] . 在数据扩增任务中, 常用的半监督学习方法包括用于标记扩增的伪标签技术和用于样本扩增的一致性
正则化技术.
伪标签技术一般用于对数据集中的标记信息进行扩增, 其过程是, 首先利用标注好的数据训练分类器, 使用该
分类器对其余未标注数据的标记信息进行预测, 根据预测结果为未标记数据添加标记信息, 将这些标注后的样本
用于后续分类器的训练过程, 从而达到提高分类器性能的目的. 基于这种思想, 这部分的研究工作包括使用多层卷
积网络的预测结果作为伪标签信息 [48] , 使用当前分类器的预测结果作为未标注样本的伪标签 [49] , 其方法特点是,
为每个未标注样本引入权重, 用于衡量与该样本距离最近的若干个样本的不确定程度. 距离越近, 其不确定度越
高, 权值越大. 另外, 也有研究工作借鉴了主动学习中样本不确定性的思想 [50] , 使用样本的不确定性作为衡量标准,

