Page 133 - 《软件学报》2024年第4期
P. 133
田青 等: 基于自适应权重的多源部分域适应 1711
验, 并与现有相关工作进行对比以及结果分析.
3.1 数据集介绍及设置
我们在广泛使用的 3 个域适应数据集上进行相关实验, 即 Digit-Five 数据集 [27] 、Office-31 数据集 [28] 和
Office-Home 数据集 [29] . 3 个数据集的详细情况如下.
(1) Digit-Five 包括了 5 个不同的数字分类数据集, 即 MNIST-M 数据集、MNIST 数据集、USPS 数据集、
SVHN 数据集以及 Synthetic Digits 数据集. 每个数据集中包含 10 个类别的样本, 在多源域适应场景
中, 源域和目标域共享标记空间; 而在多源部分域适应场景中, 多个源域之间、源域和目标域之间
共享部分标记空间, 且目标域的标记空间是所有源域标记空间并集的一个子集, 在该场景中, 我们
设置每个源域拥有 5 个类别的样本, 目标域拥有 7 个类别的样本;
(2) Office-31 作为域适应领域中被广泛使用的数据集, 其各子数据集存在一定的相似性, 因此, 利用源
域训练所得分类器在目标域直接进行分类并不会出现较大的误差; 但在多源部分域适应场景中, 若
忽略各子数据集间的分布差异, 会在域适应过程中造成累积性误差, 从而显著影响模型分类精度.
该数据集包括 3 个子数据集, 且每个数据集中包含 31 个类别的样本. 在实验中, 针对多源部分域适
应问题, 我们设置目标域包含 21 个类别的样本, 另外 2 个源域也拥有 21 个类别的样本, 尽管它们
的类别数相同, 但标记空间是不同的;
(3) Office-Home 同样作为被广泛使用的基准数据集, 其与 Office-31 数据集存在部分相似性, 但该数据
集包含更多类别的样本. 因此, 在多源域适应场景下, 该数据集对域适应任务更具挑战性. 该数据
集包含4个不同的域, 每个域中包含 65 个类别的样本.
3.2 实验设置及对比方法
3.2.1 实验设置
在实验中, 采用 ResNet-50 作为预训练的特征提取器; 采用 Softmax 分类器作为初始化模型; 采用标准的
随机梯度下降优化器对网络进行训练(初始学习速率设置为 1e-3, 在训练过程中呈指数衰减). 超参数α和β在
[0-1]区间搜索. 本文实验平台主要配置信息如下.
• 内存: 64 GB;
• CPU: AMD3800X;
• GPU: NVIDIA GeForce RTX 3090.
3.2.2 对比方法
由于本文所提方法应用场景的特殊性且直接相关的方法稀少, 因此我们分别在多源域适应场景下和多源
部分域适应场景下对所提 AW-MSPDA 算法进行评估. 我们的对比方法包括单源域适应(UDA)方法、多源域适
[1]
应(MSDA)方法、单源部分域适应(PDA)方法和多源部分域适应(MSPDA)方法. 其中, UDA 方法包括 DANN ,
3
[4]
DAN , ADDA , CORAL [30] 以及 MCD [31] , MSDA 方法包 括 MDAN [16] , DCTN , M SDA , MDDA ,
[3]
[5]
[2]
[6]
MFSAN [14] , LtC-MSDA [32] 以及 CASR [33] , PDA 方法包括 PADA [34] , SAN [35] 以及 ETN [36] , MSPDA 方法包括
[7]
PFSA .
3.3 实验结果及分析
3.3.1 多源域适应实验
在多源域适应场景中, 源域和目标域共享同一个标记空间. 而在部分域适应场景中, 在理想情况下, 通过
源域无关类样本的筛选, 可将部分域适应问题转化为无监督域适应问题, 实现无关类样本的完全筛选. 结合
多源域适应中具有大量的源域样本, 其所含源域知识较为丰富且多样, 从而同样可能存在部分知识并不能较
好地迁移到目标域中的情况. 因此, 本文将所提 AW-MSPDA 算法直接应用到多源域适应场景中, 所提自适应
权重学习策略不会对源域所包含的类别进行过滤, 且通过加权的方式可过滤处于分类边界的源域样本, 以避
免该类样本在域适应过程中被错误分类从而引起模型整体的性能退化. 针对 3 个域适应数据集, 我们进行了