Page 127 - 《软件学报》2024年第4期
P. 127
田青 等: 基于自适应权重的多源部分域适应 1705
排除性加权处理, 这仍将给域适应过程造成负迁移影响, 进而降低模型的整体适应效果.
结合上述分析, 依据源域与目标域共享部分特征以及不同源域具有各自私有特征的特点, 我们通过构建
域不变特征提取器和域私有特征提取器, 在实现从多个源域到目标域适应的同时, 保护不同领域自身的私有
特性. 具体而言, 通过最大化不同源域间私有特征的差异来学习源域多样性的知识. 为从多层面刻画并减小
领域间的差异, 我们分别提出了域级别对齐和类级别对齐, 以实现更紧密的领域对齐. 在上述基础上, 考虑到
多源域适应场景的特点, 我们以分布差异为相似性度量方式, 通过构建域级别的自适应权重来量化不同源域
对目标域分类任务的贡献度, 以实现对目标域分类任务精度的提升. 此外, 鉴于多源部分域适应场景中类标
记空间的特殊性, 我们利用模型预测的目标伪标签构建类级别的自适应权重, 并对决策分类器进行加权, 以
实现对源域无关类样本的自动过滤, 排除其对域适应过程的负迁移影响. 基于以上考虑, 本文提出了一种基
于自适应权重的多源部分域适应算法(adaptive weight-inducedMulti-source partial domain adaptation, AW-
MSPDA). 总结而言, 我们的主要贡献如下:
(1) 针对多源部分域适应场景, 从多个角度构建了基于自适应权重的多源部分域适应算法 (AW-
MSPDA). 该方法通过联合分布对齐和自适应权重策略有效地实现了多源部分域适应任务, 为多源
部分域适应研究提供了新的范例和参考;
(2) 结合 AW-MSPDA 的问题场景, 为挖掘所有源域和目标域的域内和域间关系, 构建了多样性特征表
示抽取架构, 通过提取域不变特征和域私有特征等混合特征来多层面迁移源域丰富知识, 以更好地
解决多源部分域适应问题;
(3) 为促进 AW-MSPDA 的正迁移成分, 通过构建多层次分布对齐策略, 同时从域级别和类级别实现源
域与目标域之间的对齐, 有效减少域漂移所带来的负面影响; 从缩小类内距和扩大类间距的角度,
减少分类边界样本对域适应过程带来的负面影响;
(4) 通过分布差异度量, 构建自适应更新的源域样本权重, 以自适应方式量化 AW-MSPDA 中不同源域
对目标域的贡献度. 此外, 还利用目标域所获伪标签设计自适应的类级别权重, 以过滤筛除源域中
的无关类样本, 消除其对 AW-MSPDA 性能的负面影响.
1 相关工作
1.1 多源域适应方法
多源域适应是域适应的一类场景, 其有效结合实际并缓解了单源域适应中单源域样本来源单一和多样性
不足的问题, 但这也给该类问题研究带来更多的挑战. 目前, 多源域适应问题已有不少相关研究被提出. 例
如: 文献[10,11]通过理论分析, 针对 MSDA 任务设计了多种趋势策略, 如通过构建对抗学习网络获取域不变
表征; 为获得优越的目标预测器, Li 等人 [12] 通过同时提取源域内部以及源域和目标域之间的关系实现不同域
分布的对齐; Zhao 等人 [13] 提供了相应的泛化边界, 使得其所提模型可以在分类和回归设置下同时提取域不变
[5]
特征和任务鉴别特征; Peng 等人 所提方法中的矩匹配是一种在新创建的多域数据集上测试的方法, 其在使
用对抗学习训练时使源域之间相互对齐, 并将源域与目标域进行对齐.
在多源域适应场景中, 由于不同源域对目标域任务具有不同的贡献, 因此, 结合源域预测器对目标域样
本进行标签的预测是完成目标域任务的关键. 其中最为常见且直接的方法是对所有源域分类器对于目标域样
本预测的性能进行平均, 但该方法未考虑不同源域与目标域数据分布的差异. Zhu 等人 [14] 提出了多特征空间
自适应网络来对齐领域特定分布和域特定分类器, 以减少在分类边界附近的样本所造成的错误分类. 然而,
不同的源域对于目标域分类通常提供不同的贡献, 因此在进行目标域标签预测时, 应该对不同源域采取不同
权重的加权策略. 为了确定不同源域的组合权重, Zhang 等人 [15] 提出了多源选择转移方法, 通过构建最近邻样
[6]
本选择、加权选择和 Top-k 选择这 3 种选择策略来选择与目标域更为相似的源域. Zhao 等人 通过选择更接近
目标样本的训练源样本和舍弃低相似性样本, 定义了一种新的遵循标准高斯分布相似度的策略来学习源域样
本权重. 与上述方法不同, Zhao 等人 [16] 提出通过对抗学习策略来训练域适应模型, 其将所有域紧密结合在一