Page 126 - 《软件学报》2024年第4期
P. 126
1704 软件学报 2024 年第 35 卷第 4 期
weighting and similarity measurement are used to construct adaptive weights to quantify the contribution of different source domains and
filter samples which are irrelevant to the source domain. Finally, the generalization and performance superiority of the proposed
AW-MSPDA algorithm are evaluated by extensive experiments.
Key words: multi-source partial domain adaptation; negative transfer; diverse feature extraction; multi-level distribution alignment;
adaptive weight
在信息爆发式增长和人力成本高昂的背景下, 作为机器学习的一个新兴范式, 域适应(domain adaptation)
通过借助已有的数据标注知识辅助, 可更好地解决无标注的目标域任务, 近年受到了研究与关注 [1−3] .现有域
适应研究大多侧重于从单个标记源域到未标记目标域的相关知识迁移, 从而完成单源域适应的目的. 然而在
现实应用中, 为获得更好的目标域预测性能, 通常赋予源域更丰富的信息, 但随着目标域复杂度和领域之间
差异的不断增 加, 现 有域适 应方法的有效 性受到一 定 的限制. 为 更好地应 对上述 问题, 多源 域适应
(multi-source domain adaptation, MSDA)作为一种新的域适应场景被提出 [4−6] , 相较于单源域适应场景, 多个源
域能够为目标域提供更为多样化的适应信息, 并获得更优的目标域适应性能.
然而, 随着领域知识的快速增长, 导致源域所含的信息愈发复杂, 其中的无关信息难免会给域适应带来
干扰, 即来自不同源域的不同信息对目标域而言无相关性, 尤其当源域和目标域仅存在部分共享特性时, 这
将导致域适应的负迁移问题, 进而影响域适应的性能. 分析总结上述问题可见: 传统多源域适应方法的问题
设置和前提假设存在一定局限性, 即源域和目标域共享同一个标记空间不能较好地贴合实际问题, 且基于此
[7]
假设的域适应方法并不能较好地解决上述问题. 为应对以上问题和挑战, 多源部分域适应随后被提出 . 在
多源部分域适应场景中, 目标域与源域共享部分特性, 且每个源域具有自己的特有特征, 该场景与上述问题
场景贴合. 然而, 多源部分域适应问题由于其源域信息的复杂性、领域之间的差异性以及目标域自身的无监
督性, 给相关研究带来了挑战, 目前未有其他的多源部分域适应工作被提出. 针对多源部分域适应问题, 为更
直观地对其特性展开相关分析, 该问题的表现形式如图 1 所示, 其中, 左侧为不同源域的样本分布情况, 右侧
为目标域样本的分布情况, 不同形状代表不同类别的样本. 如图所示: 源域之间共享部分类别且每个源域都
有自己特有的类别, 但目标域类别是所有源域类别并集的一个子集.
图 1 多源部分域适应问题示意图
基于以上研究现状和分析, 我们针对多源部分域适应问题展开相关研究. 在多源部分域适应问题中, 不
同源域之间存在一定的分布差异, 在域适应过程中若忽略不同源域间的域漂移 [8,9] , 将给域适应过程带来累积
误差, 甚至导致较严重的负迁移问题, 从而影响模型整体性能. 此外, 在多源部分域适应场景中, 由于不同源
域的差异, 在域适应过程中其对目标域决策任务的贡献度也将不同. 可见, 若简单地将所有源域合并, 并不能
有效地解决多源域适应问题; 更重要地, 在该场景中对目标域而言, 不同的源域中均存在无关类样本, 在域
适应过程中若不对其加以妥善分离或处理, 同样会给域适应过程造成累积性的负迁移影响, 并对整体模型预
测精度造成危害. 尽管多源部分域适应相关研究稀少, 但已有若干多源域适应方法被提出, 并且它们大多通
过训练利用多个源域内的样本并平均其对目标域样本标签的预测结果, 而并没有区别考虑不同源域对目标域
任务的贡献度差异. 尽管有个别工作采取了加权的建模策略, 但其并没有对来自不同源域的无关类样本进行