Page 131 - 《软件学报》2024年第4期
P. 131
田青 等: 基于自适应权重的多源部分域适应 1709
2.3.2 类级别对齐
除上述的域级跨域适应对齐之外, 为减少处于分类边界附近的样本给域适应带来的的分布偏差, 我们针
对不同域间的条件分布差异, 引入类级分布匹配. 需要注意的是: 相较于传统多源域适应问题, 我们所探究
的多源部分域适应问题中的不同源域、源域和目标域标记空间存在较大差异, 且目标域的标记空间是所有源
域标记空间并集的子集. 在此场景下, 若忽略源域中的无关类样本直接简单地对源域和目标域进行类级别对
齐, 源域那些无关类将给域适应带来干扰和阻碍, 即带来负迁移的影响. 因此, 我们在实现类级别对齐时, 应
避免直接对源域和目标域施加对齐操作. 实验结果表明, 处于分类边界附近的样本通常具有类别归属模糊的
特性. 为应对以上问题, 我们提出最大化不同类之间的差异, 同时最小化同类的差异, 即通过采取扩大类间距
和缩小类内距的思路实现类级别对齐. 综合上述分析, 我们提出通过减少不同源域数据之间的类内距、扩大
相同源域的不同类的间距以及扩大目标域内不同类的间距来联合实现类级别的领域对齐, 其对应的损失函数
构建如下:
2 K − 1 K C kk 12
L class = K ⋅ (K − ∑∑ ∑ MMD(X r 1 k s , X r 2 k s ) −
1) k = 1 1k = 2 k + 1 1 r= 1 (13)
1 K C k − 1 C k 1 K t C − 1 t C
MMD(X 1 r , X 2 r ) + ∑∑ ∑ MMD(X 1 r , X 2 r ) ∑ ∑ ∑
K k s k s K k t k t
k = 1 r = 1 1 r = 2 r + 1 1 k = 1 r = 1 1 r = 2 r + 1 1
其中, C kk 12 表示任意两个源域 X 1 k s 和 X 2 k s 之间的公共的类别数. C k 表示第 k 个源域的类别数, C t 为目标域的类
别数. 值得注意的是: 尽管我们不能接触到目标域的真实标签, 但我们可以通过伪标签估计其类别数.
最后, 综合考虑以上域级别对齐和类级别对齐损失函数, 可得多层面跨域分布对齐的总体损失函数如下:
minL m =L domain +αL class (14)
其中, α表示平衡系数, 用于平衡域级别损失和类别损失的规模.
2.4 自适应权重学习
在无监督多源域适应场景中, 因不同源域与目标域之间的相似度不同, 以致其对目标域迁移任务的贡献
度也将不同. 因此, 对不同源域和目标域间相似度的有效度量, 是解决多源域适应问题的关键. 现有的多源域
适应研究大多采取平均贡献度的建模思想, 并未有效区分不同源域对目标域任务的贡献差异. 基于上述分析,
我们提出一种源域适应权重自适应更新的学习策略来计算不同源域的适应贡献度. 具体而言, 对不同源域和
目标域的分布差异进行度量, 来衡量不同源域与目标域之间的相似性, 并对所得的 K 个权重进行归一化处理,
由此可得第 k 个源域对目标域的自适应贡献权重 w k 如下:
1 w k
w k sim = , w = K sim (15)
k
Dis
(X
k s , X t ) ∑ w k′ sim
k′= 1
其中, Dis X , X ) 表示第 k 个源域和目标域在共享特征空间中的分布距离, 其定义如下:
(
k s t
2
n
1 s k 1 t n
)
Dis (X , X = ∑ ( f i ) − ∑ ( f j ) (16)
k s t n k s n t
k s i= 1 t j= 1 =
基于上述所得的源域自适应权重, 借助各个源域的标签类别分类器, 可得到如下的源域加权集成的目标
域样本类别标签预测结果:
K
t ∑
Y = wG⋅ k y (F k t ) (17)
k
k = 1
此外, 在多源部分域适应场景中, 除不同源域对目标域任务的适应贡献不同外, 源域中的不同类别对目
标域任务的贡献也存在一定的差异. 结合其标记空间的特殊性, 为有效地对每个类别的贡献进行度量, 我们
提出基于目标域样本的决策标签的类别输出结果来求算不同源域分类器的适应类别权重. 通过这种方式, 实
现对源域无关类样本的自动过滤, 从而减轻源域中无关类样本在域适应过程中所造成的负迁移影响, 以获得