Page 337 - 《软件学报》2025年第7期
P. 337
3258 软件学报 2025 年第 36 卷第 7 期
2.2 基于伪标记技术的标注扩增
根据第 2.1 节中问题形式化部分, 本节介绍如何引入伪标记技术对目标域中的样本进行标注扩增. 其基本思
想是利用源域或者目标域中的带标签的样本训练分类器, 将目标域中未标注样本传入分类器, 获得样本的预测结
果作为“硬”或“软”标记. 在训练中设定一个固定的阈值, 根据预测结果选择置信度较高的样本添加伪标签并加入
目标域的训练集. 上述过程迭代进行, 直至分类器的泛化精度达到一定程度后终止. 这一做法的理论依据是样本间
的聚类假设, 在样本空间中, 若两个样本位于同一个数据簇中, 那么它们具有相同类别标记的可能性较大. 因此, 本
文在目标域中选择能够位于同一个数据簇中的样本, 添加标记后进行损失计算, 用于增加标注样本的数量. 在图 3
中, 给出了目标域上的伪标签添加过程.
Step 1 Step 2
Step 3
0.94
0.90 f
0.83
0.90 0.95 0.82 训练
0.3 0.5
0.1
筛选置信度 0.4 0.2 0.2
高的样本 0.18 0.7
0.6 0.3 代表一个样本以及对应的
0.5
0.5 0.7 0.9 最大预测概率
0.4 0.6
f 代表分类器
图 3 目标域中样本伪标签添加过程
在图 3 中, Step 1 表示目标域中的未标注样本, 空心圆圈表示样本对应的预测概率低于预设阈值的样本, 其他
符号则表示样本的预测概率高于阈值的样本, 符号不同则样本被预测的类别也不同. Step 2 表示根据预测概率将
样本划为不同类别, 并添加伪标记, 使用添加伪标记后的样本进行分类器训练过程. 此部分样本也被称为高置信度
的样本. 在第 3 节中, 本文使用了深度神经网络经过 Softmax 层归一化后得到的预测概率, 即“软”标签作为高置信
度样本的伪标签, 目的是减少“硬”标签在样本数量较少情况下对分类器准确性的负面影响. 在实验部分, 使用源域
上的预训练模型作为分类器的初始化参数, 在训练过程中将源域和目标域样本同时送入分类器中进行训练. 根据
预测概率和阈值对目标域中样本添加伪标注的流程如图 4 所示.
t
x j ~D t
f θ (x j ) t
t
ˆ y j
是
t
(max(y j )>β)? (x j , y j )ˆ t
ˆ
t
否
t
ˆ y j =0
图 4 根据预测概率和阈值为目标域中样本添加伪标注流程
t
令阈值为 β, 在实验中令 β = 0.8 ˆy . t 为目标域中为高置信度的未标注样本 x 添加的软标签, 若低于此置信度阈
j j
t
值, 则丢弃此样本, 即 ˆ y = 0, 其选择标准如下式:
j

