Page 337 - 《软件学报》2025年第7期
P. 337

3258                                                       软件学报  2025  年第  36  卷第  7  期


                 2.2   基于伪标记技术的标注扩增
                    根据第   2.1  节中问题形式化部分, 本节介绍如何引入伪标记技术对目标域中的样本进行标注扩增. 其基本思
                 想是利用源域或者目标域中的带标签的样本训练分类器, 将目标域中未标注样本传入分类器, 获得样本的预测结
                 果作为“硬”或“软”标记. 在训练中设定一个固定的阈值, 根据预测结果选择置信度较高的样本添加伪标签并加入
                 目标域的训练集. 上述过程迭代进行, 直至分类器的泛化精度达到一定程度后终止. 这一做法的理论依据是样本间
                 的聚类假设, 在样本空间中, 若两个样本位于同一个数据簇中, 那么它们具有相同类别标记的可能性较大. 因此, 本
                 文在目标域中选择能够位于同一个数据簇中的样本, 添加标记后进行损失计算, 用于增加标注样本的数量. 在图                                  3
                 中, 给出了目标域上的伪标签添加过程.


                               Step 1                       Step 2
                                                                                       Step 3
                                                                   0.94
                                                            0.90                        f
                                                     0.83
                                                       0.90  0.95  0.82     训练


                                                          0.3  0.5
                                                        0.1
                                           筛选置信度             0.4  0.2  0.2
                                           高的样本       0.18 0.7
                                                           0.6  0.3            代表一个样本以及对应的
                                                                  0.5
                                                         0.5  0.7           0.9 最大预测概率
                                                           0.4  0.6
                                                                            f  代表分类器
                                              图 3 目标域中样本伪标签添加过程

                    在图  3  中, Step 1  表示目标域中的未标注样本, 空心圆圈表示样本对应的预测概率低于预设阈值的样本, 其他
                 符号则表示样本的预测概率高于阈值的样本, 符号不同则样本被预测的类别也不同. Step 2                          表示根据预测概率将
                 样本划为不同类别, 并添加伪标记, 使用添加伪标记后的样本进行分类器训练过程. 此部分样本也被称为高置信度
                 的样本. 在第   3  节中, 本文使用了深度神经网络经过          Softmax  层归一化后得到的预测概率, 即“软”标签作为高置信
                 度样本的伪标签, 目的是减少“硬”标签在样本数量较少情况下对分类器准确性的负面影响. 在实验部分, 使用源域
                 上的预训练模型作为分类器的初始化参数, 在训练过程中将源域和目标域样本同时送入分类器中进行训练. 根据
                 预测概率和阈值对目标域中样本添加伪标注的流程如图                   4  所示.


                                                        t
                                                        x j ~D t
                                                        f θ (x j ) t

                                                         t
                                                        ˆ y j
                                                               是
                                                                   t
                                                     (max(y j )>β)?  (x j , y j )ˆ t
                                                         ˆ
                                                         t
                                                               否
                                                                   t
                                                                  ˆ y j =0
                                     图 4 根据预测概率和阈值为目标域中样本添加伪标注流程

                                                                             t
                    令阈值为    β, 在实验中令   β = 0.8 ˆy .   t   为目标域中为高置信度的未标注样本  x  添加的软标签, 若低于此置信度阈
                                              j                              j
                                  t
                 值, 则丢弃此样本, 即    ˆ y = 0, 其选择标准如下式:
                                  j
   332   333   334   335   336   337   338   339   340   341   342