Page 252 - 《软件学报》2025年第4期
P. 252

1658                                                       软件学报  2025  年第  36  卷第  4  期


                    此外, 在样本遗忘场景下, ACC tes 与  t  ACC remaine 和 d  ACC delete 均值之差为−9.40; 在标签遗忘场景下, 由于测试
                                                                  d
                                                                                     d
                        ∗                   x  标签集无交集, 故本文计算了        ACC tes 与 t  ACC remaine 之差, 为−12.74. 故总体
                                             ∗
                 集和   D\x  标签集相同, 且均与包含
                          n   ∗  D\x  上的表现优于模型在测试集上的表现, 在标签遗忘场景下, 两者的差异更为明显.
                                    ∗
                 来看, M unlear 在   x  和
                    (3) ACC test 、DIST output 、DIST par 三者的关系
                                            a
                    观察   ACC test 、DIST outpu 和 t  DIST para , 我们发现: ACC tes 和 t  DIST outpu 成负相关关系; ACC tes 和 t  DIST para
                                                                            t
                 成负相关关系; DIST outpu 与 t  DIST par 成正相关关系.
                                            a
                    为了验证以上结论, 本文以不同遗忘场景中, 不同机器遗忘方法得到的机器遗忘模型在                            3  个评价指标上的数
                 值为对象, 计算三者之间的        Spearman  相关系数, 结果如表    15  所示. 据计算, ACC tes 与 t  DIST outpu 的 t  Spearman  相关
                 系数均值为−0.639 9, 两者有较强的负相关关系; ACC tes 和     t  DIST par 的 a  Spearman  相关系数均值为−0.486 7, 两者同
                 样有负相关关系; DIST outpu 与 t  DIST par 的 a  Spearman  相关系数均值为  0.635 9, 两者有正相关关系.

                                            表 15 不同评价指标的       Spearman  相关系数

                       遗忘场景             数据集          ACC test 和DIST output  ACC test 和DIST para  DIST output 与DIST para
                 的模型, 故存在遗忘速度、可用性与完成度的权衡. 以此为出发点, 本节结合实验结果, 探究在哪些场景下适合应
                                        MNIST           −0.781 8          −0.818 2           0.745 5
                                       CIFAR-10         −0.542 9          −0.117 7           0.382 5
                    样本遗忘率为1%
                                        Purchase        −0.892 9          −0.321 4           0.428 6
                                      ImageNet子集        −0.753 7          −0.637 7           0.764 7
                                        MNIST           −0.428 6          −0.594 6           0.738 8
                                       CIFAR-10          0.028 6          −0.116 0           0.811 7
                    样本遗忘率为5%
                                        Purchase        −0.642 9          −0.785 7           0.428 6
                                      ImageNet子集        −0.771 4          −0.617 9           0.882 7
                                        MNIST           −0.781 8          −0.818 2           0.745 5
                                       CIFAR-10         −0.542 9          −0.117 7           0.382 5
                    样本遗忘率为10%
                                        Purchase        −0.892 9          −0.321 4           0.428 6
                                      ImageNet子集        −0.771 4          −0.637 7           0.753 7
                                        MNIST           −0.285 7          −0.630 7           0.738 8
                     遗忘1个标签            CIFAR-10         −0.657 1          −0.116 0           0.608 8
                                      ImageNet子集        −0.714 3          −0.637 7           0.753 7
                                        MNIST           −0.714 3          −0.892 9           0.750 0
                     遗忘3个标签            CIFAR-10         −0.485 7           0.144 9           0.347 9
                                      ImageNet子集        −0.885 7          −0.724 7           0.753 7
                                均值                      −0.639 9          −0.486 7           0.635 9

                    推测这种相关性出现的原因, 我们认为: 参数距离和输出距离均用于以衡量                        M unlear 与 n  M retrai 的相似度, 参数
                                                                                           n
                 上与  M retrai 接近的模型更有可能输出与      M retrai 相同的值. 当  DIST outpu 和 t  DIST par 较小时, 认为  M unlear 的表现接
                                                                                                n
                                                     n
                                                                                a
                         n
                 近  M retrai 的表现, 而由于  M retrai 在测试集上的表现较为稳定, 故    M unlear 在测试集上的表现也相对较好, 因此参数
                                         n
                                                                        n
                       n
                 距离或输出距离越小, 在测试集上的表现就越好.

                 6.2.4    机器遗忘适用的场景分析
                    机器遗忘方法适用的场景是什么? 机器遗忘的目标是以低于重新训练的代价, 得到与重训练模型尽可能相似
                 用机器遗忘方法, 结论如下: 输入编辑方法不适合应用于实际机器遗忘场景; 当模型较大时, 适合使用机器遗忘方
                 法; 当  M retrai 在   D\x  和  x  上表现差异较大时, 进行机器遗忘必要性较大. 接下来将具体分析以上结论.
                          n
                                ∗
                                    ∗
                    输入编辑方法不适合应用于实际机器遗忘场景. 输入编辑方法是指编辑原训练集                            D, 从而影响在其上训练的
                 模型行为的方法. 就机器遗忘应用而言, 若要编辑               D, 在其上训练模型, 则不如直接将         D  中遗忘数据集    x  删去, 在
                                                                                                 ∗
                          D\x  上训练模型. 就训练流程来说, 后者的数据集小于前者的数据集, 在超参数设置一致的情况下, 后
                             ∗
                 剩余数据集
                 者用时少于前者; 且后者本身就是          M retrain , 与  M retrai 表现一致, 已经实现了目标.
                                                       n
   247   248   249   250   251   252   253   254   255   256   257