Page 244 - 《软件学报》2025年第4期
P. 244

1650                                                       软件学报  2025  年第  36  卷第  4  期


                 5   度量指标

                    就评估性能而言, 机器遗忘和机器学习不同, 机器学习模型的性能评估可以对比该模型在预测集上的结果和
                 真实标签的差异, 而机器遗忘则需考虑时间、M retrai 和        n   M unlear 相似度和  M unlear 在  D\x  上的预测准确率等. 不同
                                                                n
                                                                              n
                                                                                    ∗
                 文献对机器遗忘进行度量的指标并不相同, 本文对机器遗忘的度量指标进行归纳, 总结为以下                             3  个角度: 机器遗忘
                 速度, 机器遗忘可用性和机器遗忘完成度.

                 5.1   机器遗忘速度
                    机器遗忘速度是得到        M unlear 所用时间相比于重新训练      M retrai 所用时间的缩短程度. 评估机器遗忘速度是比
                                                                    n
                                          n
                 较  M retrai 和 n  M unlear 训练时间, 计算机器遗忘相对于重新训练的加速比. 加速比越高, 则遗忘速度越快. 加速比的形
                               n
                 式化定义如下.
                    定义  2. 通过重新训练获得      M retrai 的时间为  T retrain , 通过机器遗忘获得  M unlear 的时间为  T unlearn , 则加速比为
                                              n
                                                                                n
                 Speedup = Tretrain/Tunlearn .

                 5.2   机器遗忘可用性
                                                                                                       x
                    机器遗忘可用性是指        M unlear 的可用性, 即  M unlear 可以作出正确判断, 预测出样本正确标签的能力. 若机器遗
                                          n
                                                          n
                 忘后, M unlear 在测试集上的准确率远低于       M retrain , 预测能力达不到标准, 则认为模型可用性过低. 遗忘可用性往往
                          n
                 用  M retrai 和 n  M unlear 在测试集上的准确率来比较和衡量. 模型在测试集上准确率的形式化定义如下.
                               n
                    定义   3. 对于模型  M, 测试集样本总数为       n, 模型正确预测样本数为        c, 则模型在测试集上的准确率为           ACC=
                 c/n  .

                 5.3   机器遗忘完成度
                    机器遗忘完成度是       M retrai 和 n  M unlear 的相似度, 两者相似度越高, 则完成度越高. 比较两者的相似度, 有多种比
                                               n
                 较方法, 本文将相似度比较方法分为           3  类: 比较输出分布、比较参数距离和数据推理验证.

                 5.3.1    比较输出分布
                    比较输出分布是指给定一组样本, 让            M retrai 和 n  M unlear 在这组样本上分别进行预测, 比较两者输出分布的差
                                                              n
                 异. 衡量分布间距离的方法有计算           KL  散度  (Kullback-Leibler divergence) [20] 、计算输出分布概率比值  [11] 和使用
                 Kolmogorov-Smirnov  算法  [19] 等.
                    除直接计算概率分布的距离外, 还可引入外部分类器来判断两个模型输出是否不可分辨. Baumhauer 等人                             [30]
                 使用贝叶斯分类器判断能否分辨            M retrai 输出和  M unlear 输出, 若分类器分辨准确率接近随机猜测, 则认为         M retrain
                                               n
                                                           n
                 和     M unlear 输出难以分辨, 相似度较高.
                        n
                 5.3.2    比较参数距离
                    比较参数距离是比较        M retrai 和 n  M unlear 在参数上的差异. 比较参数距离的常用方法是计算参数间的范数差, 范
                                                 n
                 数差越小, 则认为参数距离越小. 如设          M retrai 参数为  θ  retrain  , M unlear 参数为  θ  unlearn  , 则使用  L2  范数进行参数距离计
                                                  n
                                                                   n
                                       √∑
                          
         
              unlearn 2
                          
θ  retrain ,θ  unlearn
 
 =  (θ  retrain  −θ  )  .

                 算的公式为
                                             i     i
                                          i
                    对于保有随机性的模型, 可用         KL  散度等比较参数分布间的距离          [20,21,33,52] . 但是, Thudi 等人  [72] 提出在参数空间
                                                                                                        ∗
                 判断机器遗忘是否成功并不完全合理, 因为对于任意模型, 可通过在更大的数据集上采样, 构造出一个不包含
                 的数据集, 在其上训练出的模型参数和            M 0 相差极小, 即无法从参数层面判断模型的训练集是否包含                 x  .
                                                                                               ∗

                 5.3.3    数据验证评估
                    数据推理验证是指从训练数据本身出发, 设计推理方法来判断某个样本是否在训练集中, 从而进一步对机器
                                                         ∗
                 遗忘效果进行评估判断. 若可通过推理方法推测出                 x  位于训练集中, 则认为遗忘完成度低; 若无法推测出训练集
                       x  , 则认为遗忘完成度高. 数据验证评估主要包括成员推理攻击和给数据添加“触发器”两类. 两种验证方法
                       ∗
                 中存在
                 均适用于黑盒评估, 即用户并不知道模型的具体信息.
   239   240   241   242   243   244   245   246   247   248   249