Page 244 - 《软件学报》2025年第4期
P. 244
1650 软件学报 2025 年第 36 卷第 4 期
5 度量指标
就评估性能而言, 机器遗忘和机器学习不同, 机器学习模型的性能评估可以对比该模型在预测集上的结果和
真实标签的差异, 而机器遗忘则需考虑时间、M retrai 和 n M unlear 相似度和 M unlear 在 D\x 上的预测准确率等. 不同
n
n
∗
文献对机器遗忘进行度量的指标并不相同, 本文对机器遗忘的度量指标进行归纳, 总结为以下 3 个角度: 机器遗忘
速度, 机器遗忘可用性和机器遗忘完成度.
5.1 机器遗忘速度
机器遗忘速度是得到 M unlear 所用时间相比于重新训练 M retrai 所用时间的缩短程度. 评估机器遗忘速度是比
n
n
较 M retrai 和 n M unlear 训练时间, 计算机器遗忘相对于重新训练的加速比. 加速比越高, 则遗忘速度越快. 加速比的形
n
式化定义如下.
定义 2. 通过重新训练获得 M retrai 的时间为 T retrain , 通过机器遗忘获得 M unlear 的时间为 T unlearn , 则加速比为
n
n
Speedup = Tretrain/Tunlearn .
5.2 机器遗忘可用性
x
机器遗忘可用性是指 M unlear 的可用性, 即 M unlear 可以作出正确判断, 预测出样本正确标签的能力. 若机器遗
n
n
忘后, M unlear 在测试集上的准确率远低于 M retrain , 预测能力达不到标准, 则认为模型可用性过低. 遗忘可用性往往
n
用 M retrai 和 n M unlear 在测试集上的准确率来比较和衡量. 模型在测试集上准确率的形式化定义如下.
n
定义 3. 对于模型 M, 测试集样本总数为 n, 模型正确预测样本数为 c, 则模型在测试集上的准确率为 ACC=
c/n .
5.3 机器遗忘完成度
机器遗忘完成度是 M retrai 和 n M unlear 的相似度, 两者相似度越高, 则完成度越高. 比较两者的相似度, 有多种比
n
较方法, 本文将相似度比较方法分为 3 类: 比较输出分布、比较参数距离和数据推理验证.
5.3.1 比较输出分布
比较输出分布是指给定一组样本, 让 M retrai 和 n M unlear 在这组样本上分别进行预测, 比较两者输出分布的差
n
异. 衡量分布间距离的方法有计算 KL 散度 (Kullback-Leibler divergence) [20] 、计算输出分布概率比值 [11] 和使用
Kolmogorov-Smirnov 算法 [19] 等.
除直接计算概率分布的距离外, 还可引入外部分类器来判断两个模型输出是否不可分辨. Baumhauer 等人 [30]
使用贝叶斯分类器判断能否分辨 M retrai 输出和 M unlear 输出, 若分类器分辨准确率接近随机猜测, 则认为 M retrain
n
n
和 M unlear 输出难以分辨, 相似度较高.
n
5.3.2 比较参数距离
比较参数距离是比较 M retrai 和 n M unlear 在参数上的差异. 比较参数距离的常用方法是计算参数间的范数差, 范
n
数差越小, 则认为参数距离越小. 如设 M retrai 参数为 θ retrain , M unlear 参数为 θ unlearn , 则使用 L2 范数进行参数距离计
n
n
√∑
unlearn 2
θ retrain ,θ unlearn
= (θ retrain −θ ) .
算的公式为
i i
i
对于保有随机性的模型, 可用 KL 散度等比较参数分布间的距离 [20,21,33,52] . 但是, Thudi 等人 [72] 提出在参数空间
∗
判断机器遗忘是否成功并不完全合理, 因为对于任意模型, 可通过在更大的数据集上采样, 构造出一个不包含
的数据集, 在其上训练出的模型参数和 M 0 相差极小, 即无法从参数层面判断模型的训练集是否包含 x .
∗
5.3.3 数据验证评估
数据推理验证是指从训练数据本身出发, 设计推理方法来判断某个样本是否在训练集中, 从而进一步对机器
∗
遗忘效果进行评估判断. 若可通过推理方法推测出 x 位于训练集中, 则认为遗忘完成度低; 若无法推测出训练集
x , 则认为遗忘完成度高. 数据验证评估主要包括成员推理攻击和给数据添加“触发器”两类. 两种验证方法
∗
中存在
均适用于黑盒评估, 即用户并不知道模型的具体信息.