Page 251 - 《软件学报》2025年第4期
P. 251
李梓童 等: 机器遗忘综述 1657
根据表 14, 机器遗忘速度与标签总数总体成负相关关系. 各机器遗忘方法的 Speedup 与标签总数间的 Spearman
相关系数平均值为−0.542 9, 故总体来看, 标签总数越大, Speedup 就越小. 实验中基于训练的机器遗忘方法的相关
系数的绝对值都较大 (Finetune: −1.000 0, Unrolling SGD: −1.000 0, DeltaGrad: −0.800 0, SISA: −0.800 0), 故这种负
相关关系在基于训练的机器遗忘方法上尤为明显. 推测其原因, 基于训练的机器遗忘方法所用时间与样本总量密
切相关, 当标签总数较大时, 样本总量较大, 训练用时就较长, 从而削弱了机器遗忘的优势. 相比之下, 参数编辑的
方法随标签总数变化较小, 原因可能在于计算 M unlear 时仅为单步计算 (如 CR 使用了牛顿法计算), 不必对数据进
n
行迭代训练, 受数据集大小的影响较弱, 因此受标签总数影响较小. 基于生成的方法受标签总数的影响亦不明显,
推测其原因是在生成模型的训练过程中, 作为训练基准的教师模型鲁棒性较强, 受待删除数据的影响不明显, 因此
最终得到的 M unlear 与标签总数之间的联系较弱.
n
遗忘可用性与标签总数总体成负相关关系. ACC tes 与标签总数间的 Spearman 相关系数平均值为−0.706 1, 故
t
随着标签总数增大, ACC tes 总体下降. 即标签总数越大, 学习任务难度就越高, 提高 ACC tes 的难度也就随之增大.
t
t
遗忘完成度与标签总数总体成负相关关系. DIST output 、DIST par 与标签总数间的 Spearman 相关系数平均值分
a
别为 0.444 4、0.354 2, 说明 DIST output 、DIST par 与标签总数总体成正相关关系, 标签总数越大, DIST outpu 和
a
t
(2) ACC test 、ACC remained 、ACC delete 三者的关系
DIST par 就越大, 即当标签总数变大时, 更难得到与 M retrai 相似的模型. 综合以上信息, 从遗忘速度、可用性和完
a
n
成度的角度来看, 标签总数变大使机器遗忘性能有所下降.
6.2.3 度量指标关联分析
对单个标签进行遗忘时, 数据集标签总数对机器遗忘方法的效果影响如何? 在当前机器遗忘的有关研究中,
仍缺少统一评价指标对所有机器遗忘方法进行评价. 挖掘不同评价指标间的联系, 将有助于构建统一评价指标, 用
以对各种机器遗忘方法进行全面而统一的评价. 本文根据不同遗忘场景下, 不同机器遗忘方法在不同评价指标上
的实验结果来探究评价指标间的联系. 结合实验结果, 本文将评价指标间的联系归纳为图 4, 具体为: Speedup 与其
他指标的独立关系, ACC test 、ACC remained 、ACC delete 三者的关系, ACC test 、DIST output 、DIST par 三者的关系. 考虑到
a
d
不同数据集标签总数和数据内容的相似性, 即 FashionMNIST 和 MNIST、 SVHN 和 CIFAR-10 两组数据集标签总
数相同、数据分布相似, 本节选择 MNIST、CIFAR-10、Purchase 和 ImageNet 子集的实验结果进行分析.
在测试集上 负相关
加速比
的准确率 与基准模型间的
输出距离
≤
正相关
样本遗忘: 与基准模型间的
在 x 上的 ≈ 在 D\x 上的
*
*
准确率 准确率 参数距离
标签遗忘:
<
图 4 度量指标关系图
(1) Speedup 与其他指标的独立性
机器遗忘速度的评价指标为加速比, 也可用机器遗忘耗时代替. 该指标与机器遗忘流程和计算量有关, 独立于
机器遗忘可用性和完成度.
d
观察 ACC test 、ACC remaine 和 d ACC deleted , 我们发现: 在样本遗忘场景下, ACC remaine 与 d ACC delete 接近, 两者总体
d
高于 ACC test ; 在标签遗忘场景下, ACC remaine 与 d ACC delete 相差较大, ACC remaine 高于 ACC test .
d
d
以上结论验证过程如下: 经计算, 在样本遗忘场景下, ACC remaine 与 d ACC delete 之差的绝对值均值为 1.91, 而在
d
标签遗忘场景下, 该值为 35.93, 故在标签遗忘场景下, M unlear 在 x 和 D\x 上的表现差异大于样本遗忘场景. 推测
n
∗
∗
∗
∗ ∗ ∗ D\x 标签无交集. 故在样本遗
其原因, 在样本遗忘场景下, x 和 D\x 包含各种标签, 而在标签遗忘场景下, x 和
∗ ∗
忘场景中 x 和 D\x 数据分布差异小于标签遗忘场景, 遗忘模型在两者上的表现差异较小.