Page 253 - 《软件学报》2025年第4期

P. 253

李梓童等: 机器遗忘综述 1659

当模型较大时, 适合使用机器遗忘方法. 当模型较小 (如多层感知机) 时, 重新训练模型本身用时较少, 机器遗
忘方法加速比较小. 在本次实验中, Purchase 和 MNIST 所用模型较小, Purchase 使用由 2 层全连接层构成的模型,
MNIST 使用由 2 层卷积层和 2 层全连接层构成的模型; CIFAR-10 和 ImageNet 子集所用模型较大, 为 ResNet-18.
经计算, 在样本遗忘场景下, 不同机器遗忘方法在 Purchase、MNIST、CIFAR-10、ImageNet 子集数据集上的平均
加速比分别为 1.35、3.84、8.91、37.75, 可见在模型较小时, 机器遗忘方法的加速效果并不明显.
当 M retrai 在 D\x 和 x 上表现差异较大时, 进行机器遗忘必要性较大. 直观来看, 若从 D 中遗忘一部分数据,
n
∗
∗
∗ x 上表现较差, 才有“遗忘”的效果. 但在实验过程中, 我们发现 n x 上
∗
∗
则在 D\x 上训练的模型应当在 M retrai 未必在
表现不佳: 在样本遗忘场景下, Purchase 和 MNIST 数据集上, ACC remaine 和 d ACC delete 之差的平均值为 0.271, 而在
d
n
∗
CIFAR-10 和 ImageNet 子集数据集上, 该差值为 29.182. 可见存在这样的场景, M retrai 在 D\x 和 x 上表现相近. 在
∗
这种场景下, 我们认为遗忘数据集包含的信息本身较少, 遗忘这部分数据集并不能让模型包含的信息产生较大的
差别, 故机器遗忘必要性较小. 相反, 若 M retrai 在 D\x 和 x 上表现差异较大, 则认为遗忘这部分数据集确实能消
n
∗
∗
除模型中的一部分信息, 进行机器遗忘必要性较大.
以上结论是对机器遗忘方法实用性的分析, 可见判断机器学习场景下机器遗忘方法是否值得使用, 与训练集、
模型和训练过程均有关. 此外, 结合第 3 点结论, 如何在不必重新训练模型的情况下判断 M retrai 在 D\x 和 x 上的
∗
∗
n
表现差异, 作为预先判断该场景是否需要进行机器遗忘的依据, 留待人们未来去研究.

7 未来的工作
机器遗忘研究当前集中于遗忘方法, 未来可从遗忘数据多样化、遗忘计算多方化、遗忘评估标准化等角度进
一步探索.

7.1 遗忘数据多样化
目前机器遗忘针对的大多是表格数据, 而在其他数据类型 (如图数据和时序数据等) 进行遗忘的工作较少, 仍
有较大发掘空间. 以图数据为例, 图数据以点和边为具体存储单元, 在图数据中, 数据间关系和数据点同样重要.
Chen 等人 [83] 研究了 SISA 方法应用于图数据时的划分不平衡问题, 提出了更适应图数据特点的划分方法. Zhu 等
[84]
考虑了异质图场景下利用联邦学习来训练图表征以及对其进行遗忘的问题, 提出了联邦知识图谱表示学习
人入新数据, 在新数据上微调模型以修正模型行为.
与对应的机器遗忘框架 FedLU. 此外, 人们可考虑怎样改进其他机器遗忘方法在图数据上的使用, 如设计输入编辑
∗
类方法时, 考虑数据分布的特性, 若 x 恰好位于某个子图中, 则只对这一部分子图数据进行加噪, 等等.
对于时序数据, Li 等人 [85] 研究了在时序数据上应用线性回归模型, 遗忘时间窗口以外的数据. Mirzasoleiman
等人 [86] 则从流数据出发, 设计了支持遗忘的流数据摘要方法. 时序数据和流数据都按一定顺序排列, 数据间关联
程度强, 且具有较强的规律性. 对此, 研究者们可探究在时序数据或流数据上执行不同机器学习任务时, 如何利用
这些数据特点改进机器遗忘. 此外, 对于流数据不断到来的特点, 研究者们可探究如何进行在线遗忘, 以及在流数
据上使用机器学习时, 若用户的遗忘请求与新数据同时到来, 如何平衡遗忘旧数据和记住新数据的问题.
随着大语言模型的兴起, 当前也出现了少量在大模型场景下, 针对文本数据的机器遗忘工作 [87−91] . 这类工作中
的“遗忘”往往以规范模型行为为目的, 即避免让模型输出有害、过时、带有偏见或涉及用户隐私的信息, 使用方
法可归为两类: 一类是采用优化求解的思想, 设计损失函数来调整模型行为; 另一类是采用继续计算思想, 通过引

不同数据组织方式, 其上的计算任务也不尽相同. 对此, 研究者们可挖掘不同数据类型的计算任务, 从机器学
习以外的任务中解决遗忘问题. 例如, Mirzasoleiman 等人 [86] 研究了流数据的摘要计算, 此外, 还有聚合与划分等计
算任务, 研究者们可进一步思考这些任务上的遗忘问题.

7.2 遗忘计算多方化
联邦学习是一种分布式学习框架, 通过多轮客户端计算和与中心服务器端通信, 训练共享模型. 和中心化模型
不同, 联邦学习计算任务分配给多个客户端, 服务器端不能获取所有人的数据. 在联邦学习中, 若某用户最初愿意

248 249 250 251 252 253 254 255 256 257 258