Page 239 - 《软件学报》2025年第4期

P. 239

李梓童等: 机器遗忘综述 1645

数据片内其他用户的协同关系, 这样的协同关系是不完整的. LASER 在给用户做划分时, 有更细致的划分策略: 事
先将用户映射到一个向量空间, 用向量来表示用户信息, 并根据向量值来划分用户. 向量距离越小, 用户相似性就
越高. LASER 使用优先队列进行划分, 使各个划分更加均匀. 在训练过程中, LASER 先在内部用户相似性大的数
据集上训练, 再在相似性小的数据集上训练, 以此降低模型损失. Chen 等人 [55] 在对 SISA 方法做改进时, 除用户相
似性外, 还考虑了商品相似性. 在聚合各子模型输出结果时, Chen 等人采用注意力模型来获取聚合参数, 从而提高
聚合结果的准确性.

2.4 小结
本节介绍了基于训练的机器遗忘方法. 这些方法进一步细分为继续计算、模型分解和混合方法这 3 类. 表 5
列出了各子类方法的代表方法、已知条件、所需开销和优缺点. 其中所需开销从时间和空间两部分进行说明, 已
知条件是指使用这些方法时需要知道的条件.

表 5 基于训练的方法总结

类别代表方法已知条件时间开销空间开销优点缺点
针对朴素贝叶斯、岭只能针对特定算法,
[9]
从而实现机器遗忘的方法. 输入编辑方法往往需要训练集
继续回归、K-means聚类 [40] 中间结果从中间结果开保存中间结速度较快对深度学习可能遗忘
[2]
计算始计算的开销果的开销
的机器遗忘方法不完全
针对集成树 [24] 、回归模
模型型 [50] 、K-means聚类 [40] 的数据集子集与子模型的重新训练子模无, 不必保存不必保存中间只能针对特定算法
分解对应关系型的开销中间结果结果
机器遗忘方法
混合 SISA [26] 数据集子集与子模型的中途训练子模保存中间结遗忘效果较好空间开销大
方法对应关系, 中间结果型的开销果的开销

继续计算类方法需保存训练过程中的中间结果, 若模型较大, 则需保存的中间结果较大; 但这种方法允许从中
间结果开始计算, 时间开销相对较小. 与继续计算类方法相比, 模型分解类方法不必保存中间结果, 但需保存子模
型和子模型与数据集子集的对应关系. 继续计算类方法从中间结果上对整个模型进行训练, 而模型分解类方法是
对子模型进行重新训练. 这两类方法都对模型有特定要求, 需要对中间结果或模型分解方法有所设计. 混合方法结
合了继续计算和模型分解两种方法, 需要保存各个子模型的中间结果, 以更高的空间代价减少了用于遗忘的时间.
总体来看, 基于训练的方法较大程度上保真了训练过程, 得到的 M unlear 在准确率以及和 M retrai 的相似度上更
n
n
有保证; 缺点是需要用较多时间进行训练, 时间开销大; 以及需要额外空间保存中间结果, 空间开销大. 基于训练的
方法适用于对时空开销要求较低而对 M unlear 性能要求较高的场景.
n

3 基于编辑的机器遗忘
基于编辑的机器遗忘方法指在已知 M 0 或 D 基础上, 通过 x 和 D\x 等信息对 M 0 进行编辑, 得到 M unlearn . 与
∗
∗
基于训练的方法不同, 基于编辑的方法无须对训练过程进行划分, 而是对模型输入、参数或输出进行直接修改, 使
得最终模型与重新训练模型接近. 该方法根据编辑的对象可细分为输入编辑、参数编辑和输出编辑这 3 类. 当前
文献以参数编辑为主.

3.1 输入编辑
输入编辑是指编辑输入数据 (包括改变输入数据的标签或特征), 用编辑后的输入数据来影响模型决策边界,
D, 但不必有 M 0 . 输入编辑类机器遗忘方法的设计关键
是挖掘训练数据和模型决策之间的关系, 通过数据影响模型, 使其在决策时与重新训练模型接近. 本节主要介绍标
签修改和特征加噪两类输入编辑方法.

3.1.1 标签修改
标签修改是修改输入数据的标签. 在传统机器学习中, Parne 等人 [47] 研究使用决策树和随机森林对垃圾邮件
进行分类的场景下遗忘某些邮件的问题. 当模型拥有者使用决策树对邮件分类时, 攻击者可在良性样本中添加垃
圾信息来制造恶意样本以污染模型, 降低模型准确性. 当模型拥有者希望模型遗忘恶意样本时, 可修改含垃圾信息

234 235 236 237 238 239 240 241 242 243 244