Page 231 - 《软件学报》2025年第4期
P. 231
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(4):1637−1664 [doi: 10.13328/j.cnki.jos.007237] [CSTR: 32375.14.jos.007237] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
机器遗忘综述
李梓童, 孟小峰, 王雷霞, 郝新丽
(中国人民大学 信息学院, 北京 100872)
通信作者: 孟小峰, E-mail: xfmeng@ruc.edu.cn
摘 要: 近年来, 机器学习在人们日常生活中应用愈发广泛, 这些模型在历史数据上进行训练, 预测未来行为, 极大
地便利了人们生活. 然而, 机器学习存在隐私泄露隐患: 当用户不希望个人数据被使用时, 单纯地把其数据从训练
集中删去并不够, 已训练好的模型仍包含用户信息, 可能造成隐私泄露. 为了解决这一问题, 让机器学习模型“遗忘”
该用户个人数据, 最简单的方法是在不包含其数据的训练集上重新训练, 此时得到的新模型必定不包含个人数据
的信息. 然而, 重新训练往往代价较大, 成本较高, 由此产生“机器遗忘”的关键问题: 能否以更低的代价, 获取与重
机器学习是指采用一定数学模型, 从大量数据
新训练模型尽可能相似的模型. 对研究这一问题的文献进行梳理归纳, 将已有机器遗忘方法分为基于训练的方法、
基于编辑的方法和基于生成的方法这 3 类, 介绍机器遗忘的度量指标, 并对已有方法进行测试和评估, 最后对机器
遗忘作未来展望.
关键词: 机器学习; 机器遗忘; 深度学习; 隐私保护
中图法分类号: TP18
中文引用格式: 李梓童, 孟小峰, 王雷霞, 郝新丽. 机器遗忘综述. 软件学报, 2025, 36(4): 1637–1664. http://www.jos.org.cn/1000-
w9825/7237.htm
英文引用格式: Li ZT, Meng XF, Wang LX, Hao XL. Survey on Machine Unlearning. Ruan Jian Xue Bao/Journal of Software,
2025, 36(4): 1637–1664 (in Chinese). http://www.jos.org.cn/1000-9825/7237.htm
Survey on Machine Unlearning
LI Zi-Tong, MENG Xiao-Feng, WANG Lei-Xia, HAO Xin-Li
(School of Information, Renmin University of China, Beijing 100872, China)
Abstract: Machine learning has become increasingly prevalent in daily life. Various machine learning methods are proposed to utilize
historical data for making predictions, making people’s life more convenient. However, there is a significant challenge associated with
machine learning-privacy leakage. Mere deletion of a user’s data from the training set is not sufficient for avoiding privacy leakage, as the
trained model may still harbor this information. To tackle this challenge, the conventional approach entails retraining the model on a new
training set that excludes the data of the user. However, this method can be costly, prompting the exploration for a more efficient way to
“unlearn” specific data while yielding a model comparable to a retrained one. This study summarizes the current literature on this topic,
categorizing existing unlearning methods into three groups: training-based, editing-based, and generation-based methods. Additionally,
various metrics are introduced to assess unlearning methods. The study also evaluates current unlearning methods in deep learning and
concludes with future research directions in this field.
Key words: machine learning; machine unlearning; deep learning; privacy protection
(训练集) 中学习模式或知识, 并将这些模式或知识用于预测未
知情况的方法. 作为一项新兴技术, 它已深深融入人们的日常生活, 如基于机器学习的推荐系统可以为不同用户进
行个性化推荐, 从而提高推荐成功率. 然而, 这一技术的广泛使用, 也产生了隐私泄露的隐患.
* 基金项目: 国家自然科学基金 (61941121, 91846204, 6217242)
收稿时间: 2023-03-17; 修改时间: 2024-04-29; 采用时间: 2024-06-11; jos 在线出版时间: 2024-11-18
CNKI 网络首发时间: 2024-11-20