Page 231 - 《软件学报》2025年第4期
P. 231

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(4):1637−1664 [doi: 10.13328/j.cnki.jos.007237] [CSTR: 32375.14.jos.007237]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                  *
                 机器遗忘综述

                 李梓童,    孟小峰,    王雷霞,    郝新丽


                 (中国人民大学 信息学院, 北京 100872)
                 通信作者: 孟小峰, E-mail: xfmeng@ruc.edu.cn

                 摘 要: 近年来, 机器学习在人们日常生活中应用愈发广泛, 这些模型在历史数据上进行训练, 预测未来行为, 极大
                 地便利了人们生活. 然而, 机器学习存在隐私泄露隐患: 当用户不希望个人数据被使用时, 单纯地把其数据从训练
                 集中删去并不够, 已训练好的模型仍包含用户信息, 可能造成隐私泄露. 为了解决这一问题, 让机器学习模型“遗忘”
                 该用户个人数据, 最简单的方法是在不包含其数据的训练集上重新训练, 此时得到的新模型必定不包含个人数据
                 的信息. 然而, 重新训练往往代价较大, 成本较高, 由此产生“机器遗忘”的关键问题: 能否以更低的代价, 获取与重
                    机器学习是指采用一定数学模型, 从大量数据
                 新训练模型尽可能相似的模型. 对研究这一问题的文献进行梳理归纳, 将已有机器遗忘方法分为基于训练的方法、
                 基于编辑的方法和基于生成的方法这             3  类, 介绍机器遗忘的度量指标, 并对已有方法进行测试和评估, 最后对机器
                 遗忘作未来展望.
                 关键词: 机器学习; 机器遗忘; 深度学习; 隐私保护
                 中图法分类号: TP18

                 中文引用格式: 李梓童, 孟小峰, 王雷霞, 郝新丽. 机器遗忘综述. 软件学报, 2025, 36(4): 1637–1664.  http://www.jos.org.cn/1000-
                 w9825/7237.htm
                 英文引用格式: Li ZT, Meng XF, Wang LX, Hao XL. Survey on Machine Unlearning. Ruan Jian Xue Bao/Journal of Software,
                 2025, 36(4): 1637–1664 (in Chinese). http://www.jos.org.cn/1000-9825/7237.htm

                 Survey on Machine Unlearning
                 LI Zi-Tong, MENG Xiao-Feng, WANG Lei-Xia, HAO Xin-Li
                 (School of Information, Renmin University of China, Beijing 100872, China)
                 Abstract:  Machine  learning  has  become  increasingly  prevalent  in  daily  life.  Various  machine  learning  methods  are  proposed  to  utilize
                 historical  data  for  making  predictions,  making  people’s  life  more  convenient.  However,  there  is  a  significant  challenge  associated  with
                 machine learning-privacy leakage. Mere deletion of a user’s data from the training set is not sufficient for avoiding privacy leakage, as the
                 trained  model  may  still  harbor  this  information.  To  tackle  this  challenge,  the  conventional  approach  entails  retraining  the  model  on  a  new
                 training  set  that  excludes  the  data  of  the  user.  However,  this  method  can  be  costly,  prompting  the  exploration  for  a  more  efficient  way  to
                 “unlearn”  specific  data  while  yielding  a  model  comparable  to  a  retrained  one.  This  study  summarizes  the  current  literature  on  this  topic,
                 categorizing  existing  unlearning  methods  into  three  groups:  training-based,  editing-based,  and  generation-based  methods.  Additionally,
                 various  metrics  are  introduced  to  assess  unlearning  methods.  The  study  also  evaluates  current  unlearning  methods  in  deep  learning  and
                 concludes with future research directions in this field.
                 Key words:  machine learning; machine unlearning; deep learning; privacy protection

                                                        (训练集) 中学习模式或知识, 并将这些模式或知识用于预测未
                 知情况的方法. 作为一项新兴技术, 它已深深融入人们的日常生活, 如基于机器学习的推荐系统可以为不同用户进
                 行个性化推荐, 从而提高推荐成功率. 然而, 这一技术的广泛使用, 也产生了隐私泄露的隐患.


                 *    基金项目: 国家自然科学基金  (61941121, 91846204, 6217242)
                  收稿时间: 2023-03-17; 修改时间: 2024-04-29; 采用时间: 2024-06-11; jos 在线出版时间: 2024-11-18
                  CNKI 网络首发时间: 2024-11-20
   226   227   228   229   230   231   232   233   234   235   236