Page 185 - 《软件学报》2021年第5期
P. 185
刘文炎 等:可信机器学习的公平性综述 1409
Table 2 Comparison of the mechanisms for eliminating unfairness
表 2 消除偏差的机制对比
机制 描述 优势 挑战
消除原始数据中与受保护 灵活适应下游任务; 测试时
预处理 需要保证结果准确度
属性相关的偏差信息 无需访问受保护属性
在机器学习模型中 算法准确度和算法公平性间灵活
处理中 依赖机器学习算法
增加约束或正则项 权衡;测试时无需访问受保护属性
修改机器学习算法的 测试时需要访问受保护属性;
后处理 灵活适应机器学习算法
输出结果 需要权衡准确度和公平性
1.3.1 预处理机制
预处理机制(pre-processing mechanism)旨在建立一种消除原始数据 x 中与受保护属性 a 相关的偏差信息的
数据预处理方法.机器学习算法作用于消除偏差后的数据,以获得公平结果,如图 3 所示.基于预处理机制,我们
可以发布合成数据集或原始数据的去偏特征,并不需要修改机器学习算法,而且在测试时不需要访问受保护属
性.但是,预处理机制是一种通用机制,提取出的特征广泛适用于下游任务,以损失机器学习算法结果的准确度
为代价,换取较高的灵活度.
统计处理
x,a 表示学习 去偏表示 机器学习 y
Fig.3 Conceptual graph of pre-processing mechanism
图 3 预处理机制概念图
1.3.2 处理中机制
处理中机制(in-process mechanism)通过在机器学习模型中增加约束或正则项,以促进偏差消除,如图 4 所
示.该机制可以实现算法准确度和算法公平性之间的平衡,并且在测试时不需要访问受保护属性.但是,处理中
机制依赖机器学习算法且需要修改算法.
x,a 有约束的机器学习 y
Fig.4 Conceptual graph of in-processing mechanism
图 4 处理中机制概念图
1.3.3 后处理机制
后处理机制(post-processing mechanism)直接修改机器学习算法的输出结果以满足公平性,如图 5 所示.后
处理机制不需要修改机器学习算法,且将其视为黑盒模型,因此,该机制能够消除任意算法输出的偏差.但是,后
处理机制在测试时需要访问受保护属性,并且较难权衡算法准确度和公平性.
x,a 机器学习 统计处理 y
Fig.5 Conceptual graph of post-processing mechanism
图 5 后处理机制概念图
根据机器学习算法做出的决策,可能对有不同受保护属性的群体产生不公平影响.本节讨论了机器学习算
法的不公平来源,即数据偏差和模型偏差,认为偏差不是孤立存在的,需要在机器学习的全生命周期中重视偏差
问题及其间的相互影响.此外,本章归纳了消除偏差的 3 种机制.
2 机器学习算法的公平性定义
公平机器学习算法的基本任务是,将一般的机器学习算法(见第 1 节)扩展到保证公平性的算法.机器学习模