Page 182 - 《软件学报》2021年第5期
P. 182
1406 Journal of Software 软件学报 Vol.32, No.5, May 2021
实验评估
选择定义 选择机制
理论分析 数据集
感知公平性 公平表征任务 预处理机制
机器 效用分析 性能表现 公平
学习 统计公平性 公平建模任务 处理中机制 机器
算法 公平分析 公平表现 学习
算法
因果公平性 公平决策任务 后处理机制
其他
Fig.1 From machine learning algorithm to fair machine learning algorithm
图 1 从机器学习算法到公平机器学习算法
本文的主要贡献如下:明确公平机器学习算法的设计流程框架,形式化公平性定义,给出公平性定义的分类
体系,总结并综述 3 类公平性任务,系统性梳理未来的研究方向,有助于指导后续研究者针对公平性理论的研究
和探索.
本文第 1 节列举算法不公平产生的危害,探讨造成该现象的潜在原因,提供消除算法偏差的机制.第 2 节提
取机器学习中公平性定义的抽象模型,比较现有机器学习的公平性定义.第 3 节详述解决公平表征任务、公平
建模任务和公平决策任务的具体方法.第 4 节举例说明公平机器学习的应用,并列举供研究的数据集和检测工
具.第 5 节指出公平机器学习的研究问题及其面临的挑战.第 6 节对全文进行总结.
1 公平机器学习的问题定义
本节从机器学习算法辅助决策的多个典型案例入手,分析可能受到不公平对待的对象以及对他们造成的
潜在危害,进一步讨论出现这种现象的潜在原因,并梳理列举在算法中消除偏差的 3 种机制,以指导后续的文献
分析.表 1 列举本文使用的符号及其意义.
Table 1 Notations
表 1 符号表
符号 描述 符号 描述 符号 描述 符号 描述
S 输入空间 X 非受保护属性集合 A 受保护属性集合 Z 数据特征表示
s ∈S,输入元素 x ∈X,非受保护属性 a ∈A,受保护属性 π 因果路径
O 观察变量集合 Π 因果路径集合 y ∈Y,输出元素 ˆ y ∈Y ˆ ,预测标记
符合公平性 干预 a 后的
Y 输出空间 Y ˆ 预测标记集合 Y 定义的输出结果 a Y 输出结果
符合公平性定义的
f 机器学习模型 f ′ g 数据特征变换 h 输出结果变换
机器学习模型
δ 公平参数 ε 1,ε 2 近似控制参数 τ 阈值变量 n 样本数量
A 和 B 在给定 do 算子,干预
A⊥B|C D(⋅),d(⋅) 距离度量 do(⋅) E(⋅) 数学期望
C 发生时条件独立 观察变量
[1]
机器学习的目标是,从训练集中学得数据的潜在规律.以监督学习的预测任务 为例,以包含 n 个样本的训
练集{( , )}sy i n i= 1 为基础,建立从输入空间 S 到输出空间 Y 的映射:
i
f :S6Y.
通过学习到的模型 f 对 s 进行预测,得到其预测标记 ˆ =y f () s .在样本的属性 s 中,部分属性 a∈A记为受保
|a|
|a|
护属性,且A⊆\ 为受保护属性集合,其中,|a|表示受保护属性的维度,\ 表示|a|维实数空间.x∈X 指不含受保护
属性的部分,即 X∪A=S 且 X∩A=∅.此时,映射可重定义为
f :(X,A)6Y.
不失一般性,不妨假设受保护属性 a=0 和 a=1 的群体分别是弱势群体和非弱势群体.为了叙述简洁,本文使
用二分类任务来进行说明,即令 Y={0,1},所得结论很容易推广到其他机器学习任务上.