Page 186 - 《软件学报》2021年第5期
P. 186

1410                                     Journal of Software  软件学报 Vol.32, No.5,  May 2021

                 型 f 称为δ-公平的,如果满足:
                                                     P (| =Ya  0, ,O Π )
                                                   ln             ≤  , δ
                                                     P (| =Ya  1, ,O Π )
                 其中,O 表示观察变量,Π 表示因果路径,δ是常数.δ≥0 可以看作在观察到 O 和Π 的条件下,弱势群体和非弱势群
                 体输出结果概率分布间距离的度量;δ越大,不同受保护属性A对应 Y 的概率分布差距越悬殊,对不同群体实行
                 差别待遇行为的程度越严重,公平性越低;δ为 0 是一种理想情况,即 P(Y |a=0,O,Π )=P(Y |a=1,O,Π ),此时,受保护
                 属性A不对输出结果产生影响.换言之,公平机器学习算法满足受保护属性与输出结果之间的独立性假设:对给
                 定条件,受保护属性A和输出结果 Y 独立.即
                                                       (Y⊥A)|(O,Π ),
                 其中,⊥表示 Y 中的元素和A中的元素在 O 和Π 中元素的条件下是相互不影响的,即
                                             P Y       )  =  P ( , ,Y O Π  ) P ( ,,A O Π  O Π  ) .
                                              ( , ,,A
                                                                  ⋅
                                               P (, O Π  )  P ( , O Π  )  P ( , O Π  )
                    在现实世界中,不同机器学习任务关注的焦点不同,很难确定一种通用的公平性定义.本节总结现有文献中
                 提出的公平性定义,根据受保护属性在实现公平机器学习算法过程中的作用,现有公平机器学习算法中公平性
                 定义可划分为 3 类:感知公平性、统计公平性和因果公平性,如图 6 所示.当不使用受保护属性时,得到忽略受保
                 护属性公平;当利用受保护属性度量样本间距离时,得到感知受保护属性公平;当使用受保护属性作为条件概率
                 的依据时,得到频率统计的统计公平和贝叶斯统计的因果公平.
                                            受保护属性


                                                 使用             不使用
                                             构造算法              忽略受保护属性公平

                                                 条件概率          距离度量
                                             统计方法              感知受保护属性公平

                                                 频率统计        贝叶斯统计
                                                统计公平               因果公平

                                          Fig.6    Fairness definitions in machine learning
                                                图 6   机器学习的公平性定义
                 2.1   感知公平性
                    感知公平性关注如何直接处理受保护属性以获得公平.这类公平符合直觉,其或在决策过程中直接剔除受
                 保护属性,或将受保护属性视为度量样本间距离的依据.
                 2.1.1    忽略受保护属性公平
                    如果不在决策过程中显式地使用受保护属性,那么该算法是忽略受保护属性公平(fairness through
                           [8]
                 unawareness) 的,即 ˆ =y  f  ()x .该定义简单而直观,但是数据集中可能存在其他属性与受保护属性高度相关(如
                 街道与种族相关),如果利用这些属性,算法的输出结果中仍然存在偏差.
                 2.1.2    感知受保护属性公平
                    如果包含受保护属性在内的属性相似个体得到相似的对待,那么该算法是感知受保护属性公平(fairness
                 through awareness/individual fairness) [18] 的,即
                                               D(f (x,a),f (x′,a′))≤d((x,a),(x′,a′)),
                 其中,D(⋅)和 d(⋅)分别是在输出空间和输入空间中定义的距离度量.该定义相当于对输出结果直接施加约束,即要
   181   182   183   184   185   186   187   188   189   190   191