Page 187 - 《软件学报》2021年第5期
P. 187

刘文炎  等:可信机器学习的公平性综述                                                             1411


                 求在确定的距离度量下,相似个体(即 d((x,a),(x′,a′))较小)间输出结果的距离(即 D(f (x,a),f (x′,a′)))小,反之亦然.
                 但是,针对特定任务的个体间距离度量的选择相对比较困难.
                 2.2   统计公平性
                    统计公平性要求受保护群体的待遇与非弱势群体或整个群体相似.在累犯预判案例中,ProPublica 对比了
                 非裔美国被告人群体和欧裔美国被告人群体的风险评估结果假阳率和假阴率,即实际不再犯罪却被标记为高
                 风险的概率和再犯却被标记为低风险的概率.对比结果发现,两个群体在上述的统计量上差距大,从而判断该算
                 法对非裔美国被告人群体存在偏见.统计公平无需对数据做出额外假设且容易验证,但该定义无法在个体层面
                 提供公平性保证.根据使用度量的不同,现有统计公平性可分为基本率统计公平、精度统计公平和校准统计公
                 平 [19] ,图 7 表示统计公平定义间的关系.



                                                                     统计公平
                                                     基本率
                                               统计
                                               公平
                                                      精度
                                                             待遇
                                                             均等       校准
                                                     机会均等
                                                                      测试
                                                         几率           均等
                                                         均等


                                      Fig.7    Relationship between statistical fairness definitions
                                                图 7   统计公平定义间的关系
                 2.2.1    基本率统计公平
                    基本率(base rate)统计公平不以观察变量为条件,而是直接度量不同群体输出结果的分布差异,并要求差异
                 满足:
                                                     ˆ | =
                                                 ( P Y  = y a  0,O  =∅ ,Π =∅ )
                                              ln                       ≤  . δ
                                                     ˆ | =
                                                 ( P Y  = y a  1,O  =∅ ,Π  =∅ )
                    基本率统计公平的代表性定义有统计均等,其定义如下:
                    如果输出结果 ˆ y 在任意情况下均独立于受保护属性 a,那么 ˆ y 满足统计均等(statistical parity/demographic
                 parity) [20−25] ,即
                                                              ˆ (| =
                                                  P  ˆ (| =  0) = ya  P ya  1)                        (1)
                    该定义要求不同群体以相同概率获得相同输出预测结果.进一步,通常采用如下两种近似形式                                 [26] 来近似地
                 表达公式(1):
                                                   ˆ (| =
                                               ⎧ P ya  0)  1 ε
                                                            −
                                                   ˆ (| =
                                               ⎪  P ya  1)  ≥  1                                      (2)
                                               ⎨
                                               ⎪
                                                         −
                                                             ˆ (| =
                                                                   ≤
                                               ⎩ | P  ˆ (| = ya  0) P ya  1) | ε 2
                 其中,ε 1 和ε 2 均代表近似控制参数.公式(2)的近似形式有法律中“五分之四原则”                  [25,27] 支撑.但是,该定义在 ˆ y 和 a
                 相关的情况下会削弱算法效用.例如,在一个群体中选择有资质的成员,在另一个群体中以相同概率随机选择成
                 员,虽然这种惰性做法符合统计均等定义,但是没有现实意义.因此,下面介绍精度和校准统计公平,它们在基本
                 率统计公平的基础上额外考虑数据标记.
                 2.2.2    精度统计公平
                    精度统计公平度量每个群体输出结果的错误率和正确率的差异,并要求差异满足:
   182   183   184   185   186   187   188   189   190   191   192