Page 32 - 《上海体育大学学报》2024年第4期
P. 32

石慧敏, 章东迎, 章永辉. 奥运奖牌可以被预测吗?——基于可解释机器学习视角

                                              x i  变化对所获       托集合   F  的所有子集训练出的         8 个预测模型。特征变
           征变量的取值,通过测算           ϕ i (x) 可以得到
           奖/金牌数的影响,从而找到对预测奖牌变化作出较大                            量人口(   POP )的贡献可以通过在预测中是否包含                 POP
           贡献的特征。                                              信息所带来的最终奖牌数预测结果的变化量来度量。
                   ϕ i (x) 的计算,SHAP  方法借鉴了合作博弈理                    在图                           {∅} 时,对最终奖
               对于                                                       1 中,当特征变量集为空集
           论中的    Shapley 值概念。SHAP     方法将预测中所使用               牌数的预测结果为         3.7,而特征变量集为         {POP} 时,对
                      (x i ) 类比为合作博弈中的“参与者”,将模                 最终奖牌数的预测结果为            4.3,在这一路径上新增人口
           的特征变量
                      g(x) 类比为博弈结果的总收益。因此,评                    信息对最终奖牌数预测结果的贡献为                 0.6。同样,当特
           型预测结果
                                         ϕ i (x) 就相当于将收                   {GDP} 时,对最终奖牌数的预测结果为
           估变量   x i  对模型预测结果贡献度                               征变量集为
                                                x i  的                              {POP,GDP} 时,对最终奖牌数
           益在博弈参与人之间进行分配。特征变量                       Shapley    4.9,而当特征变量集为
                            g(x) 的贡献,其计算方法是将特征                 的预测结果为       5.5,在这一路径上新增人口信息对最终
           值为它对预测结果
           变量对模型预测结果的边际贡献进行加权求和,即                              奖牌数预测结果的贡献为             0.6。人口变量的综合影响
                    ∑                                          可以通过对上述所有可能的路径进行加权求和得到。
                        |S |!(|F|−|S |−1)! [  (  )      ]
             ϕ i (x) =                  f S ∪{i} x S ∪{i} − f S (x S )
                             |F|!                              具体地,人口变量        Shapley 值的计算步骤如下:
                   S ⊆F\{i}
                                                     (2)
                                                                   第  1 步,计算  POP 对系统预测值的边际贡献,即式
           其中,i 表示第                ϕ i (x) 是其对模型预测结果                   f S ∪{i} x S ∪{i} − f S (x S ) 。这在图  1 中体现为被
                                                                           (
                                                                               )
                        i 个自变量,
                                                               (2)中的
           的贡献度,F     是模型所使用的特征变量集合,S 是               F\{i}    4 条实边连接的       8 个模型的最终预测值之差,具体
                   x S  是                       x S ∪{i}  中包含
           的子集,        S 中包含的所有特征变量,                           包括:
                            f S (x S ) 分别是基于特征变量集合
           了    x S  和    x i  ,    f S ∪{i}  和
                                                                        f POP − f ∅ = 0.6,f POP, GDP − f GDP = 0.6,
                                                      |S | 分
           x S ∪{i}  和   x S  训练不同模型得到的预测结果,     |F| 和
                                                                                                      = 0.9。
           别表示集合      F  和  S 中元素的个数。式(2)中的求和符                   f POP, D team  − f D team  = 0.6,f POP, GDP, D team  − f GDP, D team
                                                                                      |S |!(|F|−|S |−1)!
                 F\{i} 中所有子集进行加总。                                  第                                 计 算 每 个
           号是对                                                        2 步 , 根 据 公 式
                                                                                           |F|!
               图  1 展示了   SHAP  方法在本文应用的基本原理。
                                                               边 际 贡 献 的 权 重 。 以     {POP} vs   {∅} 为 例 ,   F = {POP,
                                                       POP
           假设特征变量集合          F = {POP,GDP,D team } ,其中,                                           |S | = 0 , 所 以
                                                               GDP,D team } 、   S = {∅} , 因 此 ,   |F| = 3 ,
                                            D team  表示代表队
           表示人口,     GDP 表示国内生产总值,                             |S |!(|F|−|S |−1)!  1
                                                                              =   。同样,可以计算出剩下            3 个边
           虚拟变量。基于        F  预测该代表队在某项目上的最终奖                         |F|!       3
                                                                                                       {D team } 和
           牌数,并计算特征变量对测算最终奖牌数贡献的                    Shapley    际贡献(    {POP,GDP} vs   {GDP} 、    {POP,D team } vs
                                                                                                         1   1
                         F = {POP,GDP,D team } 的子集,f 则是依       {POP,GDP,D team } vs   {GDP,D team } )的权重分别为    、
           值。此时,S 为                                                                                      6   6
                                                                 1

                                  Ø                            和    。
                              奖牌数=3.7                            3
                                                                   第  3 步,计算出     ϕ POP =  1  ×0.6+  1  ×0.6+  1  ×0.6+
                         1/3                                                            3       6      6
                                                               1
                                                                 ×0.9 = 0.7 。
                                                               3
                 POP             GDP            代表队                类似地,可以计算出其他            2 个变量的贡献分别为
              奖牌数=4.3         奖牌数=4.9          奖牌数=3.1
                                                                            ϕ GDP = 1.151.15 。可见,解释方法的可
                                                                   = −0.65 和
                         1/6             1/6
                                                               ϕ D team
                                                               加性体现在最终预测值            4.9 等于无信息预测值        3.7 和
              POP,GDP         POP,代表队         GDP,代表队          3 个变量贡献(    ϕ POP  、   ϕ D team   和  ϕ GDP  )的加和。由于  |ϕ GDP | =
              奖牌数=5.5         奖牌数=3.7          奖牌数=4.0         1.15 对预测货币政策指数的贡献最大,可认为对预测
                                         1/3
                                                               该代表队在某项目上的最终奖牌数贡献最大的特征变
                                                                                            D team  。
                                                               量是  GDP ,接下来依次为       POP 和
                            POP,GDP,代表队
                               奖牌数=4.9                             从上述计算过程可以看到,SHAP              方法的另一个
                       图 1    SHAP  方法测算示意                     优点在于能够对预测进行分解,为每个数据样本的预
                 Figure 1    An illustration of SHAP method    测结果提供个性化解释。因此,对奥运会每个项目的
           28
   27   28   29   30   31   32   33   34   35   36   37