Page 35 - 《上海体育大学学报》2024年第4期
P. 35

2024 年 4 月 第 48 卷 第 4 期                                                                     专题探索

              使用   SHAP  方法计算的各变量重要性的排序。首先对                       完全刻画了代表队的潜在特征,那么国家或地区固定

              于每个样本观测,计算出每个变量的                  Shapley 值(  ϕ i  ),  效应对预测的贡献应趋于零。考虑了人口规模、人均
              然后对整个样本关于          Shapley 值的绝对值进行平均,作              GDP、东道主优势和历史成绩之后,通过                   SHAP  方法
                                              |ϕ i | 均值度量的重       计算代表队固定效应对最终预测的影响程度,即代表
              为在整个样本上的贡献。列出使用
              要性影响前十的变量(表           3)。值得注意的是,表         3 展示      队  Shapley 值,并且列举了代表队固定效应对最终结果
                   |ϕ i | 的平均值,而国家和地区哑变量的            Shapley 值    影响较大的一些代表队—项目的组合,分析在具体项
              的是
              具有稀疏性特征,即只是少数不为零,因此数值较小。                            目上代表队因素对结果的影响。表                 4 列出了代表队固

                                                                  定效应对最后项目结果预测影响超过                  0.3 的代表队和
                        表 3    对三大球项目影响前十的变量
                                                                  项目的组合。从表         4 可以看到,在上榜的代表队里,以
                  Table 3    Top 10 important variables in three major
                                                                  欧洲代表队和苏联解体后的代表队居多,苏联解体后
                               ball events forecast
                                                                  的代表队在擅长的项目上也较为集中,如摔跤、举重、
                    足球              篮球              排球
                 变量    Shapley值  变量    Shapley值  变量    Shapley值   拳击、体操等。

              POP       0.049 1  LAST_TOP3 0.046 3  LAST_TOP8 0.058 6
                                                                      表 4    代表队固定效应对全样本奖牌预测值影响超过
              GDPPC     0.015 7  LAST_TOP8 0.029 8  POP  0.042 6
                                                                                  0.3 的代表队和项目
              德国        0.011 6  GDPPC  0.016 3  LAST_TOP3 0.041 0
                                                                   Table 4    Teams and events with Shapley value greater than
              LAST_TOP8 0.010 1  美国     0.015 5  GDPPC  0.013 4
                                                                     0.3 for team fixed effect (full sample medals prediction)
              阿根廷       0.008 5  POP    0.015 4  巴西     0.012 3
                                                                    项目      代表队     Shapley值 项目    代表队     Shapley值
              巴西        0.008 3  澳大利亚   0.008 6  意大利    0.010 5   射箭      韩国         0.405 6  网球 捷克         0.318 6
              美国        0.005 0  法国     0.008 2  美国     0.006 2   现代五项 俄罗斯           0.308 3    俄罗斯         0.301 9
              加拿大       0.005 0  西班牙    0.007 7  PLANNED  0.004 3  帆船     英国         0.355 7  田径 俄罗斯        0.489 3
              LAST_TOP3 0.004 3  塞尔维亚   0.007 0  德国     0.004 2   自行车     英国         0.334 8    美国          0.442 9
              尼日利亚      0.003 6  阿根廷    0.005 1  HOST   0.004 0   马术      德国         0.303 5    白俄罗斯        0.315 5

                                                                  乒乓球     中国         0.311 4  体操 俄罗斯        0.603 1
                  从表   3 可知,在三大球奖牌预测中,历史成绩变量
                                                                  跆拳道     韩国         0.398 2    乌克兰         0.503 9
              (LAST_TOP3,LAST_TOP8)都是排名前十的解释变                     柔道      乌兹别克斯坦     0.362 4    白俄罗斯        0.373 3
              量,说明传统优势地位对奥运表现有着较大的影响。                                     格鲁吉亚       0.318 4  举重 哈萨克斯坦      0.406 0
              除了历史成绩变量,公认强队的哑变量基本都出现在                             射击      俄罗斯        0.519 4    格鲁吉亚        0.360 1
              重要性前十的因素中。例如,足球为德国、阿根廷、巴                                    斯洛伐克       0.305 0    俄罗斯         0.353 3
                                                                  游泳      俄罗斯        0.537 0  摔跤 俄罗斯        0.621 6
              西等队,篮球为美国、法国、西班牙等队,排球为巴西、
                                                                          美国         0.497 7    白俄罗斯        0.395 1
              意大利、美国等队。这意味着国家或地区固定效应是
                                                                  皮划艇     捷克         0.371 8    哈萨克斯坦       0.322 0
              历史成绩变量的有益补充,可以捕获潜在特征的影
                                                                          德国         0.313 7    乌克兰         0.317 3
              响。最后,人口(POP)和人均            GDP(GDPPC)是影响这           跳水      中国         0.332 4  拳击 俄罗斯        0.572 3

              些比赛项目表现的主要因素。                                               俄罗斯        0.305 1    哈萨克斯坦       0.572 2
               3.3 国家(地区)潜在特征对奖牌预测的影响                             击剑      俄罗斯        0.526 7    阿塞拜疆        0.324 5
                                                                          意大利        0.314 7    乌克兰         0.323 6
                  特定代表队在特定项目上具有一定的传统优势,
                                                                                                乌兹别克斯坦      0.304 4
              如体操项目中的中国队、美国队,足球项目中的巴西
              队、法国队。但该如何量化这种传统优势呢?①历史                                 表  5 展示了在对金牌预测的解释中代表队固定效

              成绩变量在很大程度上可以刻画代表队的传统特征,                             应影响超过      0.3 的代表队和项目组合,如中国—跳水、
              因此,在预测变量中加入了上一届在该项目上是否进                             俄罗斯—体操、韩国—跆拳道等。表                  5 中的项目—代
              入过前三和是否进入过前八这               2 个变量。②加入了代             表队组合数目明显少于表             4,表明虽然某些代表队在
              表队哑变量,引入固定效应进一步揭示代表队潜在特                             某些项目上拥有强大的实力,但获得金牌的难度远远
              征对其奥运表现的影响。如果               2 个历史成绩变量已经             大于获得奖牌的难度。

                                                                                                                31
   30   31   32   33   34   35   36   37   38   39   40