Page 35 - 《上海体育大学学报》2024年第4期
P. 35
2024 年 4 月 第 48 卷 第 4 期 专题探索
使用 SHAP 方法计算的各变量重要性的排序。首先对 完全刻画了代表队的潜在特征,那么国家或地区固定
于每个样本观测,计算出每个变量的 Shapley 值( ϕ i ), 效应对预测的贡献应趋于零。考虑了人口规模、人均
然后对整个样本关于 Shapley 值的绝对值进行平均,作 GDP、东道主优势和历史成绩之后,通过 SHAP 方法
|ϕ i | 均值度量的重 计算代表队固定效应对最终预测的影响程度,即代表
为在整个样本上的贡献。列出使用
要性影响前十的变量(表 3)。值得注意的是,表 3 展示 队 Shapley 值,并且列举了代表队固定效应对最终结果
|ϕ i | 的平均值,而国家和地区哑变量的 Shapley 值 影响较大的一些代表队—项目的组合,分析在具体项
的是
具有稀疏性特征,即只是少数不为零,因此数值较小。 目上代表队因素对结果的影响。表 4 列出了代表队固
定效应对最后项目结果预测影响超过 0.3 的代表队和
表 3 对三大球项目影响前十的变量
项目的组合。从表 4 可以看到,在上榜的代表队里,以
Table 3 Top 10 important variables in three major
欧洲代表队和苏联解体后的代表队居多,苏联解体后
ball events forecast
的代表队在擅长的项目上也较为集中,如摔跤、举重、
足球 篮球 排球
变量 Shapley值 变量 Shapley值 变量 Shapley值 拳击、体操等。
POP 0.049 1 LAST_TOP3 0.046 3 LAST_TOP8 0.058 6
表 4 代表队固定效应对全样本奖牌预测值影响超过
GDPPC 0.015 7 LAST_TOP8 0.029 8 POP 0.042 6
0.3 的代表队和项目
德国 0.011 6 GDPPC 0.016 3 LAST_TOP3 0.041 0
Table 4 Teams and events with Shapley value greater than
LAST_TOP8 0.010 1 美国 0.015 5 GDPPC 0.013 4
0.3 for team fixed effect (full sample medals prediction)
阿根廷 0.008 5 POP 0.015 4 巴西 0.012 3
项目 代表队 Shapley值 项目 代表队 Shapley值
巴西 0.008 3 澳大利亚 0.008 6 意大利 0.010 5 射箭 韩国 0.405 6 网球 捷克 0.318 6
美国 0.005 0 法国 0.008 2 美国 0.006 2 现代五项 俄罗斯 0.308 3 俄罗斯 0.301 9
加拿大 0.005 0 西班牙 0.007 7 PLANNED 0.004 3 帆船 英国 0.355 7 田径 俄罗斯 0.489 3
LAST_TOP3 0.004 3 塞尔维亚 0.007 0 德国 0.004 2 自行车 英国 0.334 8 美国 0.442 9
尼日利亚 0.003 6 阿根廷 0.005 1 HOST 0.004 0 马术 德国 0.303 5 白俄罗斯 0.315 5
乒乓球 中国 0.311 4 体操 俄罗斯 0.603 1
从表 3 可知,在三大球奖牌预测中,历史成绩变量
跆拳道 韩国 0.398 2 乌克兰 0.503 9
(LAST_TOP3,LAST_TOP8)都是排名前十的解释变 柔道 乌兹别克斯坦 0.362 4 白俄罗斯 0.373 3
量,说明传统优势地位对奥运表现有着较大的影响。 格鲁吉亚 0.318 4 举重 哈萨克斯坦 0.406 0
除了历史成绩变量,公认强队的哑变量基本都出现在 射击 俄罗斯 0.519 4 格鲁吉亚 0.360 1
重要性前十的因素中。例如,足球为德国、阿根廷、巴 斯洛伐克 0.305 0 俄罗斯 0.353 3
游泳 俄罗斯 0.537 0 摔跤 俄罗斯 0.621 6
西等队,篮球为美国、法国、西班牙等队,排球为巴西、
美国 0.497 7 白俄罗斯 0.395 1
意大利、美国等队。这意味着国家或地区固定效应是
皮划艇 捷克 0.371 8 哈萨克斯坦 0.322 0
历史成绩变量的有益补充,可以捕获潜在特征的影
德国 0.313 7 乌克兰 0.317 3
响。最后,人口(POP)和人均 GDP(GDPPC)是影响这 跳水 中国 0.332 4 拳击 俄罗斯 0.572 3
些比赛项目表现的主要因素。 俄罗斯 0.305 1 哈萨克斯坦 0.572 2
3.3 国家(地区)潜在特征对奖牌预测的影响 击剑 俄罗斯 0.526 7 阿塞拜疆 0.324 5
意大利 0.314 7 乌克兰 0.323 6
特定代表队在特定项目上具有一定的传统优势,
乌兹别克斯坦 0.304 4
如体操项目中的中国队、美国队,足球项目中的巴西
队、法国队。但该如何量化这种传统优势呢?①历史 表 5 展示了在对金牌预测的解释中代表队固定效
成绩变量在很大程度上可以刻画代表队的传统特征, 应影响超过 0.3 的代表队和项目组合,如中国—跳水、
因此,在预测变量中加入了上一届在该项目上是否进 俄罗斯—体操、韩国—跆拳道等。表 5 中的项目—代
入过前三和是否进入过前八这 2 个变量。②加入了代 表队组合数目明显少于表 4,表明虽然某些代表队在
表队哑变量,引入固定效应进一步揭示代表队潜在特 某些项目上拥有强大的实力,但获得金牌的难度远远
征对其奥运表现的影响。如果 2 个历史成绩变量已经 大于获得奖牌的难度。
31