Page 32 - 《上海体育大学学报》2024年第4期
P. 32
石慧敏, 章东迎, 章永辉. 奥运奖牌可以被预测吗?——基于可解释机器学习视角
x i 变化对所获 托集合 F 的所有子集训练出的 8 个预测模型。特征变
征变量的取值,通过测算 ϕ i (x) 可以得到
奖/金牌数的影响,从而找到对预测奖牌变化作出较大 量人口( POP )的贡献可以通过在预测中是否包含 POP
贡献的特征。 信息所带来的最终奖牌数预测结果的变化量来度量。
ϕ i (x) 的计算,SHAP 方法借鉴了合作博弈理 在图 {∅} 时,对最终奖
对于 1 中,当特征变量集为空集
论中的 Shapley 值概念。SHAP 方法将预测中所使用 牌数的预测结果为 3.7,而特征变量集为 {POP} 时,对
(x i ) 类比为合作博弈中的“参与者”,将模 最终奖牌数的预测结果为 4.3,在这一路径上新增人口
的特征变量
g(x) 类比为博弈结果的总收益。因此,评 信息对最终奖牌数预测结果的贡献为 0.6。同样,当特
型预测结果
ϕ i (x) 就相当于将收 {GDP} 时,对最终奖牌数的预测结果为
估变量 x i 对模型预测结果贡献度 征变量集为
x i 的 {POP,GDP} 时,对最终奖牌数
益在博弈参与人之间进行分配。特征变量 Shapley 4.9,而当特征变量集为
g(x) 的贡献,其计算方法是将特征 的预测结果为 5.5,在这一路径上新增人口信息对最终
值为它对预测结果
变量对模型预测结果的边际贡献进行加权求和,即 奖牌数预测结果的贡献为 0.6。人口变量的综合影响
∑ 可以通过对上述所有可能的路径进行加权求和得到。
|S |!(|F|−|S |−1)! [ ( ) ]
ϕ i (x) = f S ∪{i} x S ∪{i} − f S (x S )
|F|! 具体地,人口变量 Shapley 值的计算步骤如下:
S ⊆F\{i}
(2)
第 1 步,计算 POP 对系统预测值的边际贡献,即式
其中,i 表示第 ϕ i (x) 是其对模型预测结果 f S ∪{i} x S ∪{i} − f S (x S ) 。这在图 1 中体现为被
(
)
i 个自变量,
(2)中的
的贡献度,F 是模型所使用的特征变量集合,S 是 F\{i} 4 条实边连接的 8 个模型的最终预测值之差,具体
x S 是 x S ∪{i} 中包含
的子集, S 中包含的所有特征变量, 包括:
f S (x S ) 分别是基于特征变量集合
了 x S 和 x i , f S ∪{i} 和
f POP − f ∅ = 0.6,f POP, GDP − f GDP = 0.6,
|S | 分
x S ∪{i} 和 x S 训练不同模型得到的预测结果, |F| 和
= 0.9。
别表示集合 F 和 S 中元素的个数。式(2)中的求和符 f POP, D team − f D team = 0.6,f POP, GDP, D team − f GDP, D team
|S |!(|F|−|S |−1)!
F\{i} 中所有子集进行加总。 第 计 算 每 个
号是对 2 步 , 根 据 公 式
|F|!
图 1 展示了 SHAP 方法在本文应用的基本原理。
边 际 贡 献 的 权 重 。 以 {POP} vs {∅} 为 例 , F = {POP,
POP
假设特征变量集合 F = {POP,GDP,D team } ,其中, |S | = 0 , 所 以
GDP,D team } 、 S = {∅} , 因 此 , |F| = 3 ,
D team 表示代表队
表示人口, GDP 表示国内生产总值, |S |!(|F|−|S |−1)! 1
= 。同样,可以计算出剩下 3 个边
虚拟变量。基于 F 预测该代表队在某项目上的最终奖 |F|! 3
{D team } 和
牌数,并计算特征变量对测算最终奖牌数贡献的 Shapley 际贡献( {POP,GDP} vs {GDP} 、 {POP,D team } vs
1 1
F = {POP,GDP,D team } 的子集,f 则是依 {POP,GDP,D team } vs {GDP,D team } )的权重分别为 、
值。此时,S 为 6 6
1
Ø 和 。
奖牌数=3.7 3
第 3 步,计算出 ϕ POP = 1 ×0.6+ 1 ×0.6+ 1 ×0.6+
1/3 3 6 6
1
×0.9 = 0.7 。
3
POP GDP 代表队 类似地,可以计算出其他 2 个变量的贡献分别为
奖牌数=4.3 奖牌数=4.9 奖牌数=3.1
ϕ GDP = 1.151.15 。可见,解释方法的可
= −0.65 和
1/6 1/6
ϕ D team
加性体现在最终预测值 4.9 等于无信息预测值 3.7 和
POP,GDP POP,代表队 GDP,代表队 3 个变量贡献( ϕ POP 、 ϕ D team 和 ϕ GDP )的加和。由于 |ϕ GDP | =
奖牌数=5.5 奖牌数=3.7 奖牌数=4.0 1.15 对预测货币政策指数的贡献最大,可认为对预测
1/3
该代表队在某项目上的最终奖牌数贡献最大的特征变
D team 。
量是 GDP ,接下来依次为 POP 和
POP,GDP,代表队
奖牌数=4.9 从上述计算过程可以看到,SHAP 方法的另一个
图 1 SHAP 方法测算示意 优点在于能够对预测进行分解,为每个数据样本的预
Figure 1 An illustration of SHAP method 测结果提供个性化解释。因此,对奥运会每个项目的
28