Page 31 - 《上海体育大学学报》2024年第4期
P. 31
2024 年 4 月 第 48 卷 第 4 期 专题探索
的研究基础上,采用可解释机器学习的方法,即 SHapley SHAP 方法为一种全新的“模型无关的可加特征
Additive exPlanations(SHAP)方法 [3-4] 对训练后的模型 归因方法”(Model-Agnostic Additive Feature Attribution
结果进行分析,讨论影响不同奥运项目成绩的社会经 Methods)。该方法创造性地将博弈论中的 Shapley 值
济因素。 [ 具体定义见下文式 (2)] 用于识别特征变量的重要
1 研究方法与模型构建 性。Shapley 值的概念来源于合作博弈理论,是一种基
于贡献的收益分配方式,由 2012 年诺贝尔经济学奖得
随着大数据收集和存储技术的不断进步以及机器
主罗伊德·沙普利提出。该方法分解出每个特征变量
学习新算法的涌现,人工智能技术作为专家决策的辅
对模型预测所作的贡献,并用 Shapley 值度量贡献大小
助手段之一,被越来越多地用于体育成绩的预测和竞
(或重要性),具有唯一性,且具有一系列良好的理论性
技体育政策的制定。与传统的计量回归方法相比,机
质 。因此,本文通过 Shapley 值评估和比较不同特征
[4]
器学习方法具有更强的适应性和灵活性,能够更好地
变量的重要性(Shapley 值越高,表示该特征变量对模
处理大量复杂数据,尤其善于分析数据中的非线性关
型预测的贡献越大,与预测结果的相关性越强,越有可
系和高维问题。在体育相关预测中,现有的大多数研
能是影响被预测变量的重要因素)。
究 [5-11] 主要是利用机器学习方法分析运动员个体信息
本文使用的可解释方法提供了不同于传统计量方
对运动员成绩的影响,尚无研究基于机器学习方法考
法的另一种视角。传统计量方法侧重于对变量的解释
察社会经济因素对代表队不同竞技项目表现的影响。
和统计推断,但机器学习方法往往比较复杂,重预测轻
[2]
本文参考 Schlembach 等 的方法,选用随机森林
解释,缺少严格的大样本理论,从而不能进行严谨的统
作为分析的主要模型。随机森林由多个相互独立的学
计推断。SHAP 方法虽然仍不能为特征变量提供严格
习器通过线性组合构成,能够在整体上降低预测偏差,
的统计推断,但通过 Shapley 值可对每个特征变量的重
具有较强的稳健性 [12] 。在社会科学实证分析中,随机
要性进行评估,并识别哪些特征变量在模型预测中相
森林方法得到了广泛的应用,例如,Athey 等 [13] 、Wager
对重要。因此,与传统计量方法一样,SHAP 方法也试
等 [14] 将随机森林方法用于政策评估,李斌等 [15] 、陈小
图解释特征变量的作用。另外,与传统计量方法相比,
亮等 [16] 则发现在连续型经济和金融变量的预测中随
机器学习方法不采用固定的参数化建模方法,更加适
机森林方法的表现尤为优异。本文在代表队—项目层
用于对复杂变量之间的相互作用和关系进行建模和预
面训练模型,然后预测代表队在分项目上获得的奖牌
测,有利于更深入地理解非线性的现实世界。
和金牌总数,在此基础上考察各代表队在分项目上表
本文采用的关键方法为可加性特征归因方法。该
现的可预测性是否存在显著性差异。
方法将每个特征变量对模型预测结果的贡献解释为
除了可预测性结果,本文量化评估了各种社会经
济因素对代表队不同项目的影响程度。众所周知,机 “该变量(x)参与模型预测时对最后的预测结果(y)的
器学习方法本身过于复杂,往往被视为一类“黑箱”方 贡献”。一个预测模型的“总预测贡献”可表示为:
M
法,难以解释其背后的经济含义。因此,在对机器学习 ∑
g(x) = ϕ 0 + ϕ i (x) 1(x i ) (1)
方法得到的结果进行解释时,通常需要借助额外的解 i=1
释方法。常用的解释方法有部分相关图法、累积局部 其 中 : x = (x 1 ,··· , x M ) ′ 为 M 维 的 解 释 或 特 征 变 量 ,
效应法以及和模型无关的局部可解释方法等 [17] 。但 1(x i ) ∈ {0,1} 是二值的指示变量,取 1 表示第 i 个特征
是,Lundberg 等 研究表明,对于随机森林这类交互建 变量用于预测,取 0 表示没有用于预测; g(x) 表示最终
[3]
模的方法而言,上述方法得到的变量权重在不同的评 x i 对
预测结果, ϕ 0 表示预测均值, ϕ i (x) 表示特征变量
价体系之间可能会存在较大差异,甚至相互之间不具 ϕ i (x) 的取值是可加性特
预测结果的边际贡献。测算
备比较的一致性。另外,随机森林模型自带的自变量 征归因方法需要解决的关键问题。具体到本文的研究
重要性(feature importance)筛选方法在选取自变量时 ∑
M
g(x) = ϕ 0 + ϕ i (x) 表示“某一年份某代表队在
会更加偏好取值较多的离散型变量和连续型变量。鉴 问题,
i=1
于上述方法都存在一定的缺陷,本文选用 SHAP 方法 [4] 某项目上所获奖/金牌数的对数值”, ϕ 0 表示在该项目
作为可解释方法。 上所有代表队所获奖/金牌数的均值, x i 表示第 i 个特
27