Page 31 - 《上海体育大学学报》2024年第4期
P. 31

2024 年 4 月 第 48 卷 第 4 期                                                                     专题探索

              的研究基础上,采用可解释机器学习的方法,即                    SHapley        SHAP  方法为一种全新的“模型无关的可加特征

              Additive exPlanations(SHAP)方法 [3-4]  对训练后的模型        归因方法”(Model-Agnostic Additive Feature Attribution
              结果进行分析,讨论影响不同奥运项目成绩的社会经                             Methods)。该方法创造性地将博弈论中的                 Shapley 值
              济因素。                                                [ 具体定义见下文式 (2)] 用于识别特征变量的重要
               1 研究方法与模型构建                                        性。Shapley 值的概念来源于合作博弈理论,是一种基
                                                                  于贡献的收益分配方式,由            2012 年诺贝尔经济学奖得
                  随着大数据收集和存储技术的不断进步以及机器
                                                                  主罗伊德·沙普利提出。该方法分解出每个特征变量
              学习新算法的涌现,人工智能技术作为专家决策的辅
                                                                  对模型预测所作的贡献,并用             Shapley 值度量贡献大小
              助手段之一,被越来越多地用于体育成绩的预测和竞
                                                                  (或重要性),具有唯一性,且具有一系列良好的理论性
              技体育政策的制定。与传统的计量回归方法相比,机
                                                                  质 。因此,本文通过          Shapley 值评估和比较不同特征
                                                                    [4]
              器学习方法具有更强的适应性和灵活性,能够更好地
                                                                  变量的重要性(Shapley 值越高,表示该特征变量对模
              处理大量复杂数据,尤其善于分析数据中的非线性关
                                                                  型预测的贡献越大,与预测结果的相关性越强,越有可
              系和高维问题。在体育相关预测中,现有的大多数研
                                                                  能是影响被预测变量的重要因素)。
              究  [5-11]  主要是利用机器学习方法分析运动员个体信息
                                                                      本文使用的可解释方法提供了不同于传统计量方
              对运动员成绩的影响,尚无研究基于机器学习方法考
                                                                  法的另一种视角。传统计量方法侧重于对变量的解释
              察社会经济因素对代表队不同竞技项目表现的影响。
                                                                  和统计推断,但机器学习方法往往比较复杂,重预测轻
                                        [2]
                  本文参考     Schlembach 等 的方法,选用随机森林
                                                                  解释,缺少严格的大样本理论,从而不能进行严谨的统
              作为分析的主要模型。随机森林由多个相互独立的学
                                                                  计推断。SHAP      方法虽然仍不能为特征变量提供严格
              习器通过线性组合构成,能够在整体上降低预测偏差,
                                                                  的统计推断,但通过         Shapley 值可对每个特征变量的重
              具有较强的稳健性         [12] 。在社会科学实证分析中,随机
                                                                  要性进行评估,并识别哪些特征变量在模型预测中相
              森林方法得到了广泛的应用,例如,Athey 等                [13] 、Wager
                                                                  对重要。因此,与传统计量方法一样,SHAP                  方法也试
              等  [14]  将随机森林方法用于政策评估,李斌等              [15] 、陈小
                                                                  图解释特征变量的作用。另外,与传统计量方法相比,
              亮等  [16]  则发现在连续型经济和金融变量的预测中随
                                                                  机器学习方法不采用固定的参数化建模方法,更加适
              机森林方法的表现尤为优异。本文在代表队—项目层
                                                                  用于对复杂变量之间的相互作用和关系进行建模和预
              面训练模型,然后预测代表队在分项目上获得的奖牌
                                                                  测,有利于更深入地理解非线性的现实世界。
              和金牌总数,在此基础上考察各代表队在分项目上表
                                                                      本文采用的关键方法为可加性特征归因方法。该
              现的可预测性是否存在显著性差异。
                                                                  方法将每个特征变量对模型预测结果的贡献解释为
                  除了可预测性结果,本文量化评估了各种社会经
              济因素对代表队不同项目的影响程度。众所周知,机                             “该变量(x)参与模型预测时对最后的预测结果(y)的
              器学习方法本身过于复杂,往往被视为一类“黑箱”方                            贡献”。一个预测模型的“总预测贡献”可表示为:
                                                                                          M
              法,难以解释其背后的经济含义。因此,在对机器学习                                                   ∑
                                                                               g(x) = ϕ 0 +  ϕ i (x) 1(x i )  (1)
              方法得到的结果进行解释时,通常需要借助额外的解                                                    i=1
              释方法。常用的解释方法有部分相关图法、累积局部                             其 中 :   x = (x 1 ,··· , x M )  ′  为  M  维 的 解 释 或 特 征 变 量 ,
              效应法以及和模型无关的局部可解释方法等                      [17] 。但    1(x i ) ∈ {0,1} 是二值的指示变量,取      1 表示第   i 个特征
              是,Lundberg 等 研究表明,对于随机森林这类交互建                       变量用于预测,取        0 表示没有用于预测;         g(x) 表示最终
                            [3]
              模的方法而言,上述方法得到的变量权重在不同的评                                                                         x i  对
                                                                  预测结果,     ϕ 0  表示预测均值,    ϕ i (x) 表示特征变量
              价体系之间可能会存在较大差异,甚至相互之间不具                                                       ϕ i (x) 的取值是可加性特
                                                                  预测结果的边际贡献。测算
              备比较的一致性。另外,随机森林模型自带的自变量                             征归因方法需要解决的关键问题。具体到本文的研究
              重要性(feature importance)筛选方法在选取自变量时                                 ∑
                                                                                  M
                                                                        g(x) = ϕ 0 +  ϕ i (x) 表示“某一年份某代表队在
              会更加偏好取值较多的离散型变量和连续型变量。鉴                             问题,
                                                                                  i=1
              于上述方法都存在一定的缺陷,本文选用                   SHAP  方法 [4]   某项目上所获奖/金牌数的对数值”,                ϕ 0  表示在该项目
              作为可解释方法。                                            上所有代表队所获奖/金牌数的均值,                 x i  表示第  i 个特

                                                                                                                27
   26   27   28   29   30   31   32   33   34   35   36