Page 33 - 《上海体育大学学报》2024年第4期
P. 33

2024 年 4 月 第 48 卷 第 4 期                                                                     专题探索

              预测都得到不同变量的           Shapley 值,可为精细化分析每             区国际标准代码),以使其在时间上保持一致。②处理

              个单项运动提供依据。将所有的样本预测分解得到                              了  1992 —2021 年代表队分裂和代表队合并的具体案
              Shapley 值进行汇总,则可得到特征变量的               Shapley 值。    例,也对相应的宏观经济变量进行了处理。③基于详
              Lundberg 等 [4]  证明,SHAP  方法比传统的变量重要性                细的“项目—运动员”数据,构建了“代表队—项目”层
              度量方法具有更好的性质,能够保证其结果在不同模                             面的数据,包括金牌数、奖牌数、上一届进入前八名的
              型之间具有一致性。                                           数量等奥运成绩指标。在某些特殊情况下,如某些项
                                                                  目具有并列金银铜牌的情况,本文计算了每届奥运会
               2 预测变量和数据来源
                                                                  每个项目的实际金牌总数和奖牌数。④根据项目特征
                  根据   Bernard 等 的方法,本文在随机森林模型中                   对比赛进行分类。本文根据性别将项目分为男、女和
                                [1]
              采用如下用于预测的特征变量:各国或地区人均                               男女混合项目。在每个类别下分别进行奖牌和金牌预
              GDP  与世界人均      GDP  之比、人口占世界总人口的比                  测,以研究性别差异是否对各种特征的比赛项目产生
              重、是否为举办国、是否为上一届举办国、是否为下一                            不同的影响。
              届举办国、是否为社会主义政体、是否为计划经济体                                 该数据集包含了         1992、1996、2000、2004、2008、
              制。为了反映代表队在某个项目上的传统优势和潜在                             2012、2016 和  2020 年(推迟到    2021 年举行)的夏季奥

              优势,本文还加入了代表队上一届在该项目上进入过                             运会数据。统计数据囊括了最少派出                  1 名运动员参加
              前三名和前八名的数量这             2 个历史成绩变量;考虑到               该届奥运会的代表队。对于个别代表队也进行了特殊
              前面的    2 个历史成绩变量不能完全刻画国家或地区潜                        区分。例如,1992 年,独联体代表队(由来自俄罗斯、
              在特征的影响,如短期的成绩波动使得上届成绩并不                             白俄罗斯等国的运动员组成)参加了夏季奥运会,将这
              能完全体现其优势,因此,还加入了代表队的哑变量。                            些国家的宏观数据进行了对应的加总处理。
              代表队的固定效应主要用来刻画国家或地区潜在特征                                 本文所使用的宏观经济变量(人口和人均实际
              对其奥运表现的长期影响。表               1 列出了奖牌总数预测             GDP  数据)的主要来源是世界银行。对于世界银行数
              所用到的特征变量。在对金牌数量进行预测时,还额                             据库中缺失的数据,利用           Penn World Table 和  Maddison
              外引入了该代表队在上一届奥运会获得的金牌数量。                             项目的数据进行填补。根据奥运会网站上的信息建立

                                                                  了代表东道国的虚拟变量。对于计划经济虚拟变量的

                            表 1    预测所用的特征变量
                                                                                         [1]
                                                                  定义,本文沿用       Bernard 等 的做法。
                    Table 1    Characteristic variables for prediction
                                                                      对奥运会项目数据做了如下处理。①以                    2020 年
                   名称                 定义               类型
                                                                  东京奥运会的项目设置为标准,对历史上有过变动的
                GDPPC        人均GDP与世界人均GDP之比         连续变量
                POP          人口占世界总人口的比重             连续变量         项目进行了处理。②去除了              2020 年东京奥运会新增
                HOST         是否为举办国                  0/1变量        的  5 个项目(滑板、冲浪、攀岩、棒垒球和空手道)。
                LAST_HOST    是否为上一届举办国               0/1变量        ③去除了高尔夫球、橄榄球和棒球                 3 个项目。高尔夫
                NEXT_HOST    是否为下一届举办国               0/1变量
                                                                  球和橄榄球于       2016 年加入奥运会,可用的训练数据较
                SOVIET       是否为社会主义政体               0/1变量
                                                                  少 ; 棒 球 曾 在   2012 年 和  2016 年 奥 运 会 中 被 取 消 ,
                PLANNED      是否为计划经济体制               0/1变量
                                                                  2020 年重新加入奥运会,数据间断。④在训练数据的
                LAST_TOP8    上一届进入前八名的数量             连续变量
                LAST_TOP3    上一届进入前三名的数量             连续变量         选取中,只选用进入过前八名的代表队的比赛记录,排
                ISO          国家或地区哑变量                0/1变量        除未进入前八名的比赛记录对奖牌预测结果的干扰。

                                                                  经过上述处理后,本文得到了              1992—2020 年  8 届奥运
                  本文使用的奥运会代表队—项目层面的数据来自
                                                                  会  29 个大类项目的      18 713 条比赛记录。在对奖牌结
              奥运会官方网站(https://olympics.com/en)。该网站包
                                                                  果做模型拟合时,参照           Schlembach 等 [2]  的方法,对奖
              含了每个比赛项目中运动员代表的信息:运动员姓名、
                                                                  牌数加    1 后取自然对数。
              项目名称及名次、成绩记录和排名等。本文将原始数
                                                                   3 实证结果与分析
              据进行了如下处理:①将国际奥委会(IOC)代表团队代
              码转换为     ISO-3 代码(国际标准化组织制定的国家地                         在随机森林模型中运用           SHAP  方法对影响最终奖/

                                                                                                                29
   28   29   30   31   32   33   34   35   36   37   38