Page 33 - 《上海体育大学学报》2024年第4期
P. 33
2024 年 4 月 第 48 卷 第 4 期 专题探索
预测都得到不同变量的 Shapley 值,可为精细化分析每 区国际标准代码),以使其在时间上保持一致。②处理
个单项运动提供依据。将所有的样本预测分解得到 了 1992 —2021 年代表队分裂和代表队合并的具体案
Shapley 值进行汇总,则可得到特征变量的 Shapley 值。 例,也对相应的宏观经济变量进行了处理。③基于详
Lundberg 等 [4] 证明,SHAP 方法比传统的变量重要性 细的“项目—运动员”数据,构建了“代表队—项目”层
度量方法具有更好的性质,能够保证其结果在不同模 面的数据,包括金牌数、奖牌数、上一届进入前八名的
型之间具有一致性。 数量等奥运成绩指标。在某些特殊情况下,如某些项
目具有并列金银铜牌的情况,本文计算了每届奥运会
2 预测变量和数据来源
每个项目的实际金牌总数和奖牌数。④根据项目特征
根据 Bernard 等 的方法,本文在随机森林模型中 对比赛进行分类。本文根据性别将项目分为男、女和
[1]
采用如下用于预测的特征变量:各国或地区人均 男女混合项目。在每个类别下分别进行奖牌和金牌预
GDP 与世界人均 GDP 之比、人口占世界总人口的比 测,以研究性别差异是否对各种特征的比赛项目产生
重、是否为举办国、是否为上一届举办国、是否为下一 不同的影响。
届举办国、是否为社会主义政体、是否为计划经济体 该数据集包含了 1992、1996、2000、2004、2008、
制。为了反映代表队在某个项目上的传统优势和潜在 2012、2016 和 2020 年(推迟到 2021 年举行)的夏季奥
优势,本文还加入了代表队上一届在该项目上进入过 运会数据。统计数据囊括了最少派出 1 名运动员参加
前三名和前八名的数量这 2 个历史成绩变量;考虑到 该届奥运会的代表队。对于个别代表队也进行了特殊
前面的 2 个历史成绩变量不能完全刻画国家或地区潜 区分。例如,1992 年,独联体代表队(由来自俄罗斯、
在特征的影响,如短期的成绩波动使得上届成绩并不 白俄罗斯等国的运动员组成)参加了夏季奥运会,将这
能完全体现其优势,因此,还加入了代表队的哑变量。 些国家的宏观数据进行了对应的加总处理。
代表队的固定效应主要用来刻画国家或地区潜在特征 本文所使用的宏观经济变量(人口和人均实际
对其奥运表现的长期影响。表 1 列出了奖牌总数预测 GDP 数据)的主要来源是世界银行。对于世界银行数
所用到的特征变量。在对金牌数量进行预测时,还额 据库中缺失的数据,利用 Penn World Table 和 Maddison
外引入了该代表队在上一届奥运会获得的金牌数量。 项目的数据进行填补。根据奥运会网站上的信息建立
了代表东道国的虚拟变量。对于计划经济虚拟变量的
表 1 预测所用的特征变量
[1]
定义,本文沿用 Bernard 等 的做法。
Table 1 Characteristic variables for prediction
对奥运会项目数据做了如下处理。①以 2020 年
名称 定义 类型
东京奥运会的项目设置为标准,对历史上有过变动的
GDPPC 人均GDP与世界人均GDP之比 连续变量
POP 人口占世界总人口的比重 连续变量 项目进行了处理。②去除了 2020 年东京奥运会新增
HOST 是否为举办国 0/1变量 的 5 个项目(滑板、冲浪、攀岩、棒垒球和空手道)。
LAST_HOST 是否为上一届举办国 0/1变量 ③去除了高尔夫球、橄榄球和棒球 3 个项目。高尔夫
NEXT_HOST 是否为下一届举办国 0/1变量
球和橄榄球于 2016 年加入奥运会,可用的训练数据较
SOVIET 是否为社会主义政体 0/1变量
少 ; 棒 球 曾 在 2012 年 和 2016 年 奥 运 会 中 被 取 消 ,
PLANNED 是否为计划经济体制 0/1变量
2020 年重新加入奥运会,数据间断。④在训练数据的
LAST_TOP8 上一届进入前八名的数量 连续变量
LAST_TOP3 上一届进入前三名的数量 连续变量 选取中,只选用进入过前八名的代表队的比赛记录,排
ISO 国家或地区哑变量 0/1变量 除未进入前八名的比赛记录对奖牌预测结果的干扰。
经过上述处理后,本文得到了 1992—2020 年 8 届奥运
本文使用的奥运会代表队—项目层面的数据来自
会 29 个大类项目的 18 713 条比赛记录。在对奖牌结
奥运会官方网站(https://olympics.com/en)。该网站包
果做模型拟合时,参照 Schlembach 等 [2] 的方法,对奖
含了每个比赛项目中运动员代表的信息:运动员姓名、
牌数加 1 后取自然对数。
项目名称及名次、成绩记录和排名等。本文将原始数
3 实证结果与分析
据进行了如下处理:①将国际奥委会(IOC)代表团队代
码转换为 ISO-3 代码(国际标准化组织制定的国家地 在随机森林模型中运用 SHAP 方法对影响最终奖/
29