Page 30 - 《上海体育大学学报》2024年第4期
P. 30
石慧敏,章东迎,章永辉.奥运奖牌可以被预测吗?——基于可解释机器学习视角[J].上海体育大学学报,2024,48(4):26-36
2024年4月15日出版
专题探索
奥运奖牌可以被预测吗?
—基于可解释机器学习视角
石慧敏,章东迎,章永辉
(中国人民大学 经济学院,北京 100872)
摘 要: 基于 1992—2021 年夏季奥运会的分项目成绩大数据,使用随机森林模型评估不同项目金牌和奖牌的可预测
性,发现各项目存在较大的差异:对奖牌而言,可预测性最强的是乒乓球、羽毛球和游泳,而最弱的是水球、现代
五项和排球。基于可解释机器学习方法挖掘社会经济因素对奥运奖牌的影响发现:①对同一个项目而言,女子
项目的可预测准确性普遍高于男子项目;②代表队所在地区的人口规模、人均 GDP、是否为主办国等因素对奖
牌总数具有一定影响;③在特定项目上,代表队的传统优势(如中国的乒乓球、美国的田径等)对奖牌预测具
有较大影响。
关键词: 奥运奖牌;机器学习;特征重要性;SHAP 方法;Shapley 值
中图分类号: G80-05 文献标志码:A 文章编号:1000-5498(2024)04-0026-11 DOI:10.16099/j.sus.2023.10.27.0002
比赛结果的不确定性是竞技体育的魅力之一。然 预测的贡献。上述 2 篇文献关注的都是社会经济指标
而,一些代表队在某些特定项目上的强大实力保证了 对一国或地区在奥运会上的总体表现,即金牌或奖牌
其较高的获胜概率,从而使这些项目的胜负具有较高 总数,未探讨这些因素对不同项目影响的差异。事实
的可预测性。例如,在乒乓球男子团体项目上我国连 上,不同代表队在不同项目上的表现存在较大差异。
续 10 次获得世界杯赛冠军,展现了我国在乒乓球项目 例如,美国作为体育强国,长期位于奥运奖牌榜首位,
上的强大实力。不同体育竞赛项目的表现在多大程度 但在乒乓球、羽毛球等项目上美国运动员从未获得过
上可以被预测?哪些社会经济因素会影响各代表队在 奖牌,整体加总的数据无法解释这一差异。另外,从提
奥运会各项目上的表现?对于不同代表队在奥运会上 高体育成绩的角度看,需要分项目讨论影响成绩的因
的表现,已有研究主要关注代表队整体层面的奖牌分 素。因此,本文在评估不同项目可预测性的同时,也关
布,而未讨论其在不同项目上的差异。Bernard 等 使 注社会经济因素对不同项目影响的差异,填补该领域
[1]
用 Logit 模型分析奥运奖牌榜发现,一个奥运代表队所 研究的空白。
代表的国家或地区人口越多、人均国内生产总值越 具体而言,本文基于 1992—2021 年夏季奥运会代
高、是该届奥运会的主办国,则该代表队获得的奥运奖 表队各项目成绩数据,利用随机森林模型预测各奥运
[2]
牌数越多。Schlembach 等 利用随机森林模型预测了 代表队在各分项目上的表现,在此基础上比较不同奥
各代表队在奥运会上的表现,评估了不同特征变量对 运会项目表现可预测性的差异。在 Schlembach 等 [2]
收稿日期:2023-10-27;修回日期:2024-01-20
基金项目:国家自然科学基金面上项目(71973141);国家自然科学基金青年项目(71903188);中国人民大学“中央高校建设世界一流大学
(学科)和特色发展引导专项资金”项目(KYGJC2023003)
第一作者简介:石慧敏(ORCID:0000-0003-2180-4166),女,山西太原人,中国人民大学教授,博士,博士生导师;研究方向:国际贸易、经济
增长,E-mail:huiminshi@ruc.edu.cn
通信作者简介:章永辉(ORCID:0000-0001-6962-4768),男,浙江金华人,中国人民大学副教授,博士,硕士生导师;研究方向:计量经济学、
因果推断、机器学习,E-mail:yonghui.zhang@ruc.edu.cn
26