Page 184 - 《软件学报》2021年第5期
P. 184
1408 Journal of Software 软件学报 Vol.32, No.5, May 2021
即机器学习的偏差.通过梳理归纳机器学习中普遍存在的偏差,我们可以将其归纳为数据的偏差和模型的偏差.
1.2.1 数据的偏差
随着计算设备的普及,与日常生活相关的海量应用落地,人们产生并存储数据信息愈加方便.因为人们的认
知水平不同,所以收集到的数据质量也不相同.这些数据可能包含现实世界中人们的认知偏差.根据数据中偏差
的状态,可分为静态的历史偏差和动态的交互偏差.
[9]
(1) 历史偏差 :历史偏差是现实世界中早已长期存在的,体现在数据的属性和标记中,可能导致下游学习
任务有偏或不准确的预测.在累犯预判的案例中,审前释放、量刑和假释等决策都是在人类直觉和个
人偏见下产生的.如果机器学习算法不加甄别地学习这些潜在规律,那么它将编码对数据主体的偏
差,其预测结果将反应不公平.
(2) 交互偏差 [11,12] :交互偏差通常来自有偏差策略的使用、用户有偏差的行为以及有偏差的反馈.这些有
偏差的交互产生的数据集是倾斜的,这种倾斜可能随着时间而加剧.在电商杀熟的案例中,电子商务
平台的记录来自那些已完成的交易,平台倾向于对价格敏感程度低的客户投放更多高价的商品广告,
导致该客户群体更可能产生高额的支付记录.未来观察(客户产生高额的消费)证实预测结果(客户对
价格的敏感程度低)的可能性增高.因此,使用这些训练数据的机器学习算法倾向于错误地评估客户
真实的消费意图,减少与预测结果不同的观察机会.
1.2.2 模型的偏差
在机器学习建模过程中,有多个步骤依赖人们参与并做出决定,而人们的决定对结果的公平与否有着重要
的影响:描述样本的特征需要由人类专家设计,这可能引入属性偏差;在模型运行过程中,可能引入探索偏差;观
察并解释实验现象,可能引入因果偏差;而在实验评估中,可能引入归纳偏差.
(1) 属性偏差 [12,13] :属性偏差通常发生在选择和利用属性的过程中.面向不同任务,相同的属性变量应采
取不同的处理方式以适应任务.在保险定价场景中,包含性别属性的机器学习算法可能引起歧视;而
在医疗场景中,排除性别属性的机器学习算法却可能削弱辅助诊疗的效果.因此,对属性的排除、包含
和加权等操作均可能引起机器学习算法的偏差.
(2) 探索偏差 [14] :探索偏差指的是决策者有时会采用次优的行动以获取更多的数据,而这些行动可能导致
部分受众承担不成比例的探索代价.
(3) 因果偏差 [10,15] :因果偏差通常是由于因果关系不合理构建引起的.保险定价的案例中存在因果偏差,
为了刻画车主发生攻击性驾驶行为的概率,保险公司希望找到能够支持这一结论的数据.汽车颜色是
易怒心理的外在形式,公司选取的性别属性只是部分地影响汽车颜色.保险公司没有认识到性别、汽
车颜色和攻击性驾驶行为间的因果关系,在构建机器学习模型时引起因果偏差.
(4) 归纳偏差 [16,17] :归纳偏差发生在机器学习算法的测试评估阶段.机器学习算法的目标函数通常设定为
整体最小化均方误差,那么如果从样本数量的角度理解,拟合多数群体比拟合少数群体更重要(对极
小化误差更有利),极端情况下,与多数群体的数据分布显著不同的少数群体甚至可能被视为离群数
据样本.
总体而言,上述偏差并不是孤立存在的.例如,归纳偏差和交互偏差是相关的.在归纳偏差中,少数群体的误
差偏高是因为代表性的样本不足.以有偏的方式采样交互过程中产生的数据,即使增大数据体量,也无助于提高
模型的准确率.因此,需要在机器学习算法的全生命周期中重视偏差问题以及不同偏差间的相互影响,并尝试提
供针对性的解决方案.
1.3 消除偏差的机制
根据机器学习算法的阶段不同,分别可以使用预处理、处理中和后处理机制,介入算法以实现公平机器学
习.表 2 比较了不同的消除偏差的机制.当能够参与数据生成或修改采集到的数据时,采用预处理机制清洗数据;
当对算法有完全控制时,采用处理中机制以符合公平性定义的方式调整算法;如果对数据和算法都没有能力改
变,采用后处理机制修改算法的输出结果.