Page 358 - 《软件学报》2024年第4期
P. 358
1936 软件学报 2024 年第 35 卷第 4 期
间的相关信息. 这种基于交互的表示学习增加了多样性, 降低了过拟合风险.
(2) 利用交互表达式计算所有的表示, 从而使得算法无需存储森林结构, 极大地提升了深度森林的计算效率.
本文首先简要讨论一些相关工作. 其次, 介绍本文方法的技术细节. 第三, 报告对比研究的实验结果. 最后, 对
本文进行总结.
2 相关工作
2.1 多标记深度森林
多标记深度森林方法 (multi-label deep forest, MLDF) 是一种基于森林模块构建的针对多标记学习任务的深度
模型 [13] . 该方法由级联森林结构实现逐层特征转化, 级联结构的每一层森林模块由两组多标记决策树森林组成,
包括预测聚类树随机森林 (random forest of predictive clustering trees, RF-PCT) 和预测聚类树极限随机森林
(extremely random forest of predictive clustering trees, ERF-PCT). 其中每个随机森林输出其得到的对应样本的标记
概率分布, 生成基于标记概率向量的表示特征. 这些表示特征作为增广特征和原始特征拼接在一起, 一起成为下一
层森林模块的输入. 为了模型的复杂度能自适应具体任务, 每一层级联森林训练结束都会通过交叉验证估计整个
级联结构的性能, 如果达到停止条件, 则会终止训练过程. 除此之外, 在级联森林的逐层处理过程中, 预测概率分布
使用基于衡量指标的置信度进行评估. 更具体地说, 如果来自当前层的预测概率分布比来自前一层的预测概率分
布具有更好的置信度, 才更新它们. 文献 [14] 在多标记深度森林的基础上使用无监督数据来帮助挖掘特征空间中
的结构信息, 从而使得深度森林模型获得更好的预测性能. 文献 [15] 则在深度森林的级联结构中加入类别选择的
新机制, 加强了模型过滤标记信息中噪声的能力, 从而提升了预测性能. 另一种过滤噪声的方式是在级联结构中逐
层筛选置信度低的样本进入下一层, 文献 [16,17] 通过置信度筛选的机制来缓解过拟合风险. 将在实际应用中, 文
献 [18,19] 将多标记深度森林方法应用在了蛋白质标注问题上, 并取得了良好的性能. 文献 [20] 则是将多标记深度
森林应用于流式数据任务, 并取得了不错的预测性能. 文献 [21] 将多标记深度森林归类为一种成功利用表示学习
的多标记深度学习方法.
2.2 特征间交互信息
我们将特征交互定义为决策规则中的条件集合, 特征交互的简单形式为:
IF: 条件 为真 &…& 条件 为真; THEN: 交互表示激活.
这种特征交互信息最早被用于理解整个转录组、蛋白质的全基因组结合位点和许多其他分子过程如何通过
高阶交互的方式驱动基因表达 [19] . 文献 [22] 则进一步证明了通过随机森林中的集成决策树是可以恢复特征间的
交互信息的, 且越是高阶的交互恢复的难度越高. 文献 [23] 利用输入特征的稳定高阶交互来生成多样性更高的表
示特征, 并在此基础上构建深度森林的级联结构获得了更好的预测性能, 同时也降低了计算和存储开销. 由于原学
习任务是多分类问题, 该方法中的交互表示计算只依赖于样本对应的唯一标记. 而本文在文献 [23] 计算的特征间
交互信息 (交互激活特征区域) 的基础上从特征空间和标记空间两个不同的角度设计了新的表示特征, 其中局部
激活区域的标记概率向量编码了局部空间中的标记间相关性. 这种对于标记间关系的建模方式是解决多标记学习
任务的核心方法.
3 基于交互表示的多标记深度森林
本节我们提出了基于交互表示的多标记深度森林方法 (iMLDF), 它通过特征空间的结构挖掘交互信息融入了
级联森林的特征表示中.
3.1 提取特征交互表示
当我们使用训练数据得到一个已完成训练的随机森林模型, 集成大量富有多样性的决策树使得其具有优秀的
预测性能, 然而我们往往只能将其作为黑箱模型用以完成预测任务. 由于构成随机森林的基分类器决策树受到多
种随机性的扰动, 因此随机森林中的单棵决策树的决策路径并不可靠. 但是相比于由标记信息主导的单棵决策树