Page 357 - 《软件学报》2024年第4期
P. 357
吕沈欢 等: 多标记学习中基于交互表示的深度森林方法 1935
representations of feature confidence score and label probability distribution, respectively. On the one hand, iMLDF makes full use of the
feature structural information in the forest model to enrich the relevant information between labels. On the other hand, it calculates all the
representations through interaction expressions so that the algorithm does not need to store all the forest structures, which greatly improves
computational efficiency. The experimental results show that iMLDF algorithm achieves better prediction performance, and the
computational efficiency is improved by an order of magnitude compared with MLDF for datasets with massive samples.
Key words: deep forest; multi-label learning; feature interaction; label correlation; representation learning
1 引 言
在多标记学习任务中, 一个训练样本往往对应着多个标记, 而学习任务则是学习模型使得对未见过的测试样
本预测其对应的所有的标记 [1] . 多标记学习任务在现实场景中应用非常广泛, 例如文本分类任务 [2] 、视频分类任
务 [3] 、化学分类任务 [4] 等. 形式化定义来说, 我们令 X = R 代表 d 维的特征空间, Y = {y 1 ,y 2 ,...,y q } 代表包含 q 个
d
类别标记的标记空间. 由此我们可以给定一个多标记学习的训练集 D , 其中 x i ∈ X 是一个 d 维的特征向量 x i =
(x i1 , x i2 ,..., x id ) 且 Y i ∈ Y 是 x i 对应的与其相关的标记的集合. 多标记学习任务是为了学习一个预测模型 h : X → 2 Y ,
使得我们可以用其更好地预测未见样本对应的标记集合.
在多标记学习任务中, 探索和利用标记之间的相关性始终是一个受到关注的核心方法. 文献 [5] 通过将多标
记学习问题转化为每个标记的独立二元分类问题. 虽然它旨在充分利用高性能的传统单标记分类器, 但当标记空
间巨大时, 会导致较高的计算成本. 考虑到一个标记上的信息可能有助于学习其他相关标记的事实, 则研究标记之
间的相关性对于提高多标记学习的性能至关重要 [6] . 因此, 大多数现有方法都是通过以探索标记间相关性的方式
利用标记信息来训练多标记示例 [1] . 还有部分工作尝试利用特征空间中的数据结构来丰富多标记之间的相关信息,
以此来提升算法的预测性能 [7] . 文献 [8] 尝试使用树结构模型来分阶段处理多标记任务中的标记相关性信息. 而文
献 [9] 则通过深度神经网络来构造标记之间关系的嵌入空间, 从而学习标记之间的相关性.
不同于传统的多标记学习算法, 深度学习引入了表示学习的框架. 文献 [10] 在学习新的特征空间后, 在网络
最后一层的输出上使用多标记分类器. 但是深度神经网络模型对于数据量的需求很大, 且其作为由可微部件构成
的复杂系统更加适合处理数值建模问题, 比如图像分类问题、语音分类问题等. 通过认识到深度学习的本质在于
逐层处理、模型特征转换和足够的模型复杂性, 文献 [11] 针对中小型混合建模数据集提出了深度森林模型并通
过 gcForest 算法实现训练. 具有级联结构的深度森林模型可以像深度神经网络模型一样进行表示学习 [12] . 与深度
神经网络相比, 深度森林具有更少的超参数, 因此更易于训练. 文献 [13] 将深度森林拓展到了多标记学习的任务
上, 探索了基于标记相关性表示学习的多标记深度森林方法. 作为多标记深度森林的一个拓展, 文献 [14] 通过使
用标记补足方法解决了弱标记学习问题. 在每一层, 使用内部交叉验证方案对训练数据集的标记集进行补充, 即如
果预测标记为正, 则在训练数据集中更改其标记.
尽管这些基于标记信息表示的深度森林在经验和理论上都显示出了巨大的潜力, 但我们认为基于标记预测的
特征表示是一个关键缺陷. 首先, 正如文献 [11] 所述, 预测的标记概率提供的信息非常有限. 由于决策树集成后的
随机森林已经是相当稳定的分类器, 这会导致特征表示的冗余且缺乏多样性, 这同样也是导致普通的 Stacking 算
法无法直接构成深度模型的原因之一. 文献 [11] 提到这种基于 Stacking 的实现方式会在超过两层之后遭受严重
的过拟合风险. 其次, 基于标记预测的表示在计算时依赖于多层森林模型的存储, 需要大量的存储空间和时间消
耗. 因此, 如何针对多标记学习任务为深度森林模型设计信息量大、计算量小的特征表示是一个关键的问题.
在本文中, 我们提出了基于交互表示的多标记深度森林方法 (interaction-representation-based multi-label deep
forest, iMLDF). 它从森林模型的决策路径中挖掘特征空间中的结构信息, 利用随机交互树抽取决策树路径中的特
征交互, 分别得到了特征置信度得分和标记概率分布两种交互表示. 然后它会利用这些基于特征交互的表示与原
始特征通过粘贴操作构造级联森林, 实现逐层的表示学习, 不断挖掘特征空间中更复杂的结构.
本文的主要贡献有以下两个方面.
(1) 首次设计了针对多标记森林模型的随机交互提取树方法, 充分利用了模型中的特征结构信息来丰富标记