Page 356 - 《软件学报》2024年第4期
P. 356
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2024,35(4):1934−1944 [doi: 10.13328/j.cnki.jos.006841] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
多标记学习中基于交互表示的深度森林方法
吕沈欢 1,2 , 陈一赫 1,2 , 姜 远 1,2
1
(计算机软件新技术国家重点实验室 (南京大学), 江苏 南京 210023)
2
(软件新技术与产业化协同创新中心 (南京大学), 江苏 南京 210023)
通信作者: 姜远, E-mail: jiangy@lamda.nju.edu.cn
摘 要: 在多标记学习中, 每个样本都与多个标记关联, 关键任务是如何在构建模型时利用标记之间的相关性. 多
标记深度森林算法尝试在深度集成学习的框架下使用逐层的表示学习来挖掘标记之间的相关性, 并利用得到的标
记概率表示提升预测精度. 然而, 一方面标记概率表示与标记信息高度相关, 这会导致其多样性较低. 随着深度森
林的深度增加, 性能会下降. 另一方面, 标记概率的计算需要我们存储所有层数的森林结构并在测试阶段逐一使用,
这会造成难以承受的计算和存储开销. 针对这些问题, 提出基于交互表示的多标记深度森林算法 (interaction-
representation-based multi-label deep forest, iMLDF). iMLDF 从森林模型的决策路径中挖掘特征空间中的结构信息,
利用随机交互树抽取决策树路径中的特征交互, 分别得到特征置信度得分和标记概率分布两种交互表示. iMLDF
一方面充分利用模型中的特征结构信息来丰富标记间的相关信息, 另一方面通过交互表达式计算所有的表示, 从
而使得算法无需存储森林结构, 大大地提升了计算效率. 实验结果表明: 在交互表示基础上进行表示学习的
iMLDF 算法取得了更好的预测性能, 而且针对样本较多的数据集, 计算效率比 MLDF 算法提升了一个数量级.
关键词: 深度森林; 多标记学习; 特征交互; 标记相关性; 表示学习
中图法分类号: TP18
中文引用格式: 吕沈欢, 陈一赫, 姜远. 多标记学习中基于交互表示的深度森林方法. 软件学报, 2024, 35(4): 1934–1944. http://
www.jos.org.cn/1000-9825/6841.htm
英文引用格式: Lü SH, Chen YH, Jiang Y. Interaction-representation-based Deep Forest Method in Multi-label Learning. Ruan Jian
Xue Bao/Journal of Software, 2024, 35(4): 1934–1944 (in Chinese). http://www.jos.org.cn/1000-9825/6841.htm
Interaction-representation-based Deep Forest Method in Multi-label Learning
1,2
1,2
LÜ Shen-Huan , CHEN Yi-He , JIANG Yuan 1,2
1
(State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023, China)
2
(Collaborative Innovation Center of Novel Software Technology and Industrialization (Nanjing University), Nanjing, 210023)
Abstract: In multi-label learning, each sample is associated with multiple labels. The key task is how to use the correlation between labels
when building the model. Multi-label deep forest (MLDF) algorithm attempts to mine the correlation between labels by using layer-by-
layer representation learning under the framework of deep ensemble learning and use the obtained label probability representation to
improve prediction accuracy. However, on the one hand, the label probability representation is highly correlated with the label information,
which will lead to its low diversity. As the depth of the deep forest increases, the performance will decline. On the other hand, the
calculation of label probability requires the storage of forest structures with all layers and the application of these structures one by one in
the test stage, which will cause unbearable computational and storage overhead. To solve these problems, this study proposes interaction-
representation-based MLDF (iMLDF). iMLDF mines the structural information in the feature space from the decision path of the forest
model, extracts the feature interaction in the decision tree path by using the random interaction trees, and obtains two interaction
* 基金项目: 国家自然科学基金 (62176117)
收稿时间: 2022-03-15; 修改时间: 2022-10-19; 采用时间: 2022-12-02; jos 在线出版时间: 2023-07-28
CNKI 网络首发时间: 2023-07-31