Page 356 - 《软件学报》2024年第4期
P. 356

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 Journal of Software,2024,35(4):1934−1944 [doi: 10.13328/j.cnki.jos.006841]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                      *
                 多标记学习中基于交互表示的深度森林方法

                 吕沈欢  1,2 ,    陈一赫  1,2 ,    姜    远  1,2


                 1
                  (计算机软件新技术国家重点实验室 (南京大学), 江苏 南京 210023)
                 2
                  (软件新技术与产业化协同创新中心 (南京大学), 江苏 南京 210023)
                 通信作者: 姜远, E-mail: jiangy@lamda.nju.edu.cn

                 摘 要: 在多标记学习中, 每个样本都与多个标记关联, 关键任务是如何在构建模型时利用标记之间的相关性. 多
                 标记深度森林算法尝试在深度集成学习的框架下使用逐层的表示学习来挖掘标记之间的相关性, 并利用得到的标
                 记概率表示提升预测精度. 然而, 一方面标记概率表示与标记信息高度相关, 这会导致其多样性较低. 随着深度森
                 林的深度增加, 性能会下降. 另一方面, 标记概率的计算需要我们存储所有层数的森林结构并在测试阶段逐一使用,
                 这会造成难以承受的计算和存储开销. 针对这些问题, 提出基于交互表示的多标记深度森林算法                                  (interaction-
                 representation-based multi-label deep forest, iMLDF). iMLDF  从森林模型的决策路径中挖掘特征空间中的结构信息,
                 利用随机交互树抽取决策树路径中的特征交互, 分别得到特征置信度得分和标记概率分布两种交互表示. iMLDF
                 一方面充分利用模型中的特征结构信息来丰富标记间的相关信息, 另一方面通过交互表达式计算所有的表示, 从
                 而使得算法无需存储森林结构, 大大地提升了计算效率. 实验结果表明: 在交互表示基础上进行表示学习的
                 iMLDF  算法取得了更好的预测性能, 而且针对样本较多的数据集, 计算效率比                    MLDF  算法提升了一个数量级.
                 关键词: 深度森林; 多标记学习; 特征交互; 标记相关性; 表示学习
                 中图法分类号: TP18


                 中文引用格式: 吕沈欢, 陈一赫, 姜远. 多标记学习中基于交互表示的深度森林方法. 软件学报, 2024, 35(4): 1934–1944. http://
                 www.jos.org.cn/1000-9825/6841.htm
                 英文引用格式: Lü SH, Chen YH, Jiang Y. Interaction-representation-based Deep Forest Method in Multi-label Learning. Ruan Jian
                 Xue Bao/Journal of Software, 2024, 35(4): 1934–1944 (in Chinese). http://www.jos.org.cn/1000-9825/6841.htm
                 Interaction-representation-based Deep Forest Method in Multi-label Learning

                            1,2
                                        1,2
                 LÜ Shen-Huan , CHEN Yi-He , JIANG Yuan 1,2
                 1
                 (State Key Laboratory for Novel Software Technology (Nanjing University), Nanjing 210023, China)
                 2
                 (Collaborative Innovation Center of Novel Software Technology and Industrialization (Nanjing University), Nanjing, 210023)
                 Abstract:  In multi-label learning, each sample is associated with multiple labels. The key task is how to use the correlation between labels
                 when  building  the  model.  Multi-label  deep  forest  (MLDF)  algorithm  attempts  to  mine  the  correlation  between  labels  by  using  layer-by-
                 layer  representation  learning  under  the  framework  of  deep  ensemble  learning  and  use  the  obtained  label  probability  representation  to
                 improve prediction accuracy. However, on the one hand, the label probability representation is highly correlated with the label information,
                 which  will  lead  to  its  low  diversity.  As  the  depth  of  the  deep  forest  increases,  the  performance  will  decline.  On  the  other  hand,  the
                 calculation  of  label  probability  requires  the  storage  of  forest  structures  with  all  layers  and  the  application  of  these  structures  one  by  one  in
                 the  test  stage,  which  will  cause  unbearable  computational  and  storage  overhead.  To  solve  these  problems,  this  study  proposes  interaction-
                 representation-based  MLDF  (iMLDF).  iMLDF  mines  the  structural  information  in  the  feature  space  from  the  decision  path  of  the  forest
                 model,  extracts  the  feature  interaction  in  the  decision  tree  path  by  using  the  random  interaction  trees,  and  obtains  two  interaction


                 *    基金项目: 国家自然科学基金  (62176117)
                  收稿时间: 2022-03-15; 修改时间: 2022-10-19; 采用时间: 2022-12-02; jos 在线出版时间: 2023-07-28
                  CNKI 网络首发时间: 2023-07-31
   351   352   353   354   355   356   357   358   359   360   361