Page 364 - 《软件学报》2024年第4期
P. 364
1942 软件学报 2024 年第 35 卷第 4 期
iMLDF 和 MLDF 都为 20 层, 每层的 RF-PCT 的超参数设置与之前保持一致. 表 4 展示了最终的结果. 可以看到
iMLDF 在测试时间和存储开销上远远好于 MLDF, 基本达到 10 倍以上的提升. 在数据量较大的数据集上, iMLDF
可以将深度森林方法的测试时间和存储开销做到和经典随机森林算法接近. 由于深度森林算法需要对所有样本进
行逐层表示学习和表示特征的生成, 因此训练时间会远大于经典随机森林方法. 但是考虑到每一层森林的计算可
以通过并行化计算降低时间开销, 一般我们认为这样的计算代价来换取性能的提升是可行的.
表 4 3 个数据集的训练时间、测试时间和内存使用率的比较结果
数据集 算法 训练时间 (s) 测试时间 (s) 存储 (MB)
iMLDF 714.06 2.25 122
Emotions MLDF 479.79 47.36 1 971
RF-PCT 6.77 0.45 52
iMLDF 2 975.45 4.67 1 916
Slashdot MLDF 4 457.01 354.49 27 435
RF-PCT 28.85 2.02 1 015
iMLDF 17 795.29 17.69 10 699
Reuters-K500 MLDF 37 185.08 1 286.20 112 585
RF-PCT 74.62 10.02 6 140
iMLDF 计算效率高的主要原因是: 由于 MLDF 生成的特征表示是基于 RF-PCT 预测的. 因此, MLDF 必须保
存训练的所有层 RF-PCT 来为测试实例生成特征表示, 这实际上意味着保存了数万条未修剪的决策规则, 因此需
要很大的内存成本. 除此之外, MLDF 需要花费大量时间对测试实例进行逐层预测. 而在另一方面, iMLDF 不依赖
于基于预测的特征表示. 因此, 每一层只需要保存少量 (数十个) 特征交互, 测试实例可以很容易地基于这些交互
生成特征表示.
5 总 结
在本文中, 我们针对多标记深度森林方法表示特征不够丰富且计算和存储开销过大的问题, 提出了基于交互
表示的多标记深度森林算法. 该方法第 1 次提出利用交互的子区域的特征置信度和标记概率分布提取两种表示特
征, 从而增加表示学习的多样性, 且使得表示特征的获取可以无需存储所有的森林结构. 因此, 本文方法在提升预
测性能的同时大大降低了计算和存储开销. 实验表明, 该算法在大范围基准数据集上取得了良好的性能. 在未来的
研究中, 我们还可以对随机交互提取算法进行理论分析, 给使用交互表示代替森林结构的存储一个理论保证. 这也
会对我们未来设计高阶交互信息的提取算法有指导意义.
References:
[1] Zhang QW, Zhong Y, Zhang ML. Feature-induced labeling information enrichment for multi-label learning. In: Proc. of the 32nd AAAI
Conf. on Artificial Intelligence. New Orleans: AAAI, 2018. 545. [doi: 10.1609/aaai.v32i1.11656]
[2] Zhou P, El-Gohary N. Ontology-based multilabel text classification of construction regulatory documents. Journal of Computing in Civil
Engineering, 2016, 30(4): 04015058. [doi: 10.1061/(ASCE)CP.1943-5487.0000530]
[3] Ray J, Wang H, Tran D, Wang YF, Feiszli M, Torresani L, Paluri M. Scenes-objects-actions: A multi-task, multi-label video dataset. In:
Proc. of the 15th European Conf. on Computer Vision. Munich: Springer, 2018. 660–676. [doi: 10.1007/978-3-030-01264-9_39]
[4] Cheng X, Zhao SG, Xiao X, Chou KC. iATC-mHyb: A hybrid multi-label classifier for predicting the classification of anatomical
therapeutic chemicals. Oncotarget, 2017, 8(35): 58494–58503. [doi: 10.18632/oncotarget.17028]
[5] Tsoumakas G, Katakis I. Multi-label classification: An overview. Int’l Journal of Data Warehousing and Mining, 2007, 3(3): 1–13. [doi:
10.4018/jdwm.2007070101]
[6] Tsoumakas G, Katakis I, Vlahavas I. Mining multi-label data. In: Maimon O, Rokach L, eds. Data Mining and Knowledge Discovery
Handbook. Boston: Springer, 2009. 667–685. [doi: 10.1007/978-0-387-09823-4_34]
[7] Wang J, Yang Y, Mao JH, Huang ZH, Huang C, Xu W. CNN-RNN: A unified framework for multi-label image classification. In: Proc.
of the 2016 IEEE Conf. on Computer Vision and Pattern Recognition. Las Vegas: IEEE, 2016. 2285–2294. [doi: 10.1109/CVPR.2016.