Page 361 - 《软件学报》2024年第4期

P. 361

吕沈欢等: 多标记学习中基于交互表示的深度森林方法 1939

交互新特征交互新特征预测值
RF-PCT 特征置信度表示 Bootstrap RF-PCT 特征置信度表示 RF-PCT
输入特征 Bootstrap ERF-PCT ERF-PCT … ERF-PCT 最终预测
RF-PCT
RF-PCT
RF-PCT
ERF-PCT 多标签分布表示 ERF-PCT 多标签分布表示 ERF-PCT
第 1 层第 2 层第 k 层
特征粘贴 (concatenate)
图 2 基于交互表示的多标记深度森林方法级联结构示意图

k
形式化地描述, 我们令 h = {h 1 ,h 2 ,...,h K } f = { f 1 , f 2 ,..., f K } , 其中 h k 代表第层的森林模块对应的函数, f k 代
,
f feature f label 两部分. 对于多标记随机交互树算法
表 k 层的深度森林挖掘得到的特征交互表示, 具体还可以分为 k 和 k
对应的函数我们用 T 表示, 该函数作用于森林函数 h k 上, 记作 T ◦h k . 而 K 则代表停止条件触发时的深度. 由此我
们可以定义基于交互表示的多标记深度森林方法在第 k 层的迭代式为:

 T ◦h k (x), k = 1


,
f k (x) = 

 T ◦h k ([x, f k−1 (x)]), k > 1
其中, [a, b] 代表特征向量 a 和特征向量 b 的拼接.
由该迭代式计算得到的二元组 (h,f) 即代表了一个基于交互表示的多标记随机森林 g : X → Y :
g(x) = h K ([x, f K−1 (x)]).
x 输出的相关的标
深度森林最后一层森林模块输出的各个标记的预测概率值和阈值决定了对于每一个样本
ˆ Y .
记集合
4 实验部分
本文提出的基于交互表示的多标记深度森林方法是一种可以通过挖掘特征空间结构来丰富训练样本标记信
息的多标记学习算法. 本节我们将 iMLDF 与一些经典的多标记学习算法进行对比, 有 RF-PCT [24,25] 、DBPNN [26,27] 、
RAKEL [28] 、MLKNN [29] 、MLARAM [30] 和基于标记表示的深度森林方法 MLDF [13] . 我们的目标是验证 iMLDF 可
以在不同的度量上实现最佳性能, 尤其是和 MLDF 的对比结果验证了交互表示引入的特征空间结构有利于丰富
标记间信息. 此外, 我们还验证了 iMLDF 相比于 MLDF 大幅缩减了测试阶段的计算开销和存储开销.
4.1 实验设置与数据集
我们选择了 7 个来自不同应用领域和不同规模的多标记分类基准数据集. 表 1 列出了这些数据集的基本统计
数据. 所有数据集均来自多标记数据集的存储库. 数据集的大小各不相同: 从 207 个到 6 000 个示例, 从 49 个到 1 079
个特征, 从 5 个到 174 个标记. 它们按示例数升序排列. 对于下面进行的所有实验, 在不替换的情况下随机抽取
70% 的样本以形成训练集, 其余 30% 的样本用于创建测试集.

表 1 根据示例数量、特征数量和标记数量统计数据集.

数据集领域示例数特征数标记数
VirusPse-AAC Biology 207 440 6
CAL500 Music 502 68 174
CHD_49 Medicine 555 49 6
Emotions Music 593 72 6
Image Image 2 000 294 5
Slashdot Text 3 782 1 079 22
Reuters-K500 Text 6 000 500 103

356 357 358 359 360 361 362 363 364 365 366