Page 360 - 《软件学报》2024年第4期
P. 360
1938 软件学报 2024 年第 35 卷第 4 期
I(R )={(1,−2,3),(t 1 ,t 2 ,t 3 )} I(R )={(−2,4,3),(t′ 2 ,t′ 4 ,t′ 3 )}
′
x 1 ≥t 1 x 2 <t′ 2
…
x 2 <t 2 x 4 ≥t′ 4
…
I(R )={(−2,4,3),(t′ 2 ,t′ 4 ,t′ 3 )} I(R )={(1,−2,3),(t 1 ,t 2 ,t 3 )}
′
x 3 ≥t 3 x 3 ≥t′ 3
R : (x 1 ≥t 1 )∩(x 2 <t 2 )∩(x 3 ≥t 3 ) R : (x 2 <t′ 2 )∩(x 4 ≥t′ 4 )∩(x 3 ≥t′ 3 )
′
*
*
I(R )={(1,−2,3),(t 1 ,t 2 ,t 3 )} I(R )={(−2,4,3),(t′ 2 ,t′ 4 ,t′ 3 )} ={…,{(−2,3),(t 2 =max(t 2 ,t′ 2 ), t 3 =min(t 3 ,t′ 3 ),…}
′
(a) 通过随机森林学得大量决策规则的集成 (b) 随机交互树算法搜索特征间的交互信息
类别为 0 的样本点 类别为 0 的样本点
x 3 x 3
* *
类别为 1 的样本点 x 2 <t 2 类别为 1 的样本点 x 2 <t 2
类别为 0 和 1 的样本点 x 3 ≥t 3 * 类别为 0 和 1 的样本点 x 3 ≥t 3 *
*
f feature =|x 2 −t 2 |+|x 3 −t 3 | * 1 1
−
f label =∑ i Y ij /∑ i, j Y ij =( , ) −
* * 2 2
t 3 t 3
0 t 2 * x 2 0 t 2 * x 2
(c) 样本置信度得分表示 (d) 多标记概率分布
图 1 多标记随机交互树算法中提取特征交互的示意图
由于这些决策树路径只与其对应的叶子结点的少部分样本强相关, 我们选择通过设计多标记随机交互树算法
来利用随机性筛选其中对多标记评估更加有益的决策规则, 可以获得具有更好泛化能力的特征交互. 我们在算法 1
中总结了多标记随机交互树算法 (multi-label random interaction trees, ML-RIT). ML-RIT 包含 L 棵交互树. 在每一
棵交互树 ℓ 中, J 个样例的下标 {i 1 ,...,i J } 从数据中均匀采样得到, 它们对应的决策路径由 {I i 1 ,...,I i J } 代表. 然后, 它
使用决策路径的下标信息取交集操作 I i 1 ∩...∩I i J 来保留交互信息并去除噪声特征. 最后保留下的每一组特征交互.
图 1(b) 展示了 ML-RIT 算法对于决策规则中交互信息的筛选操作, 通过随机生长交互树的方式来聚合重复出现的
特征交互, 也就是说不断地对交互的特征下标信息和阈值信息取交集来得到更加稳定的交互信息. 图 1(a) 中的交
′
′
互信息对应的聚合结果就是 {(−2,3),(max(t 2 ,t ),min(t 3 ,t ))} .
2 3
算法 1 得到的所有交互 T k ∈ T 都会对应一个符合其决策规则的子空间区域. ML-RIT 方法则通过这些子空间
区域计算得到两种表示输出, 分别为特征置信度得分:
∑
x ij −t j , ∀i : x i ∼ T k
f feature j ,
k (x i ) =
0, 其他
和标记概率分布:
∑ ∑
Y i /
Y i j , ∀i : x i ∼ T k
f k label (x i ) = i:x i ∼T k i:x i ∼T k ,j ,
0, 其他
其中, x i ∼ T 表示 x i 是在特征交互 T 对应的子空间区域中的. 图 1(c) 展示了特征置信度得分的含义, 即各个样本点
位于交互对应激活区域的位置距离区域边界的 ℓ 1 距离. 图 1(d) 展示了标记概率分布的含义, 即在各个交互对应的
激活区域内对所有样本统计其局部标记的概率分布.
3.2 级联森林结构
如图 2 所示, 在基于交互表示的多标记深度森林方法 (iMLDF) 中, 级联结构通过每层挖掘的特征间交互表示
来实现. 每一层的森林模块包含两组多标记决策树森林组成, 包括预测聚类树随机森林 (RF-PCT) 和预测聚类树极
限随机森林 (ERF-PCT). 每一层的森林模块会通过多标记随机交互树算法输出两组不同的特征交互表示: 区域置
信度得分和区域标记概率分布, 而这些新的特征表示会通过粘贴操作和原始特征一起作为下一层的输入, 如此迭
代循环直到触发停止条件.