Page 274 - 《软件学报》2021年第12期
P. 274
3938 Journal of Software 软件学报 Vol.32, No.12 December 2021
100 GR-PPFM 45 GR-PPFM
平均支持度相对误差(%) 60 频繁项集丢失率(%) 35
mask
40
mask
80
30
25
20
40
15
20
0 10 5 0 1 2 3 4 5
1 2 3 4 5
频繁项集长度 k 频繁项集长度 k
−
(a) 支持度误差ρ随项集长度 k 的变化曲线 (b) 频繁项集丢失率θ 随 k 的变化曲线
600 GR-PPFM 55 GR-PPFM
频繁项集增加率(%) 400 平均支持度相对误差(%) 40
50
mask
500
45
mask
35
30
300
25
20
200
10
100
15 5
0 0 1 2 4 6 8 10 20
1 2 3 4 5
频繁项集长度 k 最小支持度阈值 min_sup
+
(c) 频繁项集增加率θ 随 k 的变化曲线 (d) 支持度误差ρ随 min_sup 的变化曲线
30 GR-PPFM 50 GR-PPFM
频繁项集丢失率(%) 20 频繁项集增加率(%) 40
25
mask
mask
15
30
10
20
5
10
0 0
1 2 4 6 8 10 20 1 2 4 6 8 10 20
最小支持度阈值 min_sup 最小支持度阈值 min_sup
−
+
(e) 频繁项集丢失率θ 随 min_sup 的变化曲线 (f) 频繁项集增加率θ 随 min_sup 的变化曲线
Fig.3 Experiment error of mask and GR-PPFM on real-world data
图 3 mask 与 GR-PPFM 在真实数据中的实验误差
图 3(a)测得的ρ正是按项集长度的递增而递增的,同理论分析一致.
3.3.1.2 项集身份误差
图 2(b)、图 3(b)和图 2(c)、图 3(c)给出了项集身份误差随频繁项集长度 k 的变化情况,可以看出:(1) 分组
随机化 GR-PPFM 方法误差小于单参数随机化 mask 方法;(2) 项集身份误差随 k 的变化跟图 2(a)、图 3(a)中支
持度误差ρ随 k 的变化情况相近,误差大致随 k 增大而增大.
−
+
θ ,θ 随 k 变化规律与ρ随 k 变化规律的相似性是容易理解的,因为追根溯源,项集支持度大小决定了项集作
为频繁项集还是非频繁项集的身份,项集支持度误差从最深层次反映了随机化过程对于数据的影响,项集身份
误差是项集支持度误差的外在表现.
3.3.2 误差与支持度阈值的关系
3.3.2.1 支持度误差
图 2(d)给出了合成数据所有频繁项集(从频繁 1-项集到频繁 8-项集,k=ALL)的平均支持度相对误差ρ随最
小支持度阈值 min_sup 的变化曲线.图 3(d)给出了真实数据上ρ随 min_sup 的变化曲线.