Page 273 - 《软件学报》2021年第12期
P. 273

郭宇红  等:分组随机化隐私保护频繁模式挖掘                                                           3937


         支持阈值 min_sup 紧密相关.因为 min_sup 不同,其划定的某个长度的频繁项集集合 F 也就不同,造成该集合的
         平均支持度误差ρ也会不同.这表明,F 对应的ρ值会因特定数据的偏斜和最小支持度阈值 min_sup 的不同而出
         现偶然变大变小的情况.因为 F 中即使出现 1 个误差特别大或特别小的项集,就能显著改变 F 的平均支持度误
         差ρ值,尤其当 F 中的项集个数较少时.
             图 2(a)中,在 min_sup=0.1%时,原始数据对应的频繁 1-项集集合、2-项集集合、…、8-项集集合的项集个数
         依次为 10,44,112,160,125,40,8,1.其中,频繁 4 项集的个数最多(这是 IBM Almaden 生成器生成的数据集特征决
         定的,因为选取的参数指定了生成数据集的频繁项集的平均长度为 4),而频繁 6-项集、7-项集和 8-项集集合的
         个数较少,尤其是频繁 8-项集集合,只有 1 个项集,因此其平均支持度误差的偶然性就较大,这也是图中 5-项集以
         后误差回落的原因.当 F 中的项集个数较多时,偶然性因素会被淹没,误差大小会顺从一般的规律随项集长度的
         增加而增大.事实上,实验中发现:当设置 min_sup=0.001%时,即只要出现 1 次的项集就为频繁项集(因为实验所
         用的数据集 D 的大小为 100 000)时,所测得的ρ正是按项集长度的递增而递增的.因为此时每一级长度对应的频
         繁项集个数都较多,平均误差随项集长度的变化能呈现理论分析的规律.

                      平均支持度相对误差(%)                           频繁项集丢失率(%)










                                 频繁项集长度 k                        频繁项集长度 k
                                                                       −
                      (a)  支持度误差ρ随项集长度 k 的变化曲线         (b)  频繁项集丢失率θ 随 k 的变化曲线

                      频繁项集增加率(%)                           平均支持度相对误差(%)









                                 频繁项集长度 k                     最小支持度阈值 min_sup
                                      +
                        (c)  频繁项集增加率θ 随 k 的变化曲线         (d)  支持度误差ρ随 min_sup 的变化曲线

                      频繁项集丢失率(%)                           频繁项集增加率(%)









                              最小支持度阈值 min_sup                 最小支持度阈值 min_sup
                                   −
                                                                    +
                     (e)  频繁项集丢失率θ 随 min_sup 的变化曲线    (f)  频繁项集增加率θ 随 min_sup 的变化曲线
                            Fig.2    Experiment error of mask, and GR-PPFM on synthetic data
                               图 2   mask、GR-PPFM 在人工合成数据中的实验误差
   268   269   270   271   272   273   274   275   276   277   278