Page 228 - 《软件学报》2021年第11期
P. 228

3554                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                    (3)  当(d,m)较小时,PrivSet 方法的 Error Bound 比 TDC_CLDP 方法小,但 TDC_CLDP 方法还是比 BRR 要
                        优;而当(d,m)增长到一定程度时(如 d=16,m=8),TDC_CLDP 方法的 Error Bounds 比 PrivSet 方法要小.
                    综上分析,PrivSet 适合于 d 与 m 较小的场景,主要用于 1-频繁项集的支持度计数分布估计;而 TDC_CLDP
                 方法适用于 d 与 m 较大的场景,主要用于 TopK 频繁项集挖掘,包括 1-频繁项集的支持度计数分布估计任务.
                 5.3   项支持度计数的分布估计

                    项支持度计数的分布估计是指数据收集者收集数据后进行的主要数据分析任务,评价项支持度计数分布
                 估计的好坏主要有两个指标,分别是总的误差(L 1  norm error)以及最大绝对误差(L Max  norm error),其中,
                    •   总的误差公式为
                                                   | P −     a  P a  |=  | P − ∑     i a  P i a  |   (38)
                                                           ∈
                                                           iI
                    •   最大绝对误差为
                                                       | =
                                                 | P −     a  P a ∞  max | P −     P  |              (39)
                                                           iI∈  i a  i a

                    为了与 PrivSet 类似,本文同时采用文献[38]中提出的概率单纯形方法对项支持度计数分布估计 P 进行优
                                                                                                 a
                 化.实验结果如图 4~图 7 所示.






































                          Fig.4    Distribution estimation of item support count for L 1  norm error with synthetic data
                                      图 4   项支持度计数的分布估计,L 1  Norm Error-人造数据
   223   224   225   226   227   228   229   230   231   232   233