Page 446 - 《软件学报》2025年第5期
P. 446

2346                                                       软件学报  2025  年第  36  卷第  5  期


                                                                          1
                 p 2 ,…, p i ,…, p n  (p 1 =q  且  p n =p), 且这系列数据中任意  2  个相邻成员  p i 到  p i+ 直接密度可达, 那么  q  到  p  密度可达,
                          x
                 其中, p i   ∈ TS , 1≤i≤n.
                    例  11: 接着考虑例   5, 考虑  TS {b, f} 中一系列数据  [12,13,13,14,14,15], 通过计算可得任  2  个相邻成员都直接密度
                 可达, 则  12  到  15  密度可达.
                    定义  12. 密度相连   [41] . 考虑包含  w  个事务的  TDS  和项集  x,   ∀p,q, s ∈ TS  , 如果存在  s 到  p  和  q  皆密度可达,
                                                                            x
                 则  q  到  p  密度相连.
                    例  12: 接着考虑例   5, 考虑  TS {b, f} 中成员  12, 13  和  15, 可得  13  到  12  和  15  皆密度可达, 则  12  到  15  密度相连.
                    定义   13. 项集 x  发生时间的聚簇集合      [41] . 考虑包含  w  个事务的  TDS  和项集  x, x  发生时间的聚簇集合    C =
                                                                                                       x
                                                                    x
                 {c 1 ,…,c g }, g≥1, 其中每个  c i  (1≤i≤g) 是非空, 且满足如下条件的  TS 子集:
                              x
                    (1) ∀p, q∈TS , 如果  p  ∈ c i , p  到  q  密度可达, 则  q  ∈ c i  (最大性).
                    (2) ∀p, q∈c i , p  与  q  密度相连 (连通性).
                      x
                                                       x
                    |C |表示聚簇内容数, 其值为每个簇中所含           TS 中成员数的总和, |c i |是  c i 中成员数.
                    例  13: 接着考虑例   12, 可得  C {b,f} ={c 1 }= {[12,13,13,14,14,15]}, |C {b,f} |=6, |c 1 |=6.
                    定义  14. 对项集发生时间集合的划分         [40] . 考虑包含  w  个事务的  TDS  和项集  x, TS 是 x  x 的发生时间集合, 给定
                                                 x
                                                                                           x
                 参数  Eps (半径), minPts (最小点数量), TS 关于  Eps 和  minPts 划分得到的  P =C ∪Noi 会将  TS 的所有元素分为
                                                                               x
                                                                            x
                                                                                    x
                              x
                                                      x
                 (g+1) 组. 其中, C ={c 1 ,…,c g }包含  g  个聚簇; Noi 包含所有噪声点, 簇和噪声点分别满足定义       13  和定义  9. 定义噪
                             /
                            x
                       x
                 点比  NR =|Noi |   |TS |.
                                x
                    例  14: 接着考虑例   13, 对  TS {b,f} 进行划分, 得到  P {b,f} =C {b,f} ∪Noi {b,f} . 其中, C {b,f} ={c 1 }={[12,13,13,14,14,15]},
                 |C {b,f} |=6, Noi {b,f} =[18,20], NR {b,f} =2/8=0.25.
                    定义   15. 频繁项集. 考虑包含     w  个事务的  TDS  和项集  x, x  在  TDS  中支持度为  TDS  中包含  x  的事务个数与
                                                                    x
                                                                                          x
                                              x
                                                                       x
                                                                                              x
                                                 x
                                                                                               /
                                                   /
                 TDS  中事务总数|TDS|的比值, 记为     Sup =|T |   |TDS|. 根据定义  4, |TS |=|T |, 所以, 也可表示为  Sup =|TS |   |TDS|. 给定
                                    x
                 频繁阈值   minSup, 若  Sup ≥minSup (0≤minSup≤1), 则  x 为频繁项集.
                    例  15: 接着考虑例   6, 给定  minSup=0.2, {b,f}对应  Sup {b,f} = 7/15=0.53>minSup, 则{b,f}是一个频繁项集.
                    定义   16. 聚簇频繁模式. 考虑包含       w  个事务的   TDS  和项集  x, 给定参数  Eps、minPts 以及阈值    minSup  和
                                                                   x
                                                                           x
                 maxNR, 其中  maxNR  是最大噪点比阈值. 如果项集       x 及对应分区   P =C ∪Noi 满足以下条件:
                                                                      x
                          x
                    (1) Sup ≥minSup;
                         x
                    (2) NR ≤maxNR.
                                                                                   x
                                                                    x
                                                                                                      x
                    那么  x 就是一个聚簇频繁模式        (custer frequent pattern, CFP), C 的发生区间集合  L ={l 1 ,…,l g }, 其中, g  为  C 包
                 含簇的总数, l z =[begin(c z ), end(c z )], begin(c z ) 表示簇  c z 的开始发生时间, end(c z ) 表示簇  c z 的最后发生时间, 1≤z≤g.
                 注意, 此处的   [] 表示发生区间.
                    例  16: 接着考虑例   14  和例  15, 给定  maxNR=0.3. 由于  Sup {b, f} >minSup  且  NR {b,f} <maxNR, 则{b,f}是聚簇频繁模
                 式, 对应聚簇频繁模式发生区间集合           L {b,f} ={l 1 }={[12,15]}.

                 2.2   问题说明
                    定义  16  给出了本文聚焦问题的形式化定义, 通过最小频繁阈值                 (minSup) 来保证所找的项集的频繁特征, 通
                 过邻域半径阈值      (Eps), 密度阈值  (minPts) 以及最大噪点比阈值     (maxNR) 来保证所找项集的聚簇特性. 本文接下来
                 的工作就是设计出一种有效的方法, 以便在给定一个                 TDS, 以及最小频繁阈值, 邻域半径阈值, 密度阈值, 最大噪点
                 比阈值的情况下, 有效挖掘出         TDS  中所有频繁且发生时间呈聚簇状态的项集, 并将满足条件的项集及对应聚簇发
                 生区间呈现给用户.

                 3   聚簇频繁模式挖掘算法
                    本节针对聚簇频繁模式的具体挖掘方法展开研究. 第                  3.1  节给出了从定义出发挖掘聚簇频繁模式的             Naive 算
   441   442   443   444   445   446   447   448   449   450   451