Page 445 - 《软件学报》2025年第5期
P. 445

王少鹏 等: 面向时间有序事务数据的聚簇频繁模式挖掘                                                      2345


                 长度, 有|TDS|=w. TDS  中的每个事务数据      T i  (1≤i≤w) 是一个三元组  (i,t i ,ts i ) , 其中  t i ⊂S I , ts i 表示  t i 的发生时间, i
                 是  t i 的唯一标识  ID. 对于  TDS  中任意  2  个相邻成员  T i 和  T j  (1≤i<j≤w), 其对应的三元组成员  (i,t i ,ts i ) 与  ( j,t j ,ts j ) 间
                 存在如下关系: j=(i+1), ts j ≥ts i . 另设  TDS.ts mi 与 n  TDS.ts ma 分别表示  TDS  中第  1  个和最后一个成员的发生时间, 即
                                                            x
                 有  ts min =ts 1 且  ts max =ts w .
                    例  1: 考虑表  1  所示的时间有序事务数据集        TDS, 其中共有   15  个成员  {T 1 ,T 2 ,...,T 15 } , 因此|TDS| = 15. 该数据

                 集相关的项集     S I = {a,b,c,d,e, f} . 集合  {a,b} 是一个包含  2  个项且长度为  2  的  2  项集. T 1 表示在  2023  年  6  月  6  日
                 购买了商品    a  和  c. 另外也可以看出, 该实例中     TDS.ts min =ts 1 =2023  年  6  月  6  日且  TDS.ts max =t 15 =2023  年  6  月  20  日.
                    定义  2. 事务数据中项集的出现        [7] . 考虑  TDS  的事务数据  T i  (1≤i≤w) 和项集  x⊂S I , 如果 x⊂T i , 则称  x 出现在
                 T i 处, 或出现在时间戳   ts i 处.
                    例  2: 考虑表  1  所示的  TDS, 2  项集  {c,e} 出现在  T 6 、T 9 和  T 1 处, 或称出现在时间戳  ts 6 、ts 9 和  ts 1 处.
                                                                  3
                                                                                               3
                    定义   3. 项集发生的事务集合. 考虑包含          w  个事务的  TDS  和项集  x⊂S I , 集合{T q  |1≤q≤w, T q 属于  TDS  且
                                                      x
                 x⊂T q }为项集  x 发生的事务集合, 记为    T , |T |是 x  T 中的成员数.
                                               x
                    例  3: 考虑表  1  所示的  TDS, 2  项集  c,e 出现的事务集合  T  {c,e}  = {T 6 ,T 9 ,T 13 },|T  {c,e} | = 3 .
                    定义   4. 项集发生的时间集合. 考虑包含         w  个事务的   TDS  和项集  x⊂S I , 集合{T q .ts q |1≤q≤w,T q 属于  TDS  且
                 x⊂T q }为项集  x 发生的时间集合, 记为     TS , |TS |是 x  TS 中的成员数. 考虑到一个时间可能有多个项集发生, 这里的
                                                 x
                                                          x
                                                                        x
                                                                    x
                 集合设定为多重集合       (即允许重复的时间戳成员存在), 所以满足|TS |=|T |.
                    例  4: 接着考虑例   3,    {c,e} 的发生时间集合  TS {c,e}  = [ts 6 ,ts 9 ,ts 13 ] = [13,14,19] , 由于时间戳长度较长, 本文都使
                 用数字简写为发生在哪一天, |TS        {c,e} |=|T {c,e} |=3.
                    定义   5. 项集关于发生时间的       Eps-邻域  [41] . 考虑包含  w  个事务的  TDS  和项集  x⊂S I , x  关于发生时间  p (p  ∈
                 TS ) 的  Eps-邻域定义为多重集合      {q | q ∈ TS ,dist(p,q) ⩽ Eps}  , 记为  N (p)  . 其中, Eps  是设置的邻域半径阈值,
                   x
                                                                       x
                                                   x
                                                                       Eps
                               x        x
                 dist(p, q)=|p–q|.    |N (p)|  表示  N (p)  中成员数.
                               Eps      Eps
                    例  5: 考虑表  1  所示数据集  TDS, 给定  Eps=2(天), 2  项集  {b, f} 对应  TS {b,f}  = [12,13,13,14,14,15,18,20] . 以时间
                 戳  14  为例,   N {b,f} (14) = [12,13,13,14,15], |N {b,f} (14)| = 5 .
                           Eps                    Eps
                    定义  6. 项集关于发生时间的密度         [41] . 考虑包含  w  个事务的  TDS  和项集  x⊂S I , x 关于发生时间  p (p ∈ TS ) 的
                                                                                                     x
                 密度记为   ρ x (p), 可表示为  ρ x (p) = |N (p)| .
                                            x
                                            Eps
                    例  6: 接着考虑例   5,   ρ {b, f} (14) = |N  {b,f} (14)| = 5 .
                                              Eps
                    定义  7. 项集  x 发生时间的核心点     [41] . 考虑包含  w  个事务的  TDS  和项集  x, 给定  p  ∈ TS  , 如果  ρ x (p)≥minPts 成
                                                                                      x
                 立, 则  p  是项集  x 发生时间的核心点, 否则    p  是非核心点. 其中, minPts 是设置的密度阈值.
                    例  7: 接着考虑例   7, 给定  minPts=3(天). 由于  ρ {b, f} (14)≥minPts, 则  14  是{b, f}发生时间的核心点.
                    定义  8. 边界点  [41] . 考虑包含  w  个事务的  TDS  和项集  x, ∀p  ∈ TS , 如果点  p  是非核心点, 并且在  TS 中存在成
                                                                                                x
                                                                      x
                 员  q  是项集  x 发生时间的核心点, 使得它们间存在         p ∈ N (q) 的关系, 则  p  是边界点.
                                                            x
                                                            Eps
                    例  8: 考虑表  1  所示数据集   TDS, 给定  Eps=1(天), minPts=3(天). 1  项集{f}对应  TS { f}  = [12,13,13,14,14,18,19,
                 20,20] , 以时间戳  18 为例,   N (18) = [19], ρ {f} (18) = 1<minPts , 则  18 是非核心点. 而  N (19) = [18,20,20], ρ {f} (19) =
                                                                                  {f}
                                      {f}
                                      Eps                                         Eps
                                              { f}
                 3 ⩾ minPts ,19  是核心点, 且满足  18 ∈ N (19) , 则  18  是边界点.
                                              Eps
                                                                                    x
                    定义  9. 项集  x 发生时间的噪声点     [41] . 考虑包含  w  个事务的  TDS  和项集  x, ∀p  ∈ TS , 如果  p  不是核心点, 同时
                 也不是边界点, 则它是噪声点.
                    例  9: 接着考虑例   5,   N Eps  (18) = [20], N Eps  (20) = [18] , 由于  ρ {b,f} (18), ρ {b,f} (20)<minPts, 则  18  和  20  是噪声点.
                                      {b,f}
                                                  {b,f}
                                                                              x
                    定义  10. 直接密度可达    [41] . 考虑包含  w  个事务的  TDS  和项集  x, ∀p, q  ∈ TS , 如果  p ∈ N (q) , 且  q  是核心点,
                                                                                        x
                                                                                        Eps
                 则  q  到  p  直接密度可达.
                    例  10: 接着考虑例   5, 由于时间戳   12 ∈ N {b,f} (14) , 则  12  到  14  直接密度可达.
                                                   Eps
                    定义   11. 密度可达  [41] . 考虑包含  w  个事务的  TDS  和项集  x, ∀p, q  ∈  TS , 如果在  TS 中存在一系列数据  p 1 ,
                                                                            x
                                                                                      x
   440   441   442   443   444   445   446   447   448   449   450