Page 442 - 《软件学报》2025年第5期
P. 442

软件学报 ISSN 1000-9825, CODEN RUXUEW                                        E-mail: jos@iscas.ac.cn
                 2025,36(5):2342−2361 [doi: 10.13328/j.cnki.jos.007209] [CSTR: 32375.14.jos.007209]  http://www.jos.org.cn
                 ©中国科学院软件研究所版权所有.                                                          Tel: +86-10-62562563



                                                                      *
                 面向时间有序事务数据的聚簇频繁模式挖掘

                 王少鹏  1,2,3 ,    牛超煜  1


                 1
                  (内蒙古大学 计算机学院, 内蒙古 呼和浩特 010021)
                 2
                  (生态大数据教育部工程研究中心 (内蒙古大学), 内蒙古 呼和浩特 010021)
                 3
                  (内蒙古自治区云计算与服务软件工程实验室 (内蒙古大学), 内蒙古 呼和浩特 010021)
                 通信作者: 王少鹏, E-mail: wangsp@imu.edu.cn

                 摘 要: 首次对时间有序事务数据中聚簇频繁模式的挖掘问题进行研究. 为了解决                          Naive 算法处理该问题时存在
                 冗余运算的问题, 提出一种改进的聚簇频繁模式挖掘算法                  ICFPM (improved cluster frequent pattern mining). 该算法
                 使用  2  种优化策略, 一方面可以利用定义的参数            minCF, 有效减少挖掘结果的搜索空间, 另一方面可以参考                (n–1)
                 项集的判别结果加速聚簇频繁           n  项集的判别过程, 算法还使用了         ICFPM-list 结构来减少候选    n  项集的构建开销.
                 基于两个真实世界数据集的仿真实验证明了                ICFPM  算法的有效性, 与   Naive 算法相比, ICFPM  算法在时间和空间
                 效率方面得到了大幅度的提高, 是解决聚簇频繁模式挖掘的有效方法.
                 关键词: 时间有序事务数据; 聚簇; 频繁模式; 数据挖掘; 向下闭包
                 中图法分类号: TP311


                 中文引用格式: 王少鹏, 牛超煜. 面向时间有序事务数据的聚簇频繁模式挖掘. 软件学报, 2025, 36(5): 2342–2361. http://www.jos.
                 org.cn/1000-9825/7209.htm
                 英文引用格式: Wang SP, Niu CY. Clustering Frequent Pattern Mining for Time-ordered Transaction Data. Ruan Jian Xue Bao/Journal
                 of Software, 2025, 36(5): 2342–2361 (in Chinese). http://www.jos.org.cn/1000-9825/7209.htm

                 Clustering Frequent Pattern Mining for Time-ordered Transaction Data
                 WANG Shao-Peng 1,2,3 , NIU Chao-Yu 1
                 1
                 (College of Computer Science, Inner Mongolia University, Hohhot 010021, China)
                 2
                 (Engineering Research Center of Ecological Big Data (Inner Mongolia University), Ministry of Education, Hohhot 010021, China)
                 3
                 (Inner Mongolia Engineering Laboratory for Cloud Computing and Service Software (Inner Mongolia University), Hohhot 010021, China)
                 Abstract:  In  this  study,  the  problem  of  mining  cluster  frequent  patterns  in  time-ordered  transaction  data  is  discussed  for  the  first  time.  To
                 deal  with  redundant  operations  when  the  Naive  algorithm  solves  this  problem,  the  improved  cluster  frequent  pattern  mining  (ICFPM)
                 algorithm  is  proposed.  The  algorithm  uses  two  optimization  strategies.  On  the  one  hand,  it  can  use  the  defined  parameter  minCF  to
                 effectively  reduce  the  search  space  of  mining  results;  on  the  other  hand,  it  can  refer  to  the  discriminative  results  of  (n–1)-itemsets  to
                 accelerate  the  discriminative  process  of  cluster  frequent  n-itemset.  The  algorithm  also  applies  the  ICFPM-list  structure  to  reduce  the
                 overhead  of  the  candidate  n-itemsets  construction.  Simulation  experiments  based  on  two  real-world  datasets  demonstrate  the  effectiveness
                 of  the  ICFPM  algorithm.  Compared  with  the  Naive  algorithm,  the  ICFPM  algorithm  improves  substantially  in  terms  of  time  and  space
                 efficiency, which makes it an effective method for solving clustered frequent pattern mining.
                 Key words:  time-ordered transaction data; clustering; frequent pattern; data mining; downward closure

                    频繁项集挖掘     [1–6] 是数据挖掘领域的一个研究热点        [7] , 旨在发现事务数据集中经常一起出现的项集, 最初是为
                 购物篮分析而设计, 后被广泛应用于许多其他数据挖掘任务. 包括关联规则挖掘                       [8–10] 、顺序模式挖掘  [11–13] 、聚类  [14,15]


                 *    基金项目: 国家自然科学基金  (62066034, 62262047)
                  收稿时间: 2023-12-11; 修改时间: 2024-03-13; 采用时间: 2024-04-13; jos 在线出版时间: 2024-06-20
                  CNKI 网络首发时间: 2024-07-01
   437   438   439   440   441   442   443   444   445   446   447