Page 442 - 《软件学报》2025年第5期
P. 442
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
2025,36(5):2342−2361 [doi: 10.13328/j.cnki.jos.007209] [CSTR: 32375.14.jos.007209] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
*
面向时间有序事务数据的聚簇频繁模式挖掘
王少鹏 1,2,3 , 牛超煜 1
1
(内蒙古大学 计算机学院, 内蒙古 呼和浩特 010021)
2
(生态大数据教育部工程研究中心 (内蒙古大学), 内蒙古 呼和浩特 010021)
3
(内蒙古自治区云计算与服务软件工程实验室 (内蒙古大学), 内蒙古 呼和浩特 010021)
通信作者: 王少鹏, E-mail: wangsp@imu.edu.cn
摘 要: 首次对时间有序事务数据中聚簇频繁模式的挖掘问题进行研究. 为了解决 Naive 算法处理该问题时存在
冗余运算的问题, 提出一种改进的聚簇频繁模式挖掘算法 ICFPM (improved cluster frequent pattern mining). 该算法
使用 2 种优化策略, 一方面可以利用定义的参数 minCF, 有效减少挖掘结果的搜索空间, 另一方面可以参考 (n–1)
项集的判别结果加速聚簇频繁 n 项集的判别过程, 算法还使用了 ICFPM-list 结构来减少候选 n 项集的构建开销.
基于两个真实世界数据集的仿真实验证明了 ICFPM 算法的有效性, 与 Naive 算法相比, ICFPM 算法在时间和空间
效率方面得到了大幅度的提高, 是解决聚簇频繁模式挖掘的有效方法.
关键词: 时间有序事务数据; 聚簇; 频繁模式; 数据挖掘; 向下闭包
中图法分类号: TP311
中文引用格式: 王少鹏, 牛超煜. 面向时间有序事务数据的聚簇频繁模式挖掘. 软件学报, 2025, 36(5): 2342–2361. http://www.jos.
org.cn/1000-9825/7209.htm
英文引用格式: Wang SP, Niu CY. Clustering Frequent Pattern Mining for Time-ordered Transaction Data. Ruan Jian Xue Bao/Journal
of Software, 2025, 36(5): 2342–2361 (in Chinese). http://www.jos.org.cn/1000-9825/7209.htm
Clustering Frequent Pattern Mining for Time-ordered Transaction Data
WANG Shao-Peng 1,2,3 , NIU Chao-Yu 1
1
(College of Computer Science, Inner Mongolia University, Hohhot 010021, China)
2
(Engineering Research Center of Ecological Big Data (Inner Mongolia University), Ministry of Education, Hohhot 010021, China)
3
(Inner Mongolia Engineering Laboratory for Cloud Computing and Service Software (Inner Mongolia University), Hohhot 010021, China)
Abstract: In this study, the problem of mining cluster frequent patterns in time-ordered transaction data is discussed for the first time. To
deal with redundant operations when the Naive algorithm solves this problem, the improved cluster frequent pattern mining (ICFPM)
algorithm is proposed. The algorithm uses two optimization strategies. On the one hand, it can use the defined parameter minCF to
effectively reduce the search space of mining results; on the other hand, it can refer to the discriminative results of (n–1)-itemsets to
accelerate the discriminative process of cluster frequent n-itemset. The algorithm also applies the ICFPM-list structure to reduce the
overhead of the candidate n-itemsets construction. Simulation experiments based on two real-world datasets demonstrate the effectiveness
of the ICFPM algorithm. Compared with the Naive algorithm, the ICFPM algorithm improves substantially in terms of time and space
efficiency, which makes it an effective method for solving clustered frequent pattern mining.
Key words: time-ordered transaction data; clustering; frequent pattern; data mining; downward closure
频繁项集挖掘 [1–6] 是数据挖掘领域的一个研究热点 [7] , 旨在发现事务数据集中经常一起出现的项集, 最初是为
购物篮分析而设计, 后被广泛应用于许多其他数据挖掘任务. 包括关联规则挖掘 [8–10] 、顺序模式挖掘 [11–13] 、聚类 [14,15]
* 基金项目: 国家自然科学基金 (62066034, 62262047)
收稿时间: 2023-12-11; 修改时间: 2024-03-13; 采用时间: 2024-04-13; jos 在线出版时间: 2024-06-20
CNKI 网络首发时间: 2024-07-01