Page 176 - 《软件学报》2020年第11期
P. 176
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(11):3492−3505 [doi: 10.13328/j.cnki.jos.005819] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
∗
类属型数据核子空间聚类算法
1,2
3
1,2
徐鲲鹏 , 陈黎飞 , 孙浩军 , 王备战 4
1
(福建师范大学 数学与信息学院,福建 福州 350117)
2
(数字福建环境监测物联网实验室(福建师范大学),福建 福州 350117)
3 (汕头大学 工学院,广东 汕头 515063)
4 (厦门大学 软件学院,福建 厦门 361005)
通讯作者: 陈黎飞, E-mail: clfei@fjnu.edu.cn
摘 要: 现有的类属型数据子空间聚类方法大多基于特征间相互独立假设,未考虑属性间存在的线性或非线性相
关性.提出一种类属型数据核子空间聚类方法.首先引入原作用于连续型数据的核函数将类属型数据投影到核空间,
定义了核空间中特征加权的类属型数据相似性度量.其次,基于该度量推导了类属型数据核子空间聚类目标函数,并
提出一种高效求解该目标函数的优化方法.最后,定义了一种类属型数据核子空间聚类算法.该算法不仅在非线性空
间中考虑了属性间的关系,而且在聚类过程中赋予每个属性衡量其与簇类相关程度的特征权重,实现了类属型属性
的嵌入式特征选择.还定义了一个聚类有效性指标,以评价类属型数据聚类结果的质量.在合成数据和实际数据集上
的实验结果表明,与现有子空间聚类算法相比,核子空间聚类算法可以发掘类属型属性间的非线性关系,并有效提高
了聚类结果的质量.
关键词: 聚类;类属型数据;核方法;非线性度量;子空间
中图法分类号: TP181
中文引用格式: 徐鲲鹏,陈黎飞,孙浩军,王备战.类属型数据核子空间聚类算法.软件学报,2020,31(11):3492−3505. http://www.
jos.org.cn/1000-9825/5819.htm
英文引用格式: Xu KP, Chen LF, Sun HJ, Wang BZ. Kernel subspace clustering algorithm for categorical data. Ruan Jian Xue
Bao/Journal of Software, 2020,31(11):3492−3505 (in Chinese). http://www.jos.org.cn/1000-9825/5819.htm
Kernel Subspace Clustering Algorithm for Categorical Data
1,2
3
1,2
XU Kun-Peng , CHEN Li-Fei , SUN Hao-Jun , WANG Bei-Zhan 4
1
(College of Mathematics and Informatics, Fujian Normal University, Fuzhou 350117, China)
2
(Digital Fujian Internet-of-Things Laboratory of Environmental Monitoring (Fujian Normal University), Fuzhou 350117, China)
3
(College of Engineering, Shantou University, Shantou 515063, China)
4
(College of Software, Xiamen University, Xiamen 361005, China)
Abstract: Currently, the mainstream subspace clustering methods for categorical data are dependent on linear similarity measure and the
relationship between attributes is overlooked. In this study, an approach is proposed for clustering categorical data with a novel kernel soft
feature-selection scheme. First, categorical data is projected into the high-dimensional kernel space by introducing the kernel function and
the similarity measure of categorical data in kernel subspace is given. Based on the measure, the kernel subspace clustering objective
function is derived and an optimization method is proposed to solve the objective function. At last, kernel subspace clustering algorithm
∗ 基金项目 : 国家 自然科学基金 (U1805263, 61672157); 福建省科技厅项目 (JK2017007); 福建师范大学创新团队项 目
(IRTL1704)
Foundation item: National Natural Science Foundation of China (U1805263, 61672157); Project of Science and Technology Bureau,
Fujian Province (JK2017007); Program of Innovative Research Team of Fujian Normal University (IRTL1704)
收稿时间: 2018-01-10; 修改时间: 2018-05-16; 采用时间: 2019-01-15