Page 115 - 《软件学报》2021年第11期
P. 115

许航  等:噪音数据的属性选择算法                                                               3441


                    维度灾难是数据科学中的一个核心问题,属性选择是解决维度灾难的一种重要方法                              [1,2] .在数据挖掘中常见
                                                         [3]
                 的属性选择主要包括属性加权方法,通过搜索策略 寻找最优的属性组合,通过正则化在既定模型中探索那些
                 对模型准确度提升较大的属性           [4,5] .基于结构化稀疏学习的带正则化项的线性模型是最常用的模型之一,例如,
                 文献[6]中提出对系数矩阵进行 l 2,1 正则化约束,在半监督学习过程中进行属性选择.文献[7,8]中引入 l 1 范数,对
                 系数矩阵进行约束选择相关属性.近年来,有些算法在常用模型的基础上进一步考虑其他影响因素,建立性能更
                 为优良的模型.例如,文献[1]将 LASSO 和随机森林结合,选择相关的外生变量.文献[9]在高光谱遥感数据挖掘中
                 同时考虑光谱和空间信息,将谱空间特征投影到一个公共的特征空间来学习潜在的子空间模型.文献[10]对系
                 数矩阵同时进行 l 1 范数约束和 l 2,1 范数约束,并在此基础上增加低秩约束,得到稀疏鲁棒结果.文献[11]在谱聚类
                 的基础上定义属性区分度和独立性,以此选择重要属性.文献[12]提出了一种协同正则化稀疏群组 LASSO 算法,
                 允许将辅助信息按照预测因子之间的“组”和“距离”整合到学习任务中.针对数据内部关系在进行子空间学习
                 后可能被破坏的问题,文献[13,14]引入拉普拉斯矩阵,在一定程度上保留原始结构信息.文献[15]采用 k 近邻策
                 略得到样本点的近邻点,并通过相似矩阵和近邻点保留样本空间的邻域结构,然后再进行属性选择.
                    不过,上述方法通常是加入正则化项来处理噪音数据,其抑制噪音的效果不理想.并且这些属性选择算法几
                 乎没有考虑数据本身的“难易程度”(“简单”样本为损失函数值小/似然函数值大的样本,也就是置信度高的样本,
                 反之为“复杂样本”),将简单的普适性知识和复杂的专业化知识一概而论,在训练过程中将所有数据(包括噪音
                 点)随机加入训练,使得训练收敛较慢.对此,文献[16]提出将自步学习与属性选择方法结合,考虑数据置信度,达
                 到其去除噪音的目的.其次,在原样本空间中相互之间有联系的样本在属性选择后需要被保持,即:如果两个样
                 本原本是很亲近的关系,则映射到属性子空间时也具有很亲近的关系,这是现有算法很少考虑的问题.针对现有
                 属性选择算法的这两方面不足,本文设计了一个新的属性选择算法,同时考虑数据自身的“难易程度”、噪音的多
                 重处理方式以及样本数据间的局部亲近关系结构.它是一种在训练样本自增长的训练模式下进行鲁棒稀疏学
                 习,并保留样本内部联系的属性选择方法.其主要特点如下:
                    (1)  采用自步学习的训练模式,实现样本数据的自动增长.在训练过程中采用“平滑权重”,更加真实地衡量
                        样本的“难易程度”,根据从“简单”到“复杂”的原则逐步选取训练样本,使得模型能够快速收敛.
                    (2)  在处理噪音时,不仅采用正则化项来减小噪音对模型的影响,而且加入样本的置信度来消除一些噪音
                        样本.
                    (3)  利用稀疏权值矩阵选择有效属性,并同时采用局部保留投影,使得任意形状的样本空间下都能有效保
                        留样本点的邻域结构.

                 1    相关理论背景

                 1.1   符   号
                                                            j
                    给定一个矩阵 X,第 i 行表示为 x i ,第 j 列表示为 x ,第 i 行 j 列元素表示为 x ij ;||X|| 2 表示矩阵 X 的 l 2 范数,
                                                               2,1 ∑
                                                                              T
                    || = ( || X  , ij  x 2 ij )∑  1/ 2  ;||X|| 2,1 表示表示 X 矩阵的 l 2,1 范数, || X  || =  i (∑  j x ij 2 ) 1/ 2  ;X 表示矩阵 X 的转置;tr(X)表示矩
                     2
                 阵 X 的迹.
                 1.2   局部保留投影
                    局部保留投影是一种线性降维算法.在大数据背景下,数据的维度高,但是数据本身内在的有效维数可能远
                 低于数据集呈现的结果.局部保留投影方法(LPP)在降维的同时能保留数据内在的结构,也意味着在低维空间中
                 数据间仍能保留原来的关系          [17] .
                    对于每个样本,投影基向量记为 P,局部保留投影的目标函数为
                                                      1  n
                                                                  2
                                                   min ∑ xP  − x P ) S                                (1)
                                                         (
                                                               j
                                                           i
                                                    P  2 i , j
                 S 为权值系数矩阵,表示样本之间的关系.当样本之间有邻近关系时,对应的权值为非零值;否则,权值为 0.
   110   111   112   113   114   115   116   117   118   119   120