Page 117 - 《软件学报》2021年第11期
P. 117

许航  等:噪音数据的属性选择算法                                                               3443


                 的属性子集,从而实现维度约简.此时,W 近似于新的低维空间的一组基,在这个低维空间中,样本点之间的关系
                 应该与原空间保持一致.为了实现这一目的,借鉴 LPP 的思想,将其中的投影矩阵替换为 W 矩阵.此时,目标函数
                 改进为
                                        n              1  n
                                    min ∑  || y  − xW  || + b  2  ∑  α −  || xW  −  x W  || s +  2  β  ||W  ||  (7)
                                      ,
                                     Wb  i= 1  i  i  2  2  , i j  i  j  2  ij   2,1
                 其中,α为调节参数,调节该项在目标函数中的比重.S=[s 1 ;s 2 ;…;s n ],S∈R      n×n ,S 为权值矩阵,矩阵中,每个元素 s ij 表示
                 样本之间的邻近关系.当 s ij 取非 0 值时,表示第 i 个样本与第 j 个存在邻近关系;否则,表示样本 i 和样本 j 之间不
                                     ⎛  || x  − x  || ⎞  2
                                     ⎜
                 存在邻近关系.s ij 可用 exp −    i   j  2  ⎟  求得.σ为参数,不失一般性,σ值可设为 1.
                                     ⎜    2σ 2  ⎟
                                     ⎝         ⎠
                    在大数据背景下,学习器往往要处理庞大的数据集,采用自步学习可以实现样本数据的自动增长以及挖掘
                 模型的快速收敛.在自步学习的迭代过程中,优先选择“简单”的样本,然后逐步加入“复杂”的样本.因此在自步学
                 习过程中,受样本置信度和算法阈值参数的控制,离群点几乎不会被选中,进一步保证了算法的鲁棒性.此时,目
                 标函数改进为
                                    n                1  n
                                 min ∑  v i  || y i  i  − xW  || + b  2 2  ∑  α −  || xW  −  j  || s +  2 2  ij  β  ||W  || 2,1  −  λ x W  || || 1  (8)
                                                                                   v
                                                            i
                                  ,,v
                                Wb                   2
                                    i= 1               , i j
                 其中,v∈R 1×n ,v 为自步学习权重变量,v=[v 1 ,v 2 ,…,v n ].λ为阈值参数,λ>0 为约束条件.v i 的取值由λ值和损失函数值
                 共同决定:当 v i =1 时,表示第 i 个样本被选入训练过程;否则,表示在下次迭代过程,暂时不考虑第 i 个样本.但是噪
                 音不是均匀分布在数据集中,绝对化的断定某一个样本是“简单”的或是“复杂”的是不合理的.因此,根据文献
                 [22]改变关于 v 的正则项,将自步学习中的“硬权重”改为“平滑权重”,目标函数如下:
                                n                1  n                         ⎛  1       ⎞
                            min ∑  v i  || y i  i  − xW  || + b  2 2  ∑  α −  || xW  −  j  || s +  2 2  ij  β  ||W  || 2,1  −  λ x W  ⎜  |||| − v  2 2  |||| 1⎟  (9)
                                                                                       v
                                                        i
                            Wb                   2                            ⎝  2       ⎠
                             ,,v
                               i= 1               , i j
                    算法 1.  多目的属性选择.
                    输入:训练样本 X∈R     n×d ,Y∈R n×c ,参数α,β,λ.
                    输出:平均相关系数 aCC,平均均方根误差 aRMSE:
                    1.   采用算法 2 求解稀疏回归参数矩阵 W∈R          d×c .
                    2.   在原始数据集上,根据得到的 W 进行属性选择,得到新的数据集
                    3.   在新的数据集上,用支持向量回归(SVR)、核岭回归(KRR)进行回归分析,验证属性选择算法的性能

                 2.2   算法优化
                    本节对目标函数进行优化,采用机器学习中常用的求解方法:交替固定变量求导,对目标函数(9)进行求解.
                    1)  为了方便计算,首先将目标函数进行化简.
                    (1)  对目标函数第 1 项有如下变换.
                    首先设置如下变量:
                                               Q  =  [ v y  ; v y 2 ;...; v y  n ]∈  R nc×  ,
                                                     11
                                                          2
                                                                 n
                                                                       ×
                                               G  =  [ v x  ; v x 2 ;...; v x n ]∈  R nd  ,
                                                                 n
                                                          2
                                                     11
                                                         ⎛  v ⎞
                                                         ⎜  1  ⎟
                                                         ⎜  v ⎟
                                                      U  =  ⎜  2  ⎟  ∈  R n× 1 ,
                                                         ⎜  #  ⎟
                                                         ⎜   ⎟
                                                         ⎝  v n ⎠
                 则第 1 项通过如下过程转化:
                                   n                 n
                                                                          −
                                   ∑  v i  || y i  −  i  − xW  || = b  2 ∑  2  || v y i  −  i  − xW  ) || =b  2 2  || Q GW  −  Ub || 2 2  (10)
                                                          (
                                                         i
                                   i=  1            i=  1
   112   113   114   115   116   117   118   119   120   121   122