Page 123 - 《软件学报》2021年第11期
P. 123

许航  等:噪音数据的属性选择算法                                                               3449


                 为在同一个数据集上,所有算法 aRMSE 的平均值.
                    从两表中可以看出,无论在哪种回归任务中,进行属性选择后的模型正确性要更高.进行属性选择后,本算
                 法在各个数据集上的 aRMSE 值均为最小,比如在表 4 中,其值分别为 0.65%±0.11%,0.70%±0.10%,0.29%±0.04%,
                 1.25%±0.39%,1.61%±0.43%,0.56%±0.07%,低于各个数据集上所有算法 aRMSE 值的平均值.在表 5 中情况一致.
                 这反映出本算法对应的回归模型正确性高,实际上表明,学习器在本算法选择的属性子集上更容易完成学习任
                 务.这是因为本算法通过多种方式解决了噪音问题,即:不仅通过正则项修正了噪音带来的影响,还通过考虑数
                 据自身相对于模型的置信度,采用了特殊的训练方式来避免大部分噪音点进入训练.
                                            Table 4    aRMSE comparison results (SVR)
                                                表 4  aRMSE 对比结果(SVR)
                                                                  数据集
                             算法
                                         Atp1d      Atp7d     Scm1d     Oes10     Oes97      Rf2
                            CSFS        0.70±0.11  0.73±0.06  0.31±0.04  1.30±0.39  1.62±0.46  0.63±0.07
                            LSG21       0.70±0.12  0.72±0.16  0.30±0.07  1.29±0.42  1.64±0.49  0.62±0.06
                            SLRR        0.70±0.14  0.72±0.10  0.31±0.07  1.27±0.50  1.64±0.52  0.64±0.06
                            URAFS       0.69±0.12  0.73±0.15  0.31±0.04  1.29±0.41  1.66±0.45  0.63±0.08
                           Proposed     0.65±0.11  0.70±0.10  0.29±0.04  1.25±0.39  1.61±0.43  0.56±0.07
                        No feature selection   0.74±0.15  0.83±0.12  0.32±0.04  1.85±1.46  1.99±1.01  0.68±0.06
                            Average     0.70±0.13  0.74±0.12  0.31±0.05  1.38±0.60  1.69±0.56  0.63±0.07
                                           Table 5    aRMSE comparison results (KRR)
                                                表 5  aRMSE 对比结果(KRR)
                                                                  数据集
                             算法
                                         Atp1d      Atp7d     Scm1d     Oes10     Oes97      Rf2
                            CSFS        0.78±0.10  0.80±0.25  0.38±0.06  3.02±1.95  3.65±2.15  1.44±0.22
                            LSG21       0.79±0.11  0.83±0.28  0.37±0.09  2.89±2.49  3.46±1.85  1.41±0.23
                            SLRR        0.78±0.17  0.76±0.10  0.38±0.09  3.03±2.11  3.32±2.13  1.43±0.31
                            URAFS       0.80±0.17  0.84±0.23  0.40±0.06  3.10±1.81  3.61±2.00  1.40±0.36
                           Proposed     0.73±0.09  0.74±0.13  0.35±0.06  2.73±2.16  3.11±2.30  1.32±0.32
                        No feature selection   0.80±0.09  0.86±0.26  0.39±0.08  3.23±1.86  3.67±2.18  1.59±0.19
                            Average     0.78±0.12  0.81±0.21  0.38±0.07  3.00±2.06  3.47±2.10  1.43±0.27


                 4    结束语

                    本文提出了一种在样本自增长的训练模式下,考虑数据间固有联系并进行稀疏学习的属性选择算法.本算
                 法通过考虑样本的置信度,判断样本是否加入下一次迭代过程.在整个优化过程中,优先选择置信度高的样本进
                 行训练,同时使训练样本数量自动增长.在训练过程中,在选择非冗余属性的同时,保留数据间的相关关系.并且
                 通过特殊的训练模式和 l 2,1 正则化项避免离群点等噪音对模型的影响,使整个算法更具有鲁棒性.与现有算法比
                 较的实验结果表明,本算法能有效地选择重要属性.在今后的研究中,可考虑通过改变正则化项或采用稀疏的低
                 秩约束扩展模型,以达到更好的效果.

                 References:
                 [1]    Ludwig N, Feuerriegel S, Neumann D. Putting big data analytics to work: Feature selection for forecasting electricity prices using
                     the LASSO and random forests. Journal of Decision Systems, 2015,24(1):19−36.
                 [2]    Liu Y, Cao JJ, Diao XC, Zhou X. Survey on stability of feature selection. Ruan Jian Xue Bao/Journal of Software, 2018,29(9):
                     2559−2579 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5394.htm [doi: 10.13328/j.cnki.jos.005394]
                 [3]    Chu B, Li ZS, Zhang ML, Yu HH. Research on improvements of feature selection using forest optimization algorithm. Ruan Jian
                     Xue Bao/Journal of Software, 2018, 29(9):2547−2558 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5395.
                     htm [doi: 10.13328/j.cnki.jos.005395]
   118   119   120   121   122   123   124   125   126   127   128