Page 123 - 《软件学报》2021年第11期
P. 123
许航 等:噪音数据的属性选择算法 3449
为在同一个数据集上,所有算法 aRMSE 的平均值.
从两表中可以看出,无论在哪种回归任务中,进行属性选择后的模型正确性要更高.进行属性选择后,本算
法在各个数据集上的 aRMSE 值均为最小,比如在表 4 中,其值分别为 0.65%±0.11%,0.70%±0.10%,0.29%±0.04%,
1.25%±0.39%,1.61%±0.43%,0.56%±0.07%,低于各个数据集上所有算法 aRMSE 值的平均值.在表 5 中情况一致.
这反映出本算法对应的回归模型正确性高,实际上表明,学习器在本算法选择的属性子集上更容易完成学习任
务.这是因为本算法通过多种方式解决了噪音问题,即:不仅通过正则项修正了噪音带来的影响,还通过考虑数
据自身相对于模型的置信度,采用了特殊的训练方式来避免大部分噪音点进入训练.
Table 4 aRMSE comparison results (SVR)
表 4 aRMSE 对比结果(SVR)
数据集
算法
Atp1d Atp7d Scm1d Oes10 Oes97 Rf2
CSFS 0.70±0.11 0.73±0.06 0.31±0.04 1.30±0.39 1.62±0.46 0.63±0.07
LSG21 0.70±0.12 0.72±0.16 0.30±0.07 1.29±0.42 1.64±0.49 0.62±0.06
SLRR 0.70±0.14 0.72±0.10 0.31±0.07 1.27±0.50 1.64±0.52 0.64±0.06
URAFS 0.69±0.12 0.73±0.15 0.31±0.04 1.29±0.41 1.66±0.45 0.63±0.08
Proposed 0.65±0.11 0.70±0.10 0.29±0.04 1.25±0.39 1.61±0.43 0.56±0.07
No feature selection 0.74±0.15 0.83±0.12 0.32±0.04 1.85±1.46 1.99±1.01 0.68±0.06
Average 0.70±0.13 0.74±0.12 0.31±0.05 1.38±0.60 1.69±0.56 0.63±0.07
Table 5 aRMSE comparison results (KRR)
表 5 aRMSE 对比结果(KRR)
数据集
算法
Atp1d Atp7d Scm1d Oes10 Oes97 Rf2
CSFS 0.78±0.10 0.80±0.25 0.38±0.06 3.02±1.95 3.65±2.15 1.44±0.22
LSG21 0.79±0.11 0.83±0.28 0.37±0.09 2.89±2.49 3.46±1.85 1.41±0.23
SLRR 0.78±0.17 0.76±0.10 0.38±0.09 3.03±2.11 3.32±2.13 1.43±0.31
URAFS 0.80±0.17 0.84±0.23 0.40±0.06 3.10±1.81 3.61±2.00 1.40±0.36
Proposed 0.73±0.09 0.74±0.13 0.35±0.06 2.73±2.16 3.11±2.30 1.32±0.32
No feature selection 0.80±0.09 0.86±0.26 0.39±0.08 3.23±1.86 3.67±2.18 1.59±0.19
Average 0.78±0.12 0.81±0.21 0.38±0.07 3.00±2.06 3.47±2.10 1.43±0.27
4 结束语
本文提出了一种在样本自增长的训练模式下,考虑数据间固有联系并进行稀疏学习的属性选择算法.本算
法通过考虑样本的置信度,判断样本是否加入下一次迭代过程.在整个优化过程中,优先选择置信度高的样本进
行训练,同时使训练样本数量自动增长.在训练过程中,在选择非冗余属性的同时,保留数据间的相关关系.并且
通过特殊的训练模式和 l 2,1 正则化项避免离群点等噪音对模型的影响,使整个算法更具有鲁棒性.与现有算法比
较的实验结果表明,本算法能有效地选择重要属性.在今后的研究中,可考虑通过改变正则化项或采用稀疏的低
秩约束扩展模型,以达到更好的效果.
References:
[1] Ludwig N, Feuerriegel S, Neumann D. Putting big data analytics to work: Feature selection for forecasting electricity prices using
the LASSO and random forests. Journal of Decision Systems, 2015,24(1):19−36.
[2] Liu Y, Cao JJ, Diao XC, Zhou X. Survey on stability of feature selection. Ruan Jian Xue Bao/Journal of Software, 2018,29(9):
2559−2579 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5394.htm [doi: 10.13328/j.cnki.jos.005394]
[3] Chu B, Li ZS, Zhang ML, Yu HH. Research on improvements of feature selection using forest optimization algorithm. Ruan Jian
Xue Bao/Journal of Software, 2018, 29(9):2547−2558 (in Chinese with English abstract). http://www.jos.org.cn/1000-9825/5395.
htm [doi: 10.13328/j.cnki.jos.005395]