Page 120 - 《软件学报》2021年第11期
P. 120
3446 Journal of Software 软件学报 Vol.32, No.11, November 2021
square error,简称 aRMSE)度量模型的性能.实验结果用指标±标准差表示,且都采用百分数形式.其中,平均相关
系数反映了响应变量和自变量之间的线性相关性所引起的波动大小,值越大,线性回归越好,表示响应变量与自
变量(本文的自变量从属性选择后的新数据集获取)之间的线性相关程度越高.平均均方根误差用来衡量预测值
与真实值之间的误差,值越小越好,表示模型准确度越高.简而言之,这两个指标从两个方面衡量算法的性能:
(1) 属性选择后的属性与响应变量的相关性(属性选择算法应该尽量选择与研究问题相关的特征);(2) 属性选
择后的属性子集对回归模型预测正确性的影响.
3.3 实验结果和分析
实验采用 10 折交叉验证进行训练/测试,比较进行属性选择前后的效果.表 2(使用 SVR 验证属性选择算
法)、表 3(使用 KRR 验证属性选择算法)为使用属性选择前以及使用各类算法进行属性选择后在 aCC 指标上
的比较结果.
Table 2 aCC comparison results (SVR)
表 2 aCC 对比结果(SVR)
数据集
算法
Atp1d Atp7d Scm1d Oes10 Oes97 Rf2
LSG21 92.75±2.27 85.61±8.06 90.35±3.82 93.00±4.53 86.68±4.82 89.36±2.03
SLRR 92.86±3.06 84.05±8.47 89.95±4.17 92.83±4.48 84.20±9.49 89.41±2.50
URAFS 92.42±3.90 85.28±8.53 90.12±2.31 91.75±7.26 85.48±6.88 89.13±2.82
Proposed 94.40±1.48 89.04±3.44 91.42±2.96 94.29±2.61 89.55±3.76 91.58±2.81
No feature selection 91.73±3.77 81.97±8.60 89.39±2.87 90.50±5.00 83.28±10.22 88.55±1.88
Table 3 aCC comparison results (KRR)
表 3 aCC 对比结果(KRR)
数据集
算法
Atp1d Atp7d Scm1d Oes10 Oes97 Rf2
CSFS 90.90±3.82 81.73±14.44 85.32±4.95 64.62±25.52 51.31±26.27 64.06±9.58
LSG21 90.79±3.78 80.26±16.20 86.67±4.14 67.99±21.62 54.52±21.04 63.28±10.02
SLRR 91.43±4.17 84.88±8.71 85.59±6.26 64.53±23.08 55.60±25.54 63.32±11.52
URAFS 91.18±3.30 82.17±11.03 84.41±4.93 61.96±24.96 53.00±21.71 64.50±14.91
Proposed 92.75±1.59 85.94±7.24 88.05±3.27 70.01±22.94 59.91±21.30 67.04±12.99
No feature selection 90.49±3.37 79.73±16.13 84.29±6.82 58.93±27.31 49.95±19.98 57.40±7.39
从表 2 中可以看出,在这 6 个数据集上,进行属性选择后的实验结果比直接进行回归时更好.进行属性选择
时,本算法的 aCC 高于对比算法.具体来说,
• 在数据集 Atp1d 上,本算法的 aCC 平均值为 94.40%,分别比其他对比算法高出 1.13%,1.65%,1.54%,
1.98%;
• 在数据集 Atp7d 上,本算法取得了最高的 aCC 平均值 89.04%,分别比其他对比算法高出 3.72%,3.43%,
4.99%,3.76%;
• 在数据集 Scm1d 上,本算法的结果最好,分别比其他对比算法高出 1.25%,1.07%,1.47%,1.30%;
• 在数据集 Oes10 上,本算法的 aCC 平均值为 94.29%,分别比其他对比算法高出 1.31%,1.29%,1.46%,
2.54%;
• 在数据集 Oes97 上,本算法的 aCC 平均值分别比其他对比算法高出 2.50%,2.87%,5.35%,4.07%;
• 在数据集 Rf2 上,本算法的 aCC 平均值为 91.58%,分别比其他对比算法高出 2.54%,2.22%,2.17%,
2.45%.
从表 3 可以看出,由于两个回归算法性能的差别,在这 6 个数据集上,用 SVR 进行回归的效果要更好.但是在
同一种回归算法、同一数据集的实验环境中,属性选择后的结果更好,且本算法的指标值略高于其他对比算法.
以上实验结果显示,在本算法获取的子集上训练的回归模型是最稳定的.意味着本算法选取的属性与响应
变量的相关性更强,更贴合相应的数据集所代表的研究内容.这是因为本算法保留了样本的原始内部结构,使得