Page 120 - 《软件学报》2021年第11期
P. 120

3446                                Journal of Software  软件学报 Vol.32, No.11, November 2021

                 square error,简称 aRMSE)度量模型的性能.实验结果用指标±标准差表示,且都采用百分数形式.其中,平均相关
                 系数反映了响应变量和自变量之间的线性相关性所引起的波动大小,值越大,线性回归越好,表示响应变量与自
                 变量(本文的自变量从属性选择后的新数据集获取)之间的线性相关程度越高.平均均方根误差用来衡量预测值
                 与真实值之间的误差,值越小越好,表示模型准确度越高.简而言之,这两个指标从两个方面衡量算法的性能:
                 (1)  属性选择后的属性与响应变量的相关性(属性选择算法应该尽量选择与研究问题相关的特征);(2)  属性选
                 择后的属性子集对回归模型预测正确性的影响.
                 3.3   实验结果和分析
                    实验采用 10 折交叉验证进行训练/测试,比较进行属性选择前后的效果.表 2(使用 SVR 验证属性选择算
                 法)、表 3(使用 KRR 验证属性选择算法)为使用属性选择前以及使用各类算法进行属性选择后在 aCC 指标上
                 的比较结果.
                                             Table 2    aCC comparison results (SVR)
                                                  表 2  aCC 对比结果(SVR)
                                                                  数据集
                          算法
                                       Atp1d      Atp7d      Scm1d      Oes10      Oes97       Rf2
                         LSG21        92.75±2.27  85.61±8.06  90.35±3.82  93.00±4.53  86.68±4.82  89.36±2.03
                         SLRR         92.86±3.06  84.05±8.47  89.95±4.17  92.83±4.48  84.20±9.49  89.41±2.50
                         URAFS        92.42±3.90  85.28±8.53  90.12±2.31  91.75±7.26  85.48±6.88  89.13±2.82
                        Proposed      94.40±1.48  89.04±3.44  91.42±2.96  94.29±2.61  89.55±3.76  91.58±2.81
                     No feature selection   91.73±3.77  81.97±8.60  89.39±2.87  90.50±5.00  83.28±10.22  88.55±1.88

                                             Table 3    aCC comparison results (KRR)
                                                  表 3  aCC 对比结果(KRR)
                                                                  数据集
                         算法
                                      Atp1d      Atp7d      Scm1d       Oes10       Oes97       Rf2
                        CSFS        90.90±3.82  81.73±14.44  85.32±4.95  64.62±25.52  51.31±26.27  64.06±9.58
                        LSG21       90.79±3.78  80.26±16.20  86.67±4.14  67.99±21.62  54.52±21.04  63.28±10.02
                        SLRR        91.43±4.17  84.88±8.71  85.59±6.26  64.53±23.08  55.60±25.54  63.32±11.52
                        URAFS       91.18±3.30  82.17±11.03  84.41±4.93  61.96±24.96  53.00±21.71  64.50±14.91
                       Proposed     92.75±1.59  85.94±7.24  88.05±3.27  70.01±22.94  59.91±21.30  67.04±12.99
                    No feature selection   90.49±3.37  79.73±16.13  84.29±6.82  58.93±27.31  49.95±19.98  57.40±7.39
                    从表 2 中可以看出,在这 6 个数据集上,进行属性选择后的实验结果比直接进行回归时更好.进行属性选择
                 时,本算法的 aCC 高于对比算法.具体来说,
                    •   在数据集 Atp1d 上,本算法的 aCC 平均值为 94.40%,分别比其他对比算法高出 1.13%,1.65%,1.54%,
                        1.98%;
                    •   在数据集 Atp7d 上,本算法取得了最高的 aCC 平均值 89.04%,分别比其他对比算法高出 3.72%,3.43%,
                        4.99%,3.76%;
                    •   在数据集 Scm1d 上,本算法的结果最好,分别比其他对比算法高出 1.25%,1.07%,1.47%,1.30%;
                    •   在数据集 Oes10 上,本算法的 aCC 平均值为 94.29%,分别比其他对比算法高出 1.31%,1.29%,1.46%,
                        2.54%;
                    •   在数据集 Oes97 上,本算法的 aCC 平均值分别比其他对比算法高出 2.50%,2.87%,5.35%,4.07%;
                    •   在数据集 Rf2 上,本算法的 aCC 平均值为 91.58%,分别比其他对比算法高出 2.54%,2.22%,2.17%,
                        2.45%.
                    从表 3 可以看出,由于两个回归算法性能的差别,在这 6 个数据集上,用 SVR 进行回归的效果要更好.但是在
                 同一种回归算法、同一数据集的实验环境中,属性选择后的结果更好,且本算法的指标值略高于其他对比算法.
                    以上实验结果显示,在本算法获取的子集上训练的回归模型是最稳定的.意味着本算法选取的属性与响应
                 变量的相关性更强,更贴合相应的数据集所代表的研究内容.这是因为本算法保留了样本的原始内部结构,使得
   115   116   117   118   119   120   121   122   123   124   125