Page 119 - 《软件学报》2021年第11期
P. 119

许航  等:噪音数据的属性选择算法                                                               3445


                    5.   根据 W 更新 O
                    6.   改变阈值λ,根据λ更新ν
                    7.   t=t+1
                    8.   重复步骤 3~步骤 7,直到目标函数收敛或 t 达到迭代次数时结束

                 3    实   验

                 3.1   数据集和对比方法
                    因为本文提出的算法为属性选择算法,实验将选择属性数目较多的数据集进行研究.实验使用了来自
                 Mulan 的 6 个数据集:Atp1d [23] 、Atp7d [23] 、Scm1d [23] 、Oes10 [23] 、Oes97 [23] 、Rf2 [23] ,其信息如下.
                    •   Atp1d、Atp7d:关于价格预测的机票价格数据集.数据按时间顺序排列.该数据集中的每个样本表示一
                        组来自特定观测日期和出发日期的观测结果.每个样本的输入变量可能是对预测特定起飞日期的机
                        票价格有用的值.每个样本的目标变量是 6 个目标飞行偏好的次日(Atp1d)价格或未来 7 天观察到的最
                        低价格(Atp7d).
                    •   Oes10、Oes97:美国劳工统计局从 1997 年(Oes97)和 2010 年(Oes10)汇编的年度职业就业调查数据集.
                        每一行提供了一个特定的大都市地区中众多就业类型的全职员工的估计数量.
                    •   Scm1d:2010 年供应链管理(TAC SCM)锦标赛中,贸易代理比赛的供应链管理数据集.该数据集包含 16
                        个回归目标,每个目标对应每个模拟产品第 2 天的平均价格.
                    •   Rf2:美国国家气象局在特定地点采集的对未来 48 小时河网流量进行预测的河流流量数据集.该数据
                        集包含了美国密西西比河网络的 8 个站点的每小时流量观测数据.
                    所有数据集的样本数、属性数、标签数详情见表 1.
                                            Table 1    Experimental data set information
                                                   表 1   实验数据集信息
                                            数据集       样本数      属性数      标签数
                                             Atp1d     337      411       6
                                             Atp7d     296      411       6
                                             Scm1d    9 803     280      16
                                             Oes10     403      298      16
                                             Oes97     334      263      16
                                              Rf2     9 125     576       8
                                                                                                   [6]
                    实验采用了 4 种效果比较好的属性选择算法进行对比,并将属性选择前的回归结果作为参照.CSFS 是一
                 种凸半监督属性选择算法,与某些算法相比,它不需要构造图,不需要进行复杂的特征分解.LSG21                               [24] 算法通过
                 建立一个图结构稀疏模型来进行稀疏属性选择.SLRR                   [25] 通过构造系数矩阵的低秩稀疏结构进行属性选择.
                 URAFS [26] 算法是将广义非相关约束和流形学习结合的无监督特征选择方法,能有效地排除冗余属性.
                 3.2   实验设置

                    实验首先利用属性选择方法选取属性,由于本算法为典型的嵌入式属性选择方法,学习器为多元线性回归
                 模型,所以在选取的属性子集上进行回归任务来分析算法性能时,为了避免巧合性,采用其他回归分析的算法
                 (本文采用的 SVR 和 KRR).
                                                                                       3
                                                                                 −3
                    实验采用 10 折交叉验证进行训练/测试,对于参数α,β,取值范围设置在[0.3×10 ,3×10 ]内.
                    对于数据集 Rf2,其存在少量的有缺失值的数据,因为本文算法不考虑缺失值的影响,所以在实验中剔除缺
                 失数据.其次,它的数据量较大,采用 Matlab 并行计算工具箱进行实验,速度依然非常慢.为了解决此问题,在实际
                 操作中,对交叉验证划分的互斥子集进行 2~4 次划分,然后选取最终的样本进行实验(交叉验证法采用的分层采
                 样,能尽量保持数据分布的一致性).对于数据量同样大的 Scm1d 数据集,采取类似的处理方式.
                    实验采用平均相关系数(average correlation coefficient,简称 aCC)和平均均方根误差(average root  mean
   114   115   116   117   118   119   120   121   122   123   124