Page 347 - 《软件学报》2025年第10期
P. 347

4744                                                      软件学报  2025  年第  36  卷第  10  期



                  5                             5                             5
                  4                             4                             4
                  3                             3                             3
                  2                             2                             2
                  1                             1                             1
                  0                             0                             0
                 −1                            −1                             −1
                 −2                            −2                             −2
                 −3                            −3                             −3
                 −4                            −4                             −4
                 −5                            −5                             −5
                  −5           0           5     −5          0           5     −5           0           5
                             (a) τ=0                       (b) τ=0.5                     (c) τ=0.8
                                  图 3 在包含离群点的交叉类型的集值数据上由 TSFM 取得的超平面

                  3.2   UCI 数据集上的实验
                    本节利用非高斯分布的集值对象来测试               TSFM 的分类性能. 从    UCI 数据仓库中选取一些数据集进行了实验.
                 所选用的数据集如表       2 所示, 这些数据集通常被用来评估分类器的性能. 对于这些数据集, 样本提供了向量的描述
                 方式而不是集合的描述方式, 这意味着原始样本没有集值表示. 遵循着集值数据的生成方法                              [34] , 我们首先计算出
                                                                      √      √
                                                                                                    i
                 所有样本的第     i 个属性的标准差, 表示为  , 然后构造一个区间            [x i −  3σ i , x i +  3σ i ], 其中,   x i  是样本  x 的第   个属
                                                σ i
                 性的值. 对于集值数据, 根据均匀分布从这些区间生成 10 个事例. 因此每个集值对象包含                         10  个事例. 通过这种方
                 式为每个数据集构造出集值数据. 在实验中, 以集值对象所包含事例的均值作为采样点. 如果训练集的样本数超
                 过  500, 则采样点数设定为    500. 实验中采用一对多的策略来处理多分类问题.

                                                   表 2 数据集的统计信息

                                        数据集          样本数          特征数         类别数
                                       Australian      690         14           2
                                        Breast         683          9           2
                                        Heart          270         13           2
                                      Ionosphere       351         34           2
                                      PlaningRelax     182         12           2
                                       Diabetes        768          8           2
                                        India          583         10           2
                                        Sonar          208         60           2
                                       Wireless       2 000         7           4
                                      Segmentation    2 100        19           7
                                        Drug          1 885        12           7
                                        Statlog       2 310        19           7
                                        Cardio        2 126        23           10
                                       Satellite      4 430        36           6

                    为了比较, 本文也实施了几种集值数据的分类方法, 如二阶锥规划 (second-order cone programming, SOCP) 方
                 法  [23] , 不确定感知的孪生支持向量机      (uncertainty-aware TSVM, UTSVM) [25] 支持测度机  (support measure machine,
                 SMM) [27] , 支持函数机  (SFM)  [28] , 稀疏近似最近点 (sparse approximation nearest point, SANP) 方法  [35] 以
                 及正则化协同表示分类 (regularized collaborative representation classification, RCRC) 方法  [36] . 对于  SOCP, 它包含超
                     C γ i (i = 1,...,n)  以及核超参数  . 为了减少超参数的数目, 遵循文献
                 参数  ,                        σ                             [23] 中的策略, 令   γ = γ i (i = 1,...,n)
                      √
                                                                                     i
                 且  γ =  κ/(1−κ), 超参数  κ 取值于集合{0.1, 0.2, 0.3, 0.4, 0.5}, 超参数  C  取值于集合  {10 ,i = −3,−2,...,2,3}. 对于
                                      λ 1 λ 2  和  , 本文根据文献
                 SANP, 它包含  3  个超参数  ,      λ 3           [35] 中的方案调整这些超参数. 对于         RCRC, 它包含超参数
   342   343   344   345   346   347   348   349   350   351   352