Page 348 - 《软件学报》2025年第10期

P. 348

梁志贞等: 面向集值数据的孪生支持函数机 4745

, , ,
λ 1 λ 2 λ 3 γ 以及核超参数 σ, 超参数设定为 λ 1 = 0.001,λ 2 = 0.001,λ 3 = 2.5/n 1 , 其中 n 1 是一个集值对象包含的数据
点数目. 对于 SMMs, 它包含超参数 C 和核超参数 σ, 超参数 C 取值于集合 {10 ,i = −3,−2,...,2,3}. 对于 UTSVM,
i
i
它包含超参数 c 1 ,c 2 ,c 3 ,c 4 ,ϵ 以及核超参数 σ, 超参数设定为 c 1 = c 3 ,c 2 = c 4 ,ϵ = 0.5, 超参数 c 1 和 c 2 取值于集合 {10 ,i =
i
−3,−2,...,2,3}. 所有方法中使用的核函数是高斯核函数且核超参数 σ 取值于集合 {10 ,i = −3,−2,...,2,3}.
本文使用五折交叉验证来评估各种算法的性能. 为了选择各种模型的适当超参数, 对训练集进行了额外的五
折交叉验证, 以取得各种方法的最优超参数. 表 3 表示了各种方法在数据集上的实验结果, 实验结果为平均错误率
和标准偏差, 最佳结果以黑体显示. 为了评价 TSFM 的稳健性, 把训练集的每一类标签以一定的比例替换成其他类
的标签, 替换的比例为 5%, 这模拟了标签噪声且在标签噪声下产生离群点. 表 4 表示了各种方法在包含标签噪声
的数据集上的实验结果.

表 3 不同方法在 UCI 数据集上的错误率和标准偏差 (%)

数据集 SANP RCRC SOCP SFM SMM UTSVM TSFM
Australian 16.72±3.55 15.39±3.71 14.51±3.85 14.13±3.46 14.01±2.98 14.62±3.19 13.6±2.32
Breast 4.21±1.22 3.41±1.09 2.89±1.52 2.61±1.29 3.02±1.37 3.57±1.26 2.61±0.73
Heart 30.31±4.78 20.12±4.12 16.70±4.03 16.81±3.41 18.12±3.34 24.25±3.50 16.2±3.46
Ionosphere 4.38±2.03 4.12±3.04 3.79±1.28 3.69±1.32 3.31±1.64 3.95±1.09 3.17±1.26
PlanningRelax 30.12±1.75 29.35±1.85 28.79±1.73 28.3±1.89 28.62±2.11 29.54±1.58 28.56±1.21
Diabetes 27.32±3.51 25.35±3.02 24.32±2.61 23.50±2.71 22.3±2.49 25.68±2.29 22.46±2.35
India 29.45±4.02 28.09±3.42 27.63±3.24 26.71±3.89 26.89±4.02 27.32±3.62 26.1±3.47
Sonar 22.13±4.05 20.78±4.76 20.12±5.15 19.05±5.23 19.78±4.23 20.05±4.24 18.2±4.40
Wireless 3.26±1.21 3.15±1.21 2.92±1.24 2.73±0.89 2.52±2.26 3.03±1.31 2.02±1.32
Segmentation 18.22±4.21 16.72±3.92 15.27±4.16 13.8±3.91 15.66±3.92 16.48±3.49 13.86±3.45
Drug 20.22±3.25 18.21±3.51 16.28±3.41 15.08±3.42 15.22±2.90 18.08±3.53 14.3±3.46
Statlog 10.50±3.80 11.42±3.25 9.78±2.91 9.22±4.01 8.67±3.52 10.51±2.84 8.08±2.45
Cardio 30.27±2.26 27.80±2.45 25.34±4.05 18.23±4.53 18.30±2.81 26.12±2.29 17.5±2.47
Satellite 9.56±1.27 8.47±1.05 7.25±1.89 6.27±1.63 6.34±1.62 7.89±1.86 5.24±2.47

表 4 不同方法在标签噪声为 5% 的数据集上的错误率和标准偏差 (%)

数据集 SANP RCRC SOCP SFM SMM UTSVM TSFM
Australian 18.94±3.23 17.82±3.45 17.32±3.46 17.46±3.35 17.49±2.27 17.45±3.60 16.77±2.47
Breast 7.05±1.46 6.89±1.21 5.62±2.35 5.69±1.47 6.34±1.75 6.80±1.46 4.89±1.27
Heart 34.42±4.26 25.39±4.74 19.52±4.20 18.44±3.72 20.26±3.47 26.73±3.50 18.21±3.63
Ionosphere 6.52±2.42 6.59±3.56 6.89±1.65 6.74±1.59 6.83±1.99 7.06±1.82 6.45±2.42
PlanningRelax 32.25±1.95 31.98±1.42 30.42±1.90 30.56±1.96 30.89±2.42 34.24±1.77 29.92±1.63
Diabetes 28.45±3.64 27.67±3.41 26.83±2.88 26.48±2.89 24.84±2.97 26.45±2.46 24.32±2.86
India 31.55±4.23 30.14±3.67 29.92±3.68 28.34±3.90 28.68±4.34 29.54±4.04 27.42±3.80
Sonar 24.36±4.21 23.05±4.91 22.30±5.62 21.87±5.46 21.62±3.89 23.92±4.92 20.85±4.34
Wireless 5.42±1.33 5.74±1.46 5.08±1.41 5.13±1.24 4.93±2.42 5.23±2.45 4.02±1.64
Segmentation 20.56±4.46 19.26±4.55 17.83±4.42 16.52±3.72 17.39±4.41 18.56±3.97 16.39±3.95
Drug 23.53±3.70 20.54±3.69 19.46±3.55 18.34±3.69 18.59±3.49 20.30±3.46 16.05±3.41
Statlog 13.39±3.93 14.23±3.68 12.25±3.04 12.02±4.24 11.79±3.77 12.56±2.63 10.53±2.96
Cardio 33.46±2.56 31.67±2.34 28.56±4.24 20.45±4.46 22.65±3.08 28.94±2.56 20.36±2.89
Satellite 12.49±1.45 11.43±2.41 10.50±1.88 9.46±1.98 8.60±1.92 9.57±1.95 8.45±2.15

从表 3 可看出, SMM 在 Diabetes 数据集上取得了最佳性能, 而 SFM 在 Breast, PlanningRelax 和 Segmentation
数据集上的错误率最低. TSFM 在大多数数据集上取得了最佳的分类性能. SANP 和 RCRC 没有获得令人满意的结
果, 这是因为我们探索了随机生成的集值对象. 因为集值对象并不服从高斯分布, 所以 UTSVM 并没有在这些数据集
上取得好的分类性能. TSFM 在多类问题上一般优于其他模型, 这是因为 TSFM 采用了弹球损失函数和考虑了样本
的权重. 基于最大间隔的方法如 SFM 和 SMM 会受到交界处数据点的影响, 而 TSFM 侧重关注接近超平面的样本

343 344 345 346 347 348 349 350 351 352 353