Page 347 - 《软件学报》2025年第10期

P. 347

4744 软件学报 2025 年第 36 卷第 10 期

5 5 5
4 4 4
3 3 3
2 2 2
1 1 1
0 0 0
−1 −1 −1
−2 −2 −2
−3 −3 −3
−4 −4 −4
−5 −5 −5
−5 0 5 −5 0 5 −5 0 5
(a) τ=0 (b) τ=0.5 (c) τ=0.8
图 3 在包含离群点的交叉类型的集值数据上由 TSFM 取得的超平面

3.2 UCI 数据集上的实验
本节利用非高斯分布的集值对象来测试 TSFM 的分类性能. 从 UCI 数据仓库中选取一些数据集进行了实验.
所选用的数据集如表 2 所示, 这些数据集通常被用来评估分类器的性能. 对于这些数据集, 样本提供了向量的描述
方式而不是集合的描述方式, 这意味着原始样本没有集值表示. 遵循着集值数据的生成方法 [34] , 我们首先计算出
√ √
i
所有样本的第 i 个属性的标准差, 表示为 , 然后构造一个区间 [x i − 3σ i , x i + 3σ i ], 其中, x i 是样本 x 的第个属
σ i
性的值. 对于集值数据, 根据均匀分布从这些区间生成 10 个事例. 因此每个集值对象包含 10 个事例. 通过这种方
式为每个数据集构造出集值数据. 在实验中, 以集值对象所包含事例的均值作为采样点. 如果训练集的样本数超
过 500, 则采样点数设定为 500. 实验中采用一对多的策略来处理多分类问题.

表 2 数据集的统计信息

数据集样本数特征数类别数
Australian 690 14 2
Breast 683 9 2
Heart 270 13 2
Ionosphere 351 34 2
PlaningRelax 182 12 2
Diabetes 768 8 2
India 583 10 2
Sonar 208 60 2
Wireless 2 000 7 4
Segmentation 2 100 19 7
Drug 1 885 12 7
Statlog 2 310 19 7
Cardio 2 126 23 10
Satellite 4 430 36 6

为了比较, 本文也实施了几种集值数据的分类方法, 如二阶锥规划 (second-order cone programming, SOCP) 方
法 [23] , 不确定感知的孪生支持向量机 (uncertainty-aware TSVM, UTSVM) [25] 支持测度机 (support measure machine,
SMM) [27] , 支持函数机 (SFM) [28] , 稀疏近似最近点 (sparse approximation nearest point, SANP) 方法 [35] 以
及正则化协同表示分类 (regularized collaborative representation classification, RCRC) 方法 [36] . 对于 SOCP, 它包含超
C γ i (i = 1,...,n) 以及核超参数 . 为了减少超参数的数目, 遵循文献
参数 , σ [23] 中的策略, 令 γ = γ i (i = 1,...,n)
√
i
且 γ = κ/(1−κ), 超参数 κ 取值于集合{0.1, 0.2, 0.3, 0.4, 0.5}, 超参数 C 取值于集合 {10 ,i = −3,−2,...,2,3}. 对于
λ 1 λ 2 和 , 本文根据文献
SANP, 它包含 3 个超参数 , λ 3 [35] 中的方案调整这些超参数. 对于 RCRC, 它包含超参数

342 343 344 345 346 347 348 349 350 351 352