Page 350 - 《软件学报》2025年第10期

P. 350

梁志贞等: 面向集值数据的孪生支持函数机 4747

换的图像. 从图 6 可知, SANP 并不优于其他方法, 这是因为变换后的图像包含扭曲的图像. 由于 TSFM 采用了弹
球损失函数和测度的总变分, 所以它能取得好的实验结果. 实验结果表明在处理具有不确定性 (扭曲和变形) 的集
值数据上 TSFM 是有效的.

10
SANP SFM 18 SANP SFM
9 RCRC UTSVM RCRC UTSVM
SOCP TSFM 16 SOCP TSFM
8 SMM SMM
14
7 6 12
错误率 (%) 5 4 错误率 (%) 10 8

3 6
2 4
1 2
0 0
10 20 30 10 20 30
单个集值对象中图像的数目 (2 vs. 3) 单个集值对象中图像的数目 (2 vs. 3)
(a) 在旋转数字 2 和数字 3 上的结果 (b) 在错切数字 2 和数字 3 上的结果

16 22
SANP SFM SANP SFM
RCRC UTSVM 20 RCRC UTSVM
14 SOCP TSFM SOCP TSFM
SMM 18 SMM
12
16
14
10
错误率 (%) 8 6 错误率 (%) 12
10
4 8 6
4
2
2
0 0
10 20 30 10 20 30
单个集值对象中图像的数目 (4 vs. 9) 单个集值对象中图像的数目 (4 vs. 9)
(c) 在旋转数字 4 和数字 9 上的结果 (d) 在错切数字 4 和数字 9 上的结果
图 6 不同方法在手写体数字图像上的错误率

3.4 医学图像集上的实验
本节在 4 个医学图像集 [38] 上构建了集值数据并测试了 TSFM 在集值对象包含少量高维事例情况下的分类性
能. 所用的数据集是 780 幅图像的乳腺图像集 (Breast), 4 708 幅图像的肺炎图像集 (Pneumonia), 1 633 幅图像的结
节数据集 (Nodule) 以及 1 759 幅图像的 Synapse 数据集. 在图像数据集上使用深度学习模型取得的抽象特征而不
是原始特征通常能改善模型的性能. 为此, 我们利用预训练的卷积神经网络提取图像的抽象特征, 即利用
7×7×512 的张量形式. 为了减少计
ResNet18 网络的 RES5B-RELU 层作为输出结果. 这样每幅图像的特征表示为
算量, 对张量表示的特征沿第 1 个轴执行平均运算, 沿着第 3 个轴对特征进行下采样. 这样处理之后张量的尺寸为
1×7×512/4, 可简化为 7×128 的矩阵形式. 这样把每幅图像看作 7 个 128 维的事例从而形成集值数据. 我们随机
选择 70% 的样本构成训练集, 其他图像作为测试集. 对肺炎数据集, 我们随机选择 300 幅图像来训练公式 (23) 和
公式 (24) 的模型, 并应用定理 4 和定理 5 来删除非支持向量. 随后利用 TSFM 的支持向量对应的采样点来训练公
式 (13) 和公式 (14) 的模型. 表 5 表示了在 4 个医学图像集上的实验结果. 实验结果取自 10 次运行的平均值.
从表 5 可看出 SFM 并不优于 TSFM, 这是因为 SFM 通常比 TSFM 提供更稀疏的支持向量. 从表 5 可知
TSFM 在这些数据集上产生了最佳性能. 在这些方法中, SFM 和 TSFM 是基于采样的方法. SANP、RCRC、SMM
和 UTSVM 考虑了图像的所有表示形式. 如果图像的表示包含冗余特征, 这些冗余特征将会影响分类器的性能.

345 346 347 348 349 350 351 352 353 354 355