Page 350 - 《软件学报》2025年第10期
P. 350

梁志贞 等: 面向集值数据的孪生支持函数机                                                           4747


                 换的图像. 从图    6 可知, SANP 并不优于其他方法, 这是因为变换后的图像包含扭曲的图像. 由于 TSFM 采用了弹
                 球损失函数和测度的总变分, 所以它能取得好的实验结果. 实验结果表明在处理具有不确定性 (扭曲和变形) 的集
                 值数据上   TSFM 是有效的.

                          10
                                                SANP  SFM       18                     SANP  SFM
                          9                     RCRC  UTSVM                            RCRC  UTSVM
                                                SOCP  TSFM      16                     SOCP  TSFM
                          8                     SMM                                    SMM
                                                                14
                          7 6                                   12
                         错误率 (%)  5 4                           错误率 (%)  10 8


                          3                                      6
                          2                                      4
                          1                                      2
                          0                                      0
                                  10       20      30                    10      20      30
                                单个集值对象中图像的数目 (2 vs. 3)                 单个集值对象中图像的数目 (2 vs. 3)
                                 (a) 在旋转数字 2 和数字 3 上的结果                (b) 在错切数字 2 和数字 3 上的结果

                          16                                    22
                                                 SANP  SFM                             SANP  SFM
                                                 RCRC  UTSVM    20                     RCRC  UTSVM
                          14                     SOCP  TSFM                            SOCP  TSFM
                                                 SMM            18                     SMM
                          12
                                                                16
                                                                14
                          10
                         错误率 (%)  8 6                           错误率 (%)  12
                                                                10
                          4                                      8 6
                                                                 4
                          2
                                                                 2
                          0                                      0
                                  10       20      30                    10      20      30
                                单个集值对象中图像的数目 (4 vs. 9)                 单个集值对象中图像的数目 (4 vs. 9)
                                 (c) 在旋转数字 4 和数字 9 上的结果                (d) 在错切数字 4 和数字 9 上的结果
                                           图 6 不同方法在手写体数字图像上的错误率

                  3.4   医学图像集上的实验
                    本节在   4  个医学图像集    [38] 上构建了集值数据并测试了 TSFM 在集值对象包含少量高维事例情况下的分类性
                 能. 所用的数据集是      780 幅图像的乳腺图像集 (Breast), 4 708 幅图像的肺炎图像集 (Pneumonia), 1 633 幅图像的结
                 节数据集 (Nodule) 以及 1 759 幅图像的 Synapse 数据集. 在图像数据集上使用深度学习模型取得的抽象特征而不
                 是原始特征通常能改善模型的性能. 为此, 我们利用预训练的卷积神经网络提取图像的抽象特征, 即利用
                                                                             7×7×512 的张量形式. 为了减少计
                 ResNet18 网络的 RES5B-RELU 层作为输出结果. 这样每幅图像的特征表示为
                 算量, 对张量表示的特征沿第         1  个轴执行平均运算, 沿着第      3  个轴对特征进行下采样. 这样处理之后张量的尺寸为
                 1×7×512/4, 可简化为   7×128 的矩阵形式. 这样把每幅图像看作          7  个 128 维的事例从而形成集值数据. 我们随机
                 选择  70%  的样本构成训练集, 其他图像作为测试集. 对肺炎数据集, 我们随机选择 300 幅图像来训练公式                         (23) 和
                 公式  (24) 的模型, 并应用定理    4  和定理  5  来删除非支持向量. 随后利用 TSFM 的支持向量对应的采样点来训练公
                 式  (13) 和公式  (14) 的模型. 表  5 表示了在  4  个医学图像集上的实验结果. 实验结果取自 10 次运行的平均值.
                    从表   5 可看出 SFM 并不优于 TSFM, 这是因为 SFM 通常比 TSFM 提供更稀疏的支持向量. 从表                     5 可知
                 TSFM 在这些数据集上产生了最佳性能. 在这些方法中, SFM 和 TSFM 是基于采样的方法. SANP、RCRC、SMM
                 和 UTSVM 考虑了图像的所有表示形式. 如果图像的表示包含冗余特征, 这些冗余特征将会影响分类器的性能.
   345   346   347   348   349   350   351   352   353   354   355