Page 302 - 《软件学报》2021年第12期
P. 302

3966                                Journal of Software  软件学报 Vol.32, No.12, December 2021

         效果.图 4 中的残差单元首先通过 1×1 的卷积操作对输入数据进行降维处理,在输出之前,再通过 1×1 的卷积进
         行还原.这样,在保证精度的前提下有效地降低网络计算量.
         3.3   图像特征提取
             分割得到图像病灶区域后,本文对病灶区域提取 6 种包括形状及纹理特征,分别为一阶统计量(first order
         features)、形状(shape)、灰度共生矩阵(gray level  co-occurrence  matrix,简称 GLCM)、灰度区域大小矩阵(gray
         level size zone matrix,简称 GLSZM)、灰度游程矩阵(gray level run length matrix,简称 GLRLM)以及局部灰度差
         分矩阵(neighbouring gray tone difference matrix,简称 NGTDM),共 97 个特征,详见附录 A.
             First Order Features 通过获取熵、灰度最小值以及灰度值方差等特征统计生成 MR 图像中肿瘤区域像素点
         的灰度值分布;Shape 描述 MR 图像中肿瘤区域的体积、面积以及最大直径;GLCM,GLSZM,GLRLM 以及
         NGTDM 根据图像灰度在空间上的特性及相互之间的关系,描述 MR 图像中肿瘤区域的纹理特征.
         3.4   特征筛选
             据第 3.3 节描述提取的图像特征中,存在贡献较小及冗余特征,这些特征会加大模型训练及特征分析时间,
         增加模型的学习难度.因此,需对提取的肿瘤区域特征进行筛选,以减少特征个数,降低模型过拟合风险,提高模
         型的精确度,并减少模型训练时间.
             特征筛选主要包括特征子集的搜索和评价过程.该方法的思想为:先产生一个特征子集,然后对其进行评
         价,根据评价结果选择下一个特征子集并评价.重复上述过程,直到无法找到下一个特征子集为止.详细如下.
             (1)  特征子集搜索
             特征子集搜索分为前向(forward)搜索、后向(backward)搜索和双向(bidirectional)搜索.本文采用双向搜索方
         法选择特征子集.该方法分别从完整特征集的开始和结尾处进行遍历,每一次迭代增加选定的相关特征,同时去
         掉无关特征,直到第 N 次迭代增加的特征构成的特征子集评价不如第 N−1 次迭代形成的特征子集评价,或者每
         次迭代去掉一个无关特征形成的特征子集评价明显下降为止.
             (2)  特征子集评价
             本文利用信息增益(information gain,简称 IG)作为评价特征子集的方法.信息增益公式如公式(1)所示:
                                                     V  | D v  |
                                        IG ()A =  H ( )D −  ∑  H (D v )                       (1)
                                                     v= 1 | D |
                                                      1
                                                             V
                                                        2
         其中,假设根据特征子集 A 将特征集 D 分为 V 个子集{D ,D ,…,D },H(⋅)表示信息熵函数(information entropy),
         公式如公式(2)所示:
                                                    m
                                              () =−∑
                                            HD       P i  log P i                             (2)
                                                         2
                                                   i= 1
             信息增益 IG(A)越大,表示该特征子集包含的有用特征越多,训练随机森林分类器效果越好.
         4    实验结果与分析
         4.1   实验设置
             •   实验数据集
             根据宫颈癌细胞病理类型,可将宫颈癌分为宫颈鳞癌、宫颈腺癌、宫颈鳞腺癌、腺样囊性癌、小细胞癌和
                                                       [2]
         淋巴癌   [38] .其中,宫颈鳞癌病例数约占宫颈癌病例数的 85% .根据肿瘤的恶性程度,不同类型的宫颈癌又可以细
         分为高分化、中分化以及低分化            [39] .实验数据由 85 位鳞癌 IIB~IVA 期患者(其中,高分化 3 例,中分化 75 例,低
         分化 7 例,共 1 785 幅原始 MR 图像及对应标签数据)的三维 T2 权重 MR 图像(详见表 2)组成.
             根据患者在临床上接受放化疗治疗的远期效果,将 85 例病例分为不完全缓解组和完全缓解组.其中,不完
         全缓解组 40 例(共 840 幅图像,672 幅图像用于训练,168 幅图像用于测试),完全缓解组 45 例(共 945 幅图像,756
         幅图像用于训练,189 幅图像用于测试).本文的所有实验(包括各对比算法)均在上述实验数据集中进行.
   297   298   299   300   301   302   303   304   305   306   307