Page 302 - 《软件学报》2021年第12期
P. 302
3966 Journal of Software 软件学报 Vol.32, No.12, December 2021
效果.图 4 中的残差单元首先通过 1×1 的卷积操作对输入数据进行降维处理,在输出之前,再通过 1×1 的卷积进
行还原.这样,在保证精度的前提下有效地降低网络计算量.
3.3 图像特征提取
分割得到图像病灶区域后,本文对病灶区域提取 6 种包括形状及纹理特征,分别为一阶统计量(first order
features)、形状(shape)、灰度共生矩阵(gray level co-occurrence matrix,简称 GLCM)、灰度区域大小矩阵(gray
level size zone matrix,简称 GLSZM)、灰度游程矩阵(gray level run length matrix,简称 GLRLM)以及局部灰度差
分矩阵(neighbouring gray tone difference matrix,简称 NGTDM),共 97 个特征,详见附录 A.
First Order Features 通过获取熵、灰度最小值以及灰度值方差等特征统计生成 MR 图像中肿瘤区域像素点
的灰度值分布;Shape 描述 MR 图像中肿瘤区域的体积、面积以及最大直径;GLCM,GLSZM,GLRLM 以及
NGTDM 根据图像灰度在空间上的特性及相互之间的关系,描述 MR 图像中肿瘤区域的纹理特征.
3.4 特征筛选
据第 3.3 节描述提取的图像特征中,存在贡献较小及冗余特征,这些特征会加大模型训练及特征分析时间,
增加模型的学习难度.因此,需对提取的肿瘤区域特征进行筛选,以减少特征个数,降低模型过拟合风险,提高模
型的精确度,并减少模型训练时间.
特征筛选主要包括特征子集的搜索和评价过程.该方法的思想为:先产生一个特征子集,然后对其进行评
价,根据评价结果选择下一个特征子集并评价.重复上述过程,直到无法找到下一个特征子集为止.详细如下.
(1) 特征子集搜索
特征子集搜索分为前向(forward)搜索、后向(backward)搜索和双向(bidirectional)搜索.本文采用双向搜索方
法选择特征子集.该方法分别从完整特征集的开始和结尾处进行遍历,每一次迭代增加选定的相关特征,同时去
掉无关特征,直到第 N 次迭代增加的特征构成的特征子集评价不如第 N−1 次迭代形成的特征子集评价,或者每
次迭代去掉一个无关特征形成的特征子集评价明显下降为止.
(2) 特征子集评价
本文利用信息增益(information gain,简称 IG)作为评价特征子集的方法.信息增益公式如公式(1)所示:
V | D v |
IG ()A = H ( )D − ∑ H (D v ) (1)
v= 1 | D |
1
V
2
其中,假设根据特征子集 A 将特征集 D 分为 V 个子集{D ,D ,…,D },H(⋅)表示信息熵函数(information entropy),
公式如公式(2)所示:
m
() =−∑
HD P i log P i (2)
2
i= 1
信息增益 IG(A)越大,表示该特征子集包含的有用特征越多,训练随机森林分类器效果越好.
4 实验结果与分析
4.1 实验设置
• 实验数据集
根据宫颈癌细胞病理类型,可将宫颈癌分为宫颈鳞癌、宫颈腺癌、宫颈鳞腺癌、腺样囊性癌、小细胞癌和
[2]
淋巴癌 [38] .其中,宫颈鳞癌病例数约占宫颈癌病例数的 85% .根据肿瘤的恶性程度,不同类型的宫颈癌又可以细
分为高分化、中分化以及低分化 [39] .实验数据由 85 位鳞癌 IIB~IVA 期患者(其中,高分化 3 例,中分化 75 例,低
分化 7 例,共 1 785 幅原始 MR 图像及对应标签数据)的三维 T2 权重 MR 图像(详见表 2)组成.
根据患者在临床上接受放化疗治疗的远期效果,将 85 例病例分为不完全缓解组和完全缓解组.其中,不完
全缓解组 40 例(共 840 幅图像,672 幅图像用于训练,168 幅图像用于测试),完全缓解组 45 例(共 945 幅图像,756
幅图像用于训练,189 幅图像用于测试).本文的所有实验(包括各对比算法)均在上述实验数据集中进行.