Page 314 - 《软件学报》2020年第11期
P. 314
李娜 等:一种基于卷积神经网络的砂岩显微图像特征表示方法 3629
增后的砂岩显微图像数据集类别标注不准确.综合以上考虑,本文选取原图像 1/4 大小的滑动窗口对原砂岩显
微图像进行裁剪,裁剪后子图像大小为 960×768 像素,扩增图像数据量的同时,尽可能保证裁剪前后图像的语义
信息保持不变.
为保证实验的合理性,本文将原砂岩显微图像数据集均分为两部分处理:一部分砂岩显微图像用于 FeRNet
网络的训练,称为 CNN 训练集;另一部分用于不同方法的实验对比,称为验证数据集.对于 CNN 训练集中的每张
砂岩显微图像,滑动窗口沿水平和竖直方向各扫描 10 次,即每张原始砂岩显微图像被裁剪为 100 张新的子图像.
采用图像扩增预处理后,CNN 训练集的图像数量被扩增为原来的 100 倍.对于验证数据集中的砂岩显微图像,滑
动窗口在每张原图像中沿水平和竖直方向各扫描 2 次,故每张原砂岩显微图像被裁剪为 4 张完全无重合的子图
像,保证实验中任意两张砂岩显微子图均不相同.表 3 列出不同设置下砂岩显微图像数据集的详细信息.
Table 3 Number of microscopic sandstone images in different cases
表 3 不同情况下各类砂岩显微图像的数量
图像数量
长石砂岩 岩屑砂岩 石英砂岩 总计
原始数据集 33 206 105 344
CNN训练集 1700 (17×100) 10300 (103×100) 5300 (53×100) 17 300
验证数据集 64 (16×4) 412 (103×4) 208 (52×4) 684
3.2 评测指标
如表 3 所示,本文使用的砂岩显微图像数据集存在类别不平衡问题.为此,本文采用类别比例加权的精确度
和 F1 值作为评测指标,客观地评测不同方法的预测表现.两种评测指标都适用于对不平衡数据预测准确性的评
估.加权的精确度(accuracy)指标计算公式为
n
Accuracy = c × acc ,
∑ N c= 1 c c
n
其中,n c 和 acc c 分别表示第 c 类砂岩显微图像的样本数与分类精度;N 表示砂岩类别总数,本文中 N=3.
加权的 F1 指标的计算公式为
n 2TP
F 1 = c × c ,
∑ N c= 1 c 2TP + c FN + c FP c
n
其中,TP c ,FP c 和 FN c 分别表示第 c 类砂岩显微图像视为正例时的真正例、假正例和假反例样本数.加权的精确
度指标和 F1 指标的取值范围均为[0,1],其值越大,表示分类越准确,特征表示能力越好.
3.3 实验设计
为验证本文 FeRNet 网络对砂岩显微图像的特征表示能力,本文基于第 3.1 节所述的验证数据集进行实验
和分析.针对目标研究问题,本文设计 3 个实验进行验证.本节将对各个实验的详细设置进行描述.
3.3.1 人工定义特征
[5]
针对研究问题 1,本文选取 3 类常用的人工定义特征作为对比:颜色、纹理和基于颗粒形状的特征 .
(1) 颜色特征(RGB、HSV 和 Gray)
颜色特征包括 RGB、HSV 及灰度空间下提取的特征.特征指标包含均值、方差、中位数、众数、值域、
平均绝对偏差、四分位差、平滑度、均一性、熵、偏度、峰值和分形维数等 13 个统计量,所有特征基于砂岩
显微图像的色阶分布直方图计算得到.不同颜色空间下的特征维度分别为 39,39 和 13.
(2) 纹理特征(GLCM 和 Wavelet)
纹理特征包括基于灰度共生矩阵(GLCM)和基于小波变换(Wavelet)的特征,均根据砂岩显微图像的灰度图
像计算得到.基于灰度共生矩阵的图像特征首先计算位移矢量分别为(1,0),(1,1),(0,1)和(−1,1)的 4 个灰度共生矩
阵,并基于归一化的矩阵分别计算能量、熵、对比度和相关性 4 个统计指标.基于小波变换的纹理特征首先将