Page 465 - 《软件学报》2024年第6期
P. 465
胡凯 等: 基于端到端深度神经网络和图搜索的 OCT 图像视网膜层边界分割方法 3041
爆炸等问题, 有效地保护了网络的深层特征. 因此, 本文以连续的若干残差块为单个阶段, 并以其为基础构成 AGR-Net
的骨干结构, 能够避免梯度消失或爆炸等一系列由于网络加深所导致的网络退化问题, 且残差块中的恒等映射也
极大程度地保护了特征提取的完整性.
全局特征模块: 图像信息的充分提取对于待定像素的分类具有关键性的作用, 尤其对于视网膜层边界而言, 判
断其属于某一视网膜层结构时则需要结合若干方向临近像素的语义信息, 即上下文信息. 从 OCT 图像中可以发
现, 视网膜层往往以水平的方式贯穿全图, 提取图像的全局上下文信息能够更好地建模视网膜层的水平连续性. 考
虑到循环神经网络的特征输出具有全局化表示的特点, 其在进行特征提取的过程中, 通过保存每一步的信息以调
整下一步, 从而保证均考虑了整个图像的激活. 基于循环神经网络的这一优势, 本文设计了用于提取全局上下文信
息的全局特征模块 (GFM). 由于 OCT 图像中的视网膜层在一般情况下并非始终保持水平, 且循环神经网络在提取
特征时具有时序性, 因此 GFM 由 4 个门控循环单元 (gated recurrent units, GRU) 构成, 它们分别在水平和垂直上
以双向形式对图像进行扫描, 实现从 4 个方向以全局的方式获取视网膜 OCT 图像的上下文信息. 此外, GRU 能够
较好地平衡内存使用和计算能力. 具体而言, GFM 中 4 个并行的 GRU 分别处理 4 个扫描方向, 输入的 OCT 图像
被转化重组为 4 个不同的 1×1×n 的序列, 并输入至对应的 GRU 中, 将得到的输出序列转化为 4 张特征图, 理论上
每张特征图所包含的特征均不同, 将四者组合便得到了包含全局上下文信息的特征图序列.
通道注意力模块: 由于全局特征模块从不同方向对图像信息进行了表示, 经全局特征模块提取后的特征在通
道维度必然存在不同的视网膜层相关性. 为了使网络更专注于挖掘视网膜 OCT 图像中与层边界相关的显著性信
息, 即充分利用视网膜层结构的强相关特征, 通道注意力模块 (CAM) 通过在通道维度计算并生成通道注意力矩
阵, 即生成对应的通道权重概率图, 从而建模任意通道之间的关系. 将该概率图加权至 CAM 的输入特征图上即可
得到注意力图, 从而选择性地强调与层边界相关的通道信息并抑制无关的通道信息. 本文将通道注意力模块与连
续的两个全局特征模块串行组合并集成到主干网络中以有效地实现视网膜层特征的提取和增强.
图 4 为本文提出的 AGR-Net 的具体细节. 对任意输入的 OCT 图像, 首先通过一个卷积层将其 4 倍下采样, 为
了在网络提取图像特征的过程中保留空间信息, 该下采样是 AGR-Net 中唯一降低图像分辨率的步骤. 经下采样的
图像再经过网络的 4 个阶段, 这 4 个阶段均由残差块 (每两个卷积层加跳跃连接组成一个残差层)、全局特征模块
和通道注意力模块组成, 各个阶段的残差块的数目分别为 3、4、6 和 3, 而全局特征模块和通道注意力模块在 4
阶段中的跳跃连接在每两个残差层之间, 且
个阶段中的数目都被设置为 2 和 1. 值得注意的是, 第 和
4
GFM
CAM 被串行组合嵌入在 4 个阶段中以充分提取 OCT 图像中的层边界特征. 由于在上述特征提取的过程中图像尺
寸仅缩小为原图的 1/4, 采样倍数较小, 因此在网络的最后采用转置卷积进行 4 倍上采样后直接输出结果.
2.3 细分割-图搜索算法
一般情况下, OCT 图像中的视网膜层边界是近似水平连续的, 即使对于出现视网膜层形变的眼底疾病患者,
连续性也很难被改变. 这类连续性约束在神经网络提取 OCT 图像特征的过程中无法被考虑, 因此视网膜层分割结
果中容易出现如图 5(a) 中的小的孤立区域或孔洞, 若直接使用神经网络得到的候选边界作为最终的视网膜层边
界, 则会出现如图 5(b) 中边界不连续的情况. 视网膜层的不连续往往以个别孤立区域或孔洞的形式存在, 为了消
除该现象, 本文通过图搜索算法对粗分割结果进一步处理, 从而得到层边界连续的细分割结果.
Graph search algorithm
(a) 粗分割结果图 (b) 候选边界图 (c) 三邻域连通有向图示例 (d) 细分割结果图
图 5 细分割处理流程
图论中, 有向图和无向图是描述实际问题的一种有效方式, 相比于无向图而言, 有向图的优势在于其连接任意
节点的边都具有方向, 能够更有效地表示节点间的不对称关系. 本文在对视网膜层分割结果建立图模型的过程中,