Page 25 - 《武汉大学学报(信息科学版)》2025年第6期
P. 25
第 50 卷第 6 期 甄 杰等:面向应急通信选址的增强卷积神经网络山顶点快速提取方法 1047
增强 Faster R-CNN 算法对 Faster R-CNN 算 式中, k 0 为基准值,设为 5 表示原图大小使用第 5
法进行的改进如下: 层特征; ω 和 h 分别是 ROI 的长和宽; 256 是数据
1)特征提取网络选用 ResNeSt。特征提取网 集 图 片 输 入 尺 寸 。 假 设 ROI 大 小 为 100×100,
络 有 传 统 的 视 觉 几 何 组 [17] (visual geometry int( P k)=5− 1=4,表 示 此 ROI 应 该 使 用 第 4 层
group,VGG)和 残 差 网 络 [18] (residual network, 特征。
ResNet)等,而受 ResNeXt、SENet 和 SKNet 的启 3)锚框大小确定。原始 RPN 网络设置 9 个
发 ,分 离 注 意 力 网 络 (split-attention networks, 锚 框 为 初 始 检 测 框 ,锚 框 大 小 分 别 为 128、256、
[19]
ResNeSt)使用分离注意力模块将特征图分离为 512,长宽比分别为 1∶1、1∶2、2∶1,初始大小设置
几个组,每组的特征通过分离表示的加权组合确 不能完全符合不同的特征数据集,因此本文使用
定和表示,通过多个模块组合从而形成网络。本 二阶聚类对特征数据集中的锚框进行聚类分析。
文的地形特征数据集为多通道数据,并且含有大 二阶聚类能够对大样本的连续变量和分类变量
量 代 表 地 形 特 征 的 信 息 ,通 道 信 息 之 间 相 互 影 进行聚类,能够自动确定类别数量,避免欧氏距
响,ResNeSt 网络保留学习深度并且能够实现跨 离对于离散点敏感造成聚类效果不理想的问题,
通道特征交流,比 VGG 和 ResNet 网络更能深层 最后将聚类结果作为锚框初始参数设置。
次挖掘地形特征。 4)IoU。生成的锚框并不一定全部准确,因
2)特 征 提 取 网 络 融 合 。 特 征 金 字 塔 网 络 此需要引入 IoU 来对所有锚框进行筛选。IoU 参
[20]
(feature pyramid networks,FPN) 是 针 对 目 标 数 设 置 将 会 对 训 练 结 果 造 成 影 响 ,本 文 使 用
检测提出的一种检测多尺度网络,在不提升计算 IoU> 0.7 标记为正样本锚框,IoU< 0.3 标记为负
量的前提下,增加检测小目标的能力。本文数据 样本锚框,介于两者之间的样本为难例,为了提
集存在大量尺寸为 10×10 的山顶区域,小目标所 高模型质量,不参与训练。IoU 值计算式如下:
包含的特征信息较少,易被特征提取网络忽略。 A anchor ∩ B anchor
I IoU= (2)
在特征提取网络 ResNeSt 中融合 FPN,FPN 将所 A anchor ∪ B anchor
有 层 的 特 征 保 留 ,将 特 征 由 上 至 下 进 行 侧 边 连 式 中 , A anchor 为 预 测 锚 框 面 积 ; B anchor 为 实 际 锚 框
接,同时进行横向连接,将高层的特征进行上采 面积。
样内插值,使各层特征大小相同,再将其与前一 5)NMS。NMS 的思想是找到局部置信度的
层特征进行连接,保证所有尺度的特征都具有良 极大值,筛选局部周围的多余锚框,从而获得清
好 的 几 何 信 息 和 语 义 信 息 。 网 络 结 构 如 图 6 晰的目标位置。在本数据集中的作用是寻找同
所示。 一区域内相同类别的区域,保留置信度更高的区
域,如果 NMS 设置的较高,相邻的区域将会只有
一个保留下来。随后再次对锚框进行回归计算,
计算锚框坐标与真实锚框坐标的偏移量,对锚框
位置进行微调,如图 7 所示。
图 6 FPN 模型结构
Fig. 6 Structure of FPN Model
图 7 非极大值抑制
由于使用的特征图由单层变成了多层,结合 Fig. 7 Non-Maximum Suppression
ResNeSt 网络中的感兴趣区域(region of interest,
6)预训练权重与冻结训练提高模型泛化能
ROI)Pooling 层就需要相应变化,对不同层的特
力。将预训练权重主要参数结构进行网络结构
征使用不同的 ROI 尺度。大尺度 ROI 使用深层
相 应 修 改 ,使 用 冻 结 训 练 和 解 冻 训 练 进 行 预 训
特征作为输入,小尺度 ROI 使用浅层特征作为输
练,先冻结不修改权重参数学习特征,再解冻进
入,定义 P k 系数作为判断依据,计算式为:
é ( ) ù 行参数微调,获得属于本文特征数据集的训练权
int( P k) = k 0 + log 2 ωh 256 (1) [21]
ë û 重 。预训练结束后进行特征数据集的正式训