Page 141 - 《软件学报》2024年第4期
P. 141
闫涛 等: 一种分组并行的轻量化实时微观三维形貌重建方法 1719
[9]
现有轻量化网络如 MobileNets , ShuffleNet [10] 和 GhostNet [11] 等通常利用深度可分离卷积 DWConv
(depthwise convolution)或者分组卷积 GConv (group convolution)来降低网络模型的计算复杂度. 除上述纯卷积
神经网络之外, 许多研究也开始设计更快更小的 ViT (vision transformer)和多层感知机 MLP (multilayer
perceptron)架构 [12] 降低网络的计算复杂度. 然而, 现有的轻量化网络大多基于二维图像问题设计, 如将其直
接扩展至三维场景, 不仅会增加计算负担, 而且也无法有效利用多聚焦图像序列间特有的邻域序列关联关系.
综上可知: 现有的基于深度网络的多聚焦图像三维形貌重建主要侧重于宏观场景, 较小的输入数据量使
其更加关注网络模型设计的有效性. 而轻量级网络大多侧重于二维图像问题的设计, 并没有对三维数据进行
针对性优化. 除此之外, 宏观场景数据具有典型的物体遮挡和大景深特性, 与微观场景的缓慢过渡与小景深
存在一定的数据鸿沟. 因此, 现有的深度网络设计模式在解决实时微观三维形貌重建问题主要面临如下挑战.
(1) 数据量陡增: 已有的基于深度网络模型的多聚焦图像三维重建方法会随着输入图像序列数据量的
增加而导致模型的推理时间显著增大, 无法满足实际微观场景中的高时效性需求;
(2) 模型不适用: 现有的轻量级网络大多针对二维图像问题设计, 而三维数据需要更多的计算资源与时
间, 导致模型无法有效兼顾低延时与高精度, 且现有轻量级网络无法有效利用多聚焦图像序列间的
关联关系;
(3) 宏微观鸿沟: 现有的深度网络模型大多采用宏观场景中的合成数据集进行训练, 加之宏微观数据内
蕴结构的差异性, 导致采用这类合成数据训练的网络会出现过拟合, 无法准确推断微观场景的三维
结构变化.
针对上述挑战, 本文提出一种分组并行的轻量化实时微观三维形貌重建网络模型 GPLWS-Net, 主要贡献
如下.
(1) 从神经网络各组件时间能耗的角度, 重新审视现有微观三维形貌重建网络的性能瓶颈问题, 提出轻
量化、低延迟的网络主干;
(2) 从多域并行处理多聚焦特征的角度, 设计与多聚焦图像序列三维形貌重建理论相契合的分组并行
模块, 并采用结构重参数化进行模型压缩, 将原有多卷积层恒等映射为单卷积层, 保持三维形貌精
度的同时有效降低网络推理延迟;
(3) 针对微观三维场景数据匮乏的现状, 公开了一组微细加工场景的微观三维数据集(Micro 3D). 该数
据集标签采用“激光共聚焦+多景深合成+手工微调”等方式生成, 弥补了现有微观领域数据集缺乏
的不足.
本文第 1 节主要介绍多聚焦图像三维形貌重建方法与轻量化网络模型的研究进展. 第 2 节提出基于分组
并行的轻量级实时微观三维形貌重建方法 GPLWS-Net. 第 3 节与现有深度学习类方法和模型设计类方法在公
用数据集和无标签真实数据集中进行比较分析. 最后对本研究进行总结和展望.
1 相关工作
多聚焦图像三维形貌重建通过等间隔调整相机与待测场景之间的焦距, 获取可以覆盖场景全部景深范围
N
的多幅不同焦距的图像序列 { }X ii= 1 , 采用聚焦测量算子 FM (focus measure)评价图像序列中各图像的聚焦水
平, 然后将同一区域聚焦水平最大值所在位置聚合为场景的初始深度 D Init , 最后采用迭代修复、正则化等后处
理方法对初始深度图进行精炼得到场景最终的三维形貌重建结果 D [13,14] :
}
D = ( P D Init ), D Init = argmax{FM * X i i= N 1 (1)
1 i≤ ≤ N
其中, X i 为图像序列中第 i 幅图像, N 为图像序列总数, P(⋅)为后处理函数.
1.1 多聚焦图像三维形貌重建研究进展
多聚焦图像三维形貌重建主要分为模型设计与数据驱动两类方法. 模型设计类方法主要围绕图像序列的
聚焦评价与深度图精炼两个关键步骤展开, 其中, 聚焦评价旨在通过设计聚焦测量算子评价一幅图像的聚焦