Page 142 - 《软件学报》2024年第4期
P. 142

1720                                                       软件学报  2024 年第 35 卷第 4 期

         水平,  然后延伸至整个图像序列,  进而获得场景的初始深度图.  这些聚焦测量算子大体可以分为时域和频域
         两类:  时域类算子主要侧重局部图像聚焦水平的刻画,  代表性方法有环状差分算子 RDF  (ring  difference
         filter) [15] 、多方向拉普拉斯算子 MDML (multidirectional modified Laplacian) [16] 等;  频域类算子更加关注图像的
         全局聚焦信息,  典型的频域类算子有非降采样小波变换                  [17] 与 Curvelet 变换 [18] 等.  深度图精炼主要通过对初始
         深度图添加约束条件改善算法的重建效果,  如非凸正则优化                     [19] 、数据保真项  [20] 等.  然而,  模型设计类方法在
         聚焦测量算子的设计过程中存在一定的场景偏向性,  无法保障算法对未知场景的鲁棒性.  除此之外,  深度图
         精炼过分依赖于初始深度图的质量,  低质量初始深度图在精炼过程中容易引发错误深度信息蔓延.  因此,  以
         深度学习为代表的数据驱动类方法逐渐引起学者们的关注.
             近年来,  已有一些研究从深度网络模型构建角度解决多聚焦图像三维形貌重建问题.  但这类方法属于典
                                                             [5]
         型的有监督学习,  模型的性能依赖于数据集本身.  如:  Yang 等人 提出一种基于差分体积的聚焦和散焦网络
                                                                             [6]
         FVNet 和 DFVNet,  该网络主要模拟模型设计类方法的聚焦评价过程;  Hazirbas 等人 提出一种深度卷积神经
         网络 DDFF,  该网络利用光场和 RGB-D 相机对室内场景进行数据采集,  构建了 DDFF-12 数据集,  并对场景的
                                                 [8]
         聚焦信息和深度信息进行端到端学习; Wang 等人 利用深度图像和全聚焦图像之间的关联关系设计了一个可
         共享的卷积神经网络 AiFDepthNet,  该网络引入一个可以被共享的中间注意力图,  用于预测场景深度和全聚
                           [7]
         焦图像; Maximov等人 提出一种利用散焦图像训练的聚焦与散焦对齐网络 DefocusNet.  尽管上述网络模型为
         深度学习类多聚焦图像三维形貌重建提供一些有益的思路,  但在解决实时微观三维形貌重建问题时需要考虑
         如下问题:  首先,  随着输入图像序列分辨率的提升,  网络处理数据量的倍增会导致收敛速度变慢;  其次,  上述
         网络训练的数据集主要集中在宏观场景,  且多数训练集为合成数据,  基于这类数据集设计的网络可能无法有
         效刻画微观场景中缓慢的深度变化与噪声干扰等情况.  因此,  如何针对微观场景特有的数据特点设计轻量化
         网络模型,  是解决实时微观三维形貌重建问题的关键.

         1.2   轻量化神经网络相关研究进展
             近年来,  随着深度神经网络在计算机视觉领域取得巨大成功,  越来越多场景提出了智能化应用需求,  然
         而在实际的资源受限应用场景中通常无法满足神经网络的算力需求.  为权衡神经网络的精度与性能,  轻量化
         神经网络应运而生.  如:  ShuffleNet   [10] ,  SqueezeNet [21] 与 MobileViT [12] 主要是对网络模型的参数进行优化;  而
                  [9]
         MobileNets ,  MobileNeXt [22] ,  GhostNet [11] ,  Xception [23]  和 IGCNets [24]  等模 型则侧 重 于优 化 FLOPs;
         EfficientNet [25] 和 TinyNet [26] 在优化 FLOPs 的同时,  研究了网络的深度、宽度和输入图像分辨率的复合缩放;
         仅有少数网络,  如 ShuffleNetV2   [27] ,  MobileNetV3 [28] ,  FasterNet [29] 和 MobileOne [30] 等对网络推理时间进行优化.
         ShuffleNetV2 [27] 表明 FLOPs 和网络参数量与网络推理时间并没有呈现很好的相关性;  MobileOne               [30] 则发现推
         理时间与 FLOPs 适度相关,  与参数量弱相关.  针对轻量化 ViT 的研究主要试图通过减少注意力操作的复杂度,
         实现网络精度与推理时间的平衡.  如 MobileFormer          [31] 和 MobileViT [12] 针对参数和 FLOPs 进行优化,  其表现已
         经超越了低 FLOPs 的高效卷积神经网络.  尽管这些模型在精度上取得了显著提升,  但推理时间并未随之缩短.
         因此,  仅仅拥有低的 FLOPs 并不能必然导致推理时间的降低.
             综上可知,  现有的轻量级神经网络大多针对二维图像任务设计.  而对于三维数据而言,  更高的输入数据
         量可能导致网络的计算量成倍增加.  因此,  从参数量优化和 FLOPs 优化的视角并不能有效降低网络的推理时
         间和增加推理精度,  需要从网络设计的全链条环节并结合三维数据特有的邻域序列关系重新进行轻量化网络
         模型的设计.  本文首先从理论上分析多聚焦图像序列子域数据分组并行的可行性,  并根据该理论设计了分组
         并行模块,  可有效提升深度信息的寻找过程;  其次,  摒弃原有二维卷积提取单帧图像局部聚焦特征的操作,
         转为三维立体卷积精确跟踪多聚焦图像序列间的差异性,  进而充分利用图像序列间的邻域关系实现高可靠性
         的深度信息判断;  最后,  采用结构重参数方法将三分支稀疏特征提取矩阵变为单分支密集特征提取矩阵,  加
         速网络三维结构预测.
   137   138   139   140   141   142   143   144   145   146   147