Page 49 - 《中国医疗器械杂志》2025年第2期
P. 49

Chinese Journal of Medical Instrumentation                                         2025 年 第49卷 第2期

                                                    综     合     评    述



              图像的三维重建技术多采用传统立体匹配算法                       [4-5] 。  的金标准数据集,且属于相同或相似领域的训练数
                  近年来,针对传统立体匹配某一关键步骤的                           据集和测试数据集难以满足使用要求。临床上主要
              算法改进对提高结果精度产生了明显的影响。例                             采用两种方式解决,一是使用模拟模型、CT等辅
              如,采用尺度不变特征变换匹配(scale invariant                    助数据进行训练;二是采用内窥镜图像进行自监督
              feature transform, SIFT)算法与加速具有鲁棒性特               训练。
                                                      [6]
              征(speeded-up robust features, SURF)算法 进行              Blender是一款具有强大的建模能力的图形软件,
              特征提取,采用特征补丁匹配算法提高立体匹配                             因此基于Blender建立腹腔模型作为内窥镜图像三维
                               [7]
              稳定性及计算速度 ,采用HOG构建初始成本量                       [8]  重建的训练数据集是一个不错的选择                  [15-16] ,但这种
              等方法均在一定程度上改善了传统框架面对内                              方法建立的模拟数据与真实数据之间的差距仍然较
              窥镜影像所产生的低鲁棒性或高敏感性等问题。                             大,容易导致后续临床应用的泛化性能不好。
              ZHANG等 以腹腔镜下肾部分切除术为研究对                                采用CT数据集作为真值用于训练也是一个比较
                        [9]
              象,提出了基于中心对称普查的半全局块立体匹                                                               [17]
                                                                常见的选择。例如,SERV-CT数据集 在一定程度
              配算法来生成密集视差图,实现了±2 mm的重建
                                                                上解决了数据饥渴的问题,但在实际应用时CT获取
              精度。
                                                                的数据集与真实深度值因术中组织器官变形而存在
                  以上方法改进了传统立体匹配的部分算法,能
                                                                一定的误差。
              达到更高效和更低复杂度的效果,但其主要依赖人
                                                                    更多研究采用自监督的训练方式,从而降低对
              为设计的算法,对复杂环境深度的估计准确性无法
                                                                金标准数据集的要求,解决数据饥渴问题的同时提
              满足临床需求       [10-11] 。
                                                                高网络的泛化性能。自监督网络的性能主要依赖损

              1.3    基于深度学习的双目内窥镜图像三维重建                         失函数的准确构建。基于自监督深度学习的三维重
                   技术                                           建流程如图3所示。首先对原始立体图像进行视差
                  基于深度学习的双目视觉三维重建算法依赖神                          估计得到左右视差图,计算视差平滑损失L 和左右
                                                                                                       d
              经网络强大的特征提取和模型表达能力,能够基于                            一致性损失L ;然后分别用视差图对原始图像进行
                                                                            c
              海量的数据集学习得到更加鲁棒和有效的特征,这                            插值得到重建的左右目图像,并对重建后的图像与
              使其重建精度远远超过大多数传统算法。一般场景
                                                                原始图像计算外观损失L 和L ;最后加权得到最终
                                                                                      R
                                                                                           L
              下的基于深度学习的三维重建算法已经持续发展了
                                                                的损失函数。
              数十年,在KITTI等数据集上表现出了不错的估计
                                                                         [18]
                                                                    YE等 提出用自监督孪生网络对左右图像进
              结果  [12-14] ,且目前大多数深度学习框架借鉴了传统
                                                                行深度估计,较早地将深度学习应用于腹腔镜图
              立体匹配算法的流程,即将模型的每个模块与传统
                                                                像深度估计,为临床缺乏深度金标准信息的现状
              立体匹配算法流程一一对应,包括特征提取、代价
                                                                提供了一定的解决方案。BARDOZZO等 在YE等
                                                                                                     [19]
              体构建、代价聚合和视差计算。一个典型的结构是
                                                                的研究基础上,提出了一种新型自监督堆叠和连
              使用卷积神经网络编码器提取左右目图像的特征,
                                                                体编码器/解码器神经网络——StaSiS-Net,消除了
              然后拼接左右目图像的特征得到4D代价体(长×
              宽×最大视差范围×特征),再利用3D卷积进行代                           对标记训练数据的需求。
              价聚合,最终通过视差回归得到密集视差估计。许                                部分研究采用一般场景下表现优秀的网络框架
              多研究工作通过不断改进这个架构的一个或多个模                            的预训练模型测试内窥镜数据,以期得到较高的精
                                                                                   [20]
              块提升了网络的性能。                                        度。例如,YANG等 基于一个视差细化框架,结
                  但内窥镜影像具有数据饥渴、手术烟雾、图像                          合前期的深度学习网络架构,在SceneFlow数据集
              校正不准、高表面反射等因素引起的图像质量不                             上进行预训练,并在SCARED数据集上基于AANet
              佳,以及手术器械遮挡带来的局限性等问题,导致                            等基础网络进行测试,得到了均方根误差为(4.98 ±
              在一般场景下应用良好的模型迁移到内窥镜场景下                            6.58)mm的精度结果。
              大概率会出现泛化性能不好的现象。针对上述问                                 另外,采用预训练与自监督相结合的方式不仅
              题,制定、挖掘更能适应内窥镜场景的三维重建方                            能解决数据饥渴问题,还能进一步提高视差估计精
              法成为新的研究重点。                                        度,WEI等     [21] 的研究在SCARED数据集上获得了

                                                                                                          [20]
              1.3.1    数据饥渴                                     2.959 mm的均方根误差值,相比仅采用预训练 获
                  实际临床上难以获得用于训练的大量具有深度                          得的视差估计精度,优势明显。


                                                             163
   44   45   46   47   48   49   50   51   52   53   54