Page 49 - 《中国医疗器械杂志》2025年第2期
P. 49
Chinese Journal of Medical Instrumentation 2025 年 第49卷 第2期
综 合 评 述
图像的三维重建技术多采用传统立体匹配算法 [4-5] 。 的金标准数据集,且属于相同或相似领域的训练数
近年来,针对传统立体匹配某一关键步骤的 据集和测试数据集难以满足使用要求。临床上主要
算法改进对提高结果精度产生了明显的影响。例 采用两种方式解决,一是使用模拟模型、CT等辅
如,采用尺度不变特征变换匹配(scale invariant 助数据进行训练;二是采用内窥镜图像进行自监督
feature transform, SIFT)算法与加速具有鲁棒性特 训练。
[6]
征(speeded-up robust features, SURF)算法 进行 Blender是一款具有强大的建模能力的图形软件,
特征提取,采用特征补丁匹配算法提高立体匹配 因此基于Blender建立腹腔模型作为内窥镜图像三维
[7]
稳定性及计算速度 ,采用HOG构建初始成本量 [8] 重建的训练数据集是一个不错的选择 [15-16] ,但这种
等方法均在一定程度上改善了传统框架面对内 方法建立的模拟数据与真实数据之间的差距仍然较
窥镜影像所产生的低鲁棒性或高敏感性等问题。 大,容易导致后续临床应用的泛化性能不好。
ZHANG等 以腹腔镜下肾部分切除术为研究对 采用CT数据集作为真值用于训练也是一个比较
[9]
象,提出了基于中心对称普查的半全局块立体匹 [17]
常见的选择。例如,SERV-CT数据集 在一定程度
配算法来生成密集视差图,实现了±2 mm的重建
上解决了数据饥渴的问题,但在实际应用时CT获取
精度。
的数据集与真实深度值因术中组织器官变形而存在
以上方法改进了传统立体匹配的部分算法,能
一定的误差。
达到更高效和更低复杂度的效果,但其主要依赖人
更多研究采用自监督的训练方式,从而降低对
为设计的算法,对复杂环境深度的估计准确性无法
金标准数据集的要求,解决数据饥渴问题的同时提
满足临床需求 [10-11] 。
高网络的泛化性能。自监督网络的性能主要依赖损
1.3 基于深度学习的双目内窥镜图像三维重建 失函数的准确构建。基于自监督深度学习的三维重
技术 建流程如图3所示。首先对原始立体图像进行视差
基于深度学习的双目视觉三维重建算法依赖神 估计得到左右视差图,计算视差平滑损失L 和左右
d
经网络强大的特征提取和模型表达能力,能够基于 一致性损失L ;然后分别用视差图对原始图像进行
c
海量的数据集学习得到更加鲁棒和有效的特征,这 插值得到重建的左右目图像,并对重建后的图像与
使其重建精度远远超过大多数传统算法。一般场景
原始图像计算外观损失L 和L ;最后加权得到最终
R
L
下的基于深度学习的三维重建算法已经持续发展了
的损失函数。
数十年,在KITTI等数据集上表现出了不错的估计
[18]
YE等 提出用自监督孪生网络对左右图像进
结果 [12-14] ,且目前大多数深度学习框架借鉴了传统
行深度估计,较早地将深度学习应用于腹腔镜图
立体匹配算法的流程,即将模型的每个模块与传统
像深度估计,为临床缺乏深度金标准信息的现状
立体匹配算法流程一一对应,包括特征提取、代价
提供了一定的解决方案。BARDOZZO等 在YE等
[19]
体构建、代价聚合和视差计算。一个典型的结构是
的研究基础上,提出了一种新型自监督堆叠和连
使用卷积神经网络编码器提取左右目图像的特征,
体编码器/解码器神经网络——StaSiS-Net,消除了
然后拼接左右目图像的特征得到4D代价体(长×
宽×最大视差范围×特征),再利用3D卷积进行代 对标记训练数据的需求。
价聚合,最终通过视差回归得到密集视差估计。许 部分研究采用一般场景下表现优秀的网络框架
多研究工作通过不断改进这个架构的一个或多个模 的预训练模型测试内窥镜数据,以期得到较高的精
[20]
块提升了网络的性能。 度。例如,YANG等 基于一个视差细化框架,结
但内窥镜影像具有数据饥渴、手术烟雾、图像 合前期的深度学习网络架构,在SceneFlow数据集
校正不准、高表面反射等因素引起的图像质量不 上进行预训练,并在SCARED数据集上基于AANet
佳,以及手术器械遮挡带来的局限性等问题,导致 等基础网络进行测试,得到了均方根误差为(4.98 ±
在一般场景下应用良好的模型迁移到内窥镜场景下 6.58)mm的精度结果。
大概率会出现泛化性能不好的现象。针对上述问 另外,采用预训练与自监督相结合的方式不仅
题,制定、挖掘更能适应内窥镜场景的三维重建方 能解决数据饥渴问题,还能进一步提高视差估计精
法成为新的研究重点。 度,WEI等 [21] 的研究在SCARED数据集上获得了
[20]
1.3.1 数据饥渴 2.959 mm的均方根误差值,相比仅采用预训练 获
实际临床上难以获得用于训练的大量具有深度 得的视差估计精度,优势明显。
163