Page 289 - 《软件学报》2025年第4期
P. 289

樊铭瑞 等: 基于深度学习的多视图立体视觉综述                                                         1695


                 视图立体视觉整体架构改进, 包括基于体素的深度学习                  MVS  方法、基于深度图的深度学习           MVS  方法和基于辐
                 射场的深度学习      MVS  方法. 第  3  节介绍各类常用数据集和重建结果的评价指标. 第               4  节对各种方法在数据集上
                 进行分析对比. 第     5  节讨论该领域现有的难点和未来的研究方向.

                 1   基于深度学习的       MVS  局部模块改进

                    多视图立体视觉通用流程是提取特征点, 进行特征匹配, 并计算深度图, 然后通过深度图融合得到三维模型.
                 卷积神经网络     (CNN) 在图像识别、目标检测和语义分割等领域应用广泛. 在多视图立体视觉任务中, 前人也提出
                 了多种基于    CNN  改进流程中单个步骤的方法. 本文重点关注影响最终的准确率和消耗内存资源大小的匹配代价
                 计算部分.
                    匹配代价是指特征像素点或像素窗口之间的差值, 常用于视图之间的两两匹配. 为了解决手工设计的描述符
                 无法最佳地表示特征的问题, 有研究者受深度学习进展的启发进行了一系列的工作. Žbontar 等人                          [8] 摒弃了使用手
                 工设计的特征来计算立体匹配代价, 提出             MC-CNN  来预测两个图像块之间的匹配程度. 与文献              [8] 类似, 文献  [9]
                 提出了多种基于      CNN  的架构, 能够直接从图像的像素中学习到相似函数, 从而实现对图像补丁之间相似度的比
                                     (learnt stereo machine, LSM) 的方法. LSM
                 较. 此外, 针对基于面片的匹配方式无法充分匹配图像块的问题, 受新一代学习描述符的启发, Han                           等人  [10] 利用度
                 量学习定义相似性, 从而计算出小图像块之间的匹配代价, 但是无法寻找到图像之间的对应部分. 文献                                [11] 构建
                 了一个包含相似和不相似块对的二元分类数据集, 并根据速度和准确率的不同设计了两种                              CNN  结构, 以学习图像
                 块上的相似性度量并将其应用于立体匹配问题. 针对立体匹配过程中传统方法在有反射性和无纹理的平面容易产
                 生歧义的问题, Güney    等人  [12] 引入基于稀疏视差估计和图像语义分割的逆向图形技术, 通过分类确定目标视差位
                 置, 在更大距离范围上进行正则化, 有效地解决了此问题. 实际上, 上述工作将问题视作二分类问题来学习匹配网
                 络的参数, 产生了昂贵的计算代价. 为了实现快速的               GPU  计算, 文献  [13] 通过内积层计算连接层中两个特征的内
                 积, 并将问题视作多分类问题来训练网络.
                    尽管此阶段的模型已经取得了一定的成效, 但是也存在一些局限性. 采用多阶段方法的模型复杂度高, 可能会
                 导致数据传输过程中的不一致问题, 影响模型的精度和鲁棒性. 因此, 后续工作逐渐尝试采用端到端的结构解决问
                 题. 根据场景表示的不同, 将其分为基于体素和基于深度图两类框架体系结构.

                 2   基于深度学习的       MVS  整体架构改进

                    过去的工作集中于对        MVS  流程中部分步骤进行改进后集成, 但由于缺乏上下文几何知识, 它们的性能在具
                 有挑战性的场景中受到限制. 只有将整个流程设计为端到端的学习框架, 才能激发出多视图立体视觉更大的潜力.
                 基于深度学习的端到端         MVS  架构分为   3  种方法: 基于体素、基于深度图和基于辐射场. 下面详细介绍这                  3  种方
                 法的研究现状.

                 2.1   基于体素的方法

                    为了应对传统方法在缺乏纹理或宽基线情况下导致的重建失败问题, 受长短期记忆网络 (long short-term
                                           [19]
                 memory, LSTM) 的启发, 3D-R2N2  将单视图或多视角图像作为输入, 建立             2D  图像和  3D  体素之间的映射关系,
                 以三维占用网格的形式输出重建模型. 但是, 重建模型的精度低, 无法反映出目标物体的细节信息. Kar 等人                               [20]
                 提出一种名为立体学习机                                         直接利用相机参数投影形成代价体, 将像素特
                 征向上投影到     3D  体素, 并根据体素是否被曲面占据进行分类. 虽然上述方法都已经开始将卷积神经网络应用到
                 多视图立体视觉的研究中, 但是生成的三维模型都比较粗糙, 缺乏细节信息. 第                       1  个基于深度学习的端到端        MVS
                 重建系统是    SurfaceNet 网络  [14] . 它以一组图像和对应的摄像机参数作为输入, 预测体素表面概率, 再转换为曲面,
                 直接获得三维模型.
                    值得注意的是, SurfaceNet 是第     1  个端到端的, 也是第     1  个基于体素的多视图立体视觉深度学习框架. 在
                 SurfaceNet 之前, 所有结合深度学习的多视图立体视觉方法虽然已经取得了很大的进步, 但是缺点也很明显: 分块
   284   285   286   287   288   289   290   291   292   293   294