Page 196 - 《软件学报》2025年第5期
P. 196

2096                                                       软件学报  2025  年第  36  卷第  5  期


                 分布加速重建结果逼近真值.
                    (2) 提出基于   StyleGAN  的辅助点云生成模型. 通过生成的风格化辅助点云对掩码重建结果二次分析, 减缓重
                 建结果受生成新噪声的不良影响.
                    (3) 提出多模态教师模型. 该方法考虑多模态信息间的差异性, 通过设计                    3  种不同约束加强跨模态特征对齐的
                 有效性并防止模态内嵌入信息崩溃对特征空间造成污染.
                    (4) 综合分析现有点云自监督表示学习方法存在的挑战后, 提出基于双向拟合掩码重建的多模态自监督点云
                 表示学习方法. 该方法从特征拟合、噪声点处理以及多模态特征捕获和应用等方面入手, 显著提高预训练模型的
                 下游点云识别精度. 实验结果证明了本文方法的有效性.

                 1   相关工作

                 1.1   基于点云重建的点云自监督表示学习方法
                    基于点云重建的点云自监督表示学习方法旨在从缺失点云重建中捕获特征表示. 其中, 掩码预测为该类方法
                 的核心. OcCo [10] 从多个相机视角遮挡原始点云, 并使用编解码器补全缺失点云, 以获取初始编码权重. PointBERT                    [17]
                 设计了基于    Transformer [18] 的离散变分自动编码器. 该方法将点云分为若干局部区域并随机掩盖某局部区域后, 通
                 过  Transformer 模型学习特征并恢复被掩盖区域. Point-MAE       [19] 成功将二维掩码自动编码器的思想应用至点云表
                 示学习领域. 对于     Point-MAE  中存在局部和全局特征关联性未被充分探索的缺陷, Point-M2AE              [20] 以金字塔模型为
                 基底, 通过多尺度掩码策略生成一致性可见区域, 并利用自注意力机制关注局部区域. MaskPoint                        [21] 将点云表示为
                 离散的占用值, 在掩蔽对象点和采样噪声点之间执行简单的二值分类以完成表示学习任务. 与上述方法不同, 本文
                 所提出的逆密度尺度指导下的“坏教师”模型和基于                 StyleGAN  的辅助点云生成模型以提高在掩码重建工作中重建
                 效率、模型泛化表现及鲁棒性为研究目的, 克服点云表示学习领域中现存亟待解决的挑战.

                 1.2   基于对比学习的点云自监督表示学习方法
                    基于对比学习的点云自监督表示学习方法通常将经过旋转、缩放等数据增强的点云在样本空间中构建正负
                 样本对. 之后, 在特征空间中训练“拉近”正样本距离并“推远”负样本, 以达到学习潜层表示的目的. PointContrast                      [11]
                 将二维对比学习方法的思想引入点云场景理解. 该方法通过对比不同视角下的点云图像以捕获点级稠密特征. 由
                 于  PointContrast 中视角映射将损失空间上下文信息, DepthContrast    [22] 通过对所提取的体素和点级特征进行对比约
                 束以完成自监督任务. ContrastMPCT     [23] 提出基于掩码  Transformer 的自重建对比学习方法, 利用两种对比损失函数
                 探究局部区域的关联性. ConClu      [24] 受到二维图像表示学习中孪生网络          [25] 的启发, 提出由对比和聚类组成的预训练
                 框架, 以最大化被增强数据的全局特征间的相似性. 4DContrast              [26] 成功将四维点云空间的顺序信息应用至三维表
                 示学习, 建立起空间、时空及顺序的关联性.

                 1.3   基于多模态的点云自监督表示学习方法
                    为利用图像和文本等多源信息促进学习点云表示, 研究者们提出众多跨模态预训练方法探索信息有用性.
                 Jing  等人  [27] 提出将图像-点云特征学习方式扩展至跨模态和跨视角. 该方法将图像和点云输入进二维和三维卷积
                 网络学习特征, 并完成跨模态同类判定. I2P-MAE           [28] 通过二维图像特征指导三维掩码自动编码器以重构掩码区域.
                 与随机掩码相比, 二维指导型掩码重建可更好地专注于三维几何结构. Wang                       等人  [29] 提出利用优良的二维图像特
                 征提取器预训练具有几何和色彩保留的三维投影图像. CrossPoint               [13] 利用对比学习度量点云模态内和点云-图像跨
                 模态特征间的相关性. ACT      [30] 通过知识蒸馏证明二维图像或自然语言对三维表示学习存在有益性.
                    除上述图像辅助工作外, 一些文本辅助工作也取得较大进展. PointCLIP                 [31] 受到视觉-文本模型    CLIP [32] 的启发,
                 并对齐基于    CLIP  编码的三维特征和文本特征. 其中, 视间自适应器合并多个全局特征, 并将三维知识迁移至二维
                 模型. 为更深层地挖掘三维数据和语言知识间的潜在关联性, PointCLIP V2                 [33] 不但在视觉端通过形状映射模块改
                 进深度图生成的真实性, 而且在文本端利用                GPT [34] 模型产出有利于三维理解的文本信息作为             CLIP  的输入.
                 ReCon [35] 是以图像和文本为辅助信息的点云自监督表示学习方法. 该方法在结构上吸取对比学习和掩码自动编码
   191   192   193   194   195   196   197   198   199   200   201